Wohin mit all den Daten?

17. Mär. 2022

Den Überblick behalten – ein Ort für alle Daten

Kennen Sie es auch? Sie wollen in Ihrem Unternehmen auf bestimmte Daten zugreifen, können diese aber auf die Schnelle nicht finden – einige liegen auf den Rechnern der Mitarbeitenden, andere auf Datenbanken oder in der Cloud und wieder andere innerhalb von Softwaresystemen. Sie fragen sich, ob es nicht eine Möglichkeit gibt, all’ diese Daten ohne einen großen Aufwand zu sammeln und von einem Ort aus nutzen zu können?

Die Antwort ist: Ja!

Die Digitalisierung von Unternehmen ist in vollem Gange: Prozesse werden optimiert und automatisiert, Kommunikation wird dynamischer und die generelle Effizienz von Unternehmen steigert sich. Die mit der digitalen Transformation einhergehenden, gewaltigen Datenmengen – Stichwort Big Data – können genutzt werden, um Datenanalysen durchzuführen, die hochwertige Erkenntnisse für das eigene Unternehmen generieren können.

Aber wo soll man nun beginnen? Daten innerhalb des eigenen Unternehmens sind oftmals weitläufig verteilt, nicht zwangsläufig strukturiert und haben unterschiedliche Dateiformate. Die Nutzung einer geeigneten Infrastruktur, die die Daten automatisiert extrahiert und speichert, stellt die Basis für eine organisierte Datenhaltung dar, die anschließende Auswertungen und Analysen ermöglicht.

Der Weg ist das Ziel – mit einem Data Stack

Eine Datenmanagement-Architektur – auch Data Stack genannt – ist eine Lösung, die eine automatisierbare Bereitstellung von Daten und die darauffolgende Möglichkeit der Datenanalyse verspricht. Der gesamte Dataflow von den Datenquellen über die Datenvorbereitung bis hin zur Datenanalyse und der anschließenden Präsentation der Ergebnisse ist innerhalb einer solchen Konstruktion enthalten.

Der Fokus hierbei liegt hauptsächlich auf dem planmäßigen Ablauf eines Workflows. Dabei werden Daten, je nach Bedarf, stündlich, täglich oder monatlich mithilfe einer sogenannten Extract Transform Load (ETL) Software aus diversen Datenquellen extrahiert, deren Art sehr vielfältig sein kann.

Quellformate reichen von API-Endpunkten über Datenbanken bis hin zu einzelnen Dateiformaten, wie beispielsweise CSV oder JSON.

Diese häufig unstrukturierten Daten können dann über von der ETL-Software bereitgestellte, automatisierte Datenpipelines in nachfolgende Ziele, wie Cloud Data Warehouses oder Data Lakes aufbereitet abgelegt werden. Die gespeicherten Daten bieten die Grundlage für die Erstellung von Datenanalysen und der daraus resultierenden Möglichkeit, datengetriebene (Management-) Entscheidungen abzuleiten.

ETL vs. ELT – ein Anagramm, das es in sich hat

Klassische ETL-Software, wie sie seit Jahren in vielen Unternehmen Anwendung findet, extrahiert unstrukturierte Daten aus Quellen, transformiert diese zu strukturierten Daten und lädt sie meist in ein Data Warehouse. Bei den Transformationsprozessen kann es sich beispielsweise um die Reduktion, Normalisierung oder Anonymisierung von Daten handeln.

Vorteile des ETL-Prozesses liegen hier insbesondere in der Reduktion und Verschlüsselung der Daten. Allerdings geht mit der Nutzung von ETL auch ein hoher Instandhaltungsaufwand sowie hohe indirekte Kosten einher, da Geschäftslogik und Transformationsprozesse im Voraus definiert werden müssen.

Im Gegensatz zum bewährten ETL-Prozess wird neuerdings zunehmend auf die Extract Load Transform (ELT) Methode zurückgegriffen. Hier werden extrahierte Daten ungefiltert und mithilfe von Schemakreationen und Mapping-Funktionen in korrekter Datentypform und im Zielformat in einem Data Lake oder einem Data Warehouse gespeichert.

Die Datentransformationen finden erst im Anschluss statt.

Möglich geworden ist dies durch die sinkenden Speicherkosten marktführender Cloud-Computing-Dienstleister, wie Google, Microsoft oder Amazon. Die Speicherung großer Datenmengen bietet die Grundlage für Machine Learning Ansätze - noch nicht definierte Analysen können nachträglich durchgeführt werden und es gibt keinen Datenverlust. Beim ELT-Prozess liegt die Gefahr allerdings darin, dass sensible Daten möglicherweise direkt gespeichert werden und Mitarbeitende auf diese zugreifen können, ohne dass diese vorher unkenntlich gemacht worden sind. Daher ist es notwendig, Zugriffsrechte innerhalb eines Data Lakes oder eines Data Warehouses zu definieren.

Haus, See oder Haus am See?

Die Bezeichnung „Data Warehouse“ reicht bis in die 1980er Jahre zurück, weshalb vielen dieser Begriff schon geläufig ist. Data Warehouses ermöglichen es Business-Analysten, Analysen auf Basis dort gespeicherter, strukturierter Daten zu erstellen. Zugriffsrechte für einzelne Datensets oder Tabellen können hier feingranular reguliert werden.

In den frühen 2010er Jahren ist das Konzept des Data Warehouses von großen Technologiekonzernen wie Google und Amazon adaptiert und in Cloud-Umgebungen migriert worden.

Data Lakes können mithilfe von Public-Cloud-Dienstleistern, wie Microsoft Azure, aber auch durch open-source Frameworks, wie Apache Hadooprealisiert werden. Etwa zur gleichen Zeit sind auch Storage-Dienste näher in den Fokus gerückt. Die Idee des Data Lakes war geboren und ermöglicht es Unternehmen, extrem große Mengen an strukturierten, semi-strukturierten und unstrukturierten Daten vergleichsweise kostengünstig zu speichern.

Ein Data Lake zeichnet sich durch seine flache Architektur aus, wodurch diverse heterogene Datenformate, wie bspw. CSV-, Bild- oder Textdateien aufgenommen werden können. Aber wie nun mit den ganzen Daten umgehen?

Fakt ist, dass die Kosten der Cloud Storage-Dienste deutlich geringer sind als eine vergleichbare Datenhaltung in einem Cloud Data Warehouse. Die Grenzen zwischen Data Lake und Data Warehouse scheinen immer mehr miteinander zu verschwimmen und häufig werden Kombinationen der beiden Konzepte genutzt – der Gedanke des „Data Lakehouses“ ist geboren. Ein typisches Anwendungsbeispiel ist das Laden großer Mengen von Rohdaten mittels ELT-Software in einen Data Lake. Von dort aus werden dann die Daten, die für eine Datenanalyse infrage kommen, in ein Data Warehouse geladen, dort transformiert, aggregiert, gespeichert und Analysten zur Verfügung gestellt.

Doch wie hoch sind die Kosten wirklich?

Der Begriff Cloud klingt für viele noch futuristisch und scheint ohne ausreichend Ressourcen, wie z.B. geschultes IT-Personal oder finanzielle Aufwendungen, kaum erreichbar zu sein. Entscheidet sich ein Unternehmen für den Aufbau einer Infrastruktur für das Datenmanagement, gilt es diverse Faktoren zu identifizieren wie bspw. Datenquellen, Datenmenge, die Anzahl von Analysten, die Art und Weise der Distribution von Daten sowie weitere Aspekte.

Die Preise für individuelle Architekturen variieren je nach eingesetzter Einzellösung also stark. Einige Public-Cloud-Dienstleister bieten Data Lakes, also Speicherlösungen auf die regelmäßig zugegriffen wird, schon ab 0,02$/GB/Monat an. Bei einer Datenmenge von 100 GB entspricht dies 2$ pro Monat.

Hört sich doch eigentlich gar nicht so viel an, oder? Und wie sieht es im Vergleich bei einem Cloud Data Warehouse aus?

Hier ist es mit der Preisgestaltung ein bisschen komplizierter. Zunächst müssen Faktoren, wie die Menge gespeicherter Daten, die Rechengeschwindigkeit, die abgefragte Datenmenge oder eine Wahl zwischen der Reservierung fester Kapazitäten und der Nutzung von on-demand Lösungen evaluiert werden. Bei einer auf das eigene Unternehmen zugeschnittene Lösung können aber auch hier die Kosten geringgehalten werden.

Ähnlich sieht es bei der Nutzung von ETL/ELT Tools und Business Intelligence (BI) Software aus: Die Kosten hängen stets von den Anwendungsfällen und Bedürfnissen des eigenen Unternehmens ab.

Datenmanagement – wohin geht die Reise?

Datenmanagement-Architekturen können sowohl on-premise, cloudbasiert als auch hybrid sein. Welche für das eigene Unternehmen die richtige ist, hängt von unterschiedlichen Variablen ab.

Tatsächlich bietet die Nutzung öffentlicher Cloud-Dienste diverse positive Effekte für Unternehmen und der Trend ist eindeutig:

Eine von dem Beratungsunternehmen KPMG beauftragte Studie zeigte, dass 2019 38 % der befragten Unternehmen bereits öffentliche Cloud-Dienste nutzen. Das sind 12 % mehr als noch 2015.

Die Nutzung moderner Konzepte, wie ELT, Data Lake und BI-Tool versprechen nicht nur eine automatisierbare Datenhaltung, sondern auch einfache, nutzer- und anwendungsfallspezifische Datenanalysen, damit einhergehende Wissensgenerierung und schlussendlich unternehmerische Mehrwerte. Mit das Beste daran ist, dass Machine Learning Ansätzen aufgrund der großen Datenmengen nun endlich auch auf Unternehmensebene die Tür geöffnet wird.

„The world’s most valuable resource is no longer oil, but data“
(The Economist 05.06.2017)

Unser Data Analyst

Dr. Daniel Schlitt

ist für Sie da!

Haben Sie Fragen?

Weitere Blogartikel

08. Jan. 2024

Persönlich nachgefragt bei Adrian Macha und Torben Schinke von worldiety

Blog

Wie schauen Adrian Macha und Torben Schinke heute auf das Projekt „worldiety Zentrum Oldenburg“? mehr

10. Jan. 2023

Generator für Softwarearchitekturen

Blog

Bei der Entwicklung von Software treten bei fortlaufender Dauer, entsprechender Größe, Komplexität und bei häufig auftretenden Änderungen Herausforderungen hinsichtlich der Architektur des zu entwickelnden Softwaresystems auf. Diese bestehen zumeist darin, den immer größer werdenden Quellcode und die zunehmende Anzahl von Softwarekomponenten passend zu organisieren. Die Architektur des Softwaresystems ist dabei maßgeblich für die Wartung und Anpassungsfähigkeit der Software als auch für die Einarbeitungszeit neuer Entwickler. mehr

01. Mai. 2022

Benutzerdokumentation automatisiert generieren

Blog

Die agile Softwareentwicklung hat sich in den letzten Jahren zu einem wichtigen Ansatz der technischen Umsetzbarkeit entfaltet. Neben den Vorteilen, wie z. B. Flexibilität, Fehlererkennung und erhöhte Performanz durch eine stetige Kommunikation, bringt eine agile Softwareentwicklung jedoch auch Einschränkungen mit sich. So wird die Dokumentation - zu welcher auch die Benutzerdokumentation zählt - eher relativiert betrachtet und zugunsten der engen Zusammenarbeit zwischen Entwickler:innen, Tester:innen, Kund:innen und Nutzer:innen auf ein Minimum beschränkt. Bedingt durch Covid-19 musste der persönliche Kontakt mit Kunden, welcher in einer agilen Entwicklungsumgebung einen hohen Stellenwert besitzt, auf ein Minimum reduziert werden. Dabei gewann Software allgemein in den letzten Jahren immer mehr an Komplexität, welches auch eine zunehmende Rolle in der Organisation von Informationen innerhalb der Benutzerdokumentation zur Folge hat. mehr

28. Apr. 2022

Empathy Maps als UX-Tool

Headerbild Empathy Maps
Blog

In Entwicklungs-, Design- oder Marketing-Teams bestehen oftmals unterschiedliche Vorstellungen von Zielgruppen, bzw. dem Endnutzer einer Applikation. Dies kann dann problematisch werden, wenn bspw. neue Features geplant oder versucht wird, den Endnutzer in Texten sowie Bildern direkt anzusprechen. Vor allem aber führt dies oftmals zu langwierigen Prozessen sowie Entscheidungen über die Nutzer und deren Bedürfnisse. Um dieser Herausforderung entgegenzuwirken, lassen sich unterschiedliche Ansätze sowie Methoden nutzen. Eine besonders effiziente und in der Umsetzung einfache Methode ist die „Empathy Map“. Empathy Maps sind ein agiles Tool im Bereich des User Experience Designs, das dabei hilft, die Nutzer sowie deren Bedürfnisse besser zu verstehen und ein einheitliches Mindset im Projekt-Team zu etablieren. Die Nielsen Norman Group, eine Erfolgreiche UX Beratungsfirma aus Amerika, welche von den User Experience Pionieren, Don Norman und Jakob Nielsen gegründet wurde, definiert Empathy Maps wie folgt: mehr