Wohin mit all den Daten?

17. Mär. 2022

Den Überblick behalten – ein Ort für alle Daten

Kennen Sie es auch? Sie wollen in Ihrem Unternehmen auf bestimmte Daten zugreifen, können diese aber auf die Schnelle nicht finden – einige liegen auf den Rechnern der Mitarbeitenden, andere auf Datenbanken oder in der Cloud und wieder andere innerhalb von Softwaresystemen. Sie fragen sich, ob es nicht eine Möglichkeit gibt, all’ diese Daten ohne einen großen Aufwand zu sammeln und von einem Ort aus nutzen zu können? Die Antwort ist: Ja!

Die Digitalisierung von Unternehmen ist in vollem Gange:

Prozesse werden optimiert und automatisiert, Kommunikation wird dynamischer und die generelle Effizienz von Unternehmen steigert sich. Die mit der digitalen Transformation einhergehenden, gewaltigen Datenmengen – Stichwort Big Data – können genutzt werden, um Datenanalysen durchzuführen, die hochwertige Erkenntnisse für das eigene Unternehmen generieren können.

Aber wo soll man nun beginnen?

Daten innerhalb des eigenen Unternehmens sind oftmals weitläufig verteilt, nicht zwangsläufig strukturiert und haben unterschiedliche Dateiformate. Die Nutzung einer geeigneten Infrastruktur, die die Daten automatisiert extrahiert und speichert, stellt die Basis für eine organisierte Datenhaltung dar, die anschließende Auswertungen und Analysen ermöglicht.

Der Weg ist das Ziel – mit einem Data Stack

Eine Datenmanagement-Architektur – auch Data Stack genannt – ist eine Lösung, die eine automatisierbare Bereitstellung von Daten und die darauffolgende Möglichkeit der Datenanalyse verspricht. Der gesamte Dataflow von den Datenquellen über die Datenvorbereitung bis hin zur Datenanalyse und der anschließenden Präsentation der Ergebnisse ist innerhalb einer solchen Konstruktion enthalten.

Der Fokus hierbei liegt hauptsächlich auf dem planmäßigen Ablauf eines Workflows. Dabei werden Daten, je nach Bedarf, stündlich, täglich oder monatlich mithilfe einer sogenannten Extract Transform Load (ETL) Software aus diversen Datenquellen extrahiert, deren Art sehr vielfältig sein kann.

Quellformate reichen von API-Endpunkten über Datenbanken bis hin zu einzelnen Dateiformaten, wie beispielsweise CSV oder JSON.

Diese häufig unstrukturierten Daten können dann über von der ETL-Software bereitgestellte, automatisierte Datenpipelines in nachfolgende Ziele, wie Cloud Data Warehouses oder Data Lakes aufbereitet abgelegt werden. Die gespeicherten Daten bieten die Grundlage für die Erstellung von Datenanalysen und der daraus resultierenden Möglichkeit, datengetriebene (Management-) Entscheidungen abzuleiten.

ETL vs. ELT – ein Anagramm, das es in sich hat

Klassische ETL-Software, wie sie seit Jahren in vielen Unternehmen Anwendung findet, extrahiert unstrukturierte Daten aus Quellen, transformiert diese zu strukturierten Daten und lädt sie meist in ein Data Warehouse. Bei den Transformationsprozessen kann es sich beispielsweise um die Reduktion, Normalisierung oder Anonymisierung von Daten handeln.

Vorteile des ETL-Prozesses liegen hier insbesondere in der Reduktion und Verschlüsselung der Daten. Allerdings geht mit der Nutzung von ETL auch ein hoher Instandhaltungsaufwand sowie hohe indirekte Kosten einher, da Geschäftslogik und Transformationsprozesse im Voraus definiert werden müssen.

Im Gegensatz zum bewährten ETL-Prozess wird neuerdings zunehmend auf die Extract Load Transform (ELT) Methode zurückgegriffen. Hier werden extrahierte Daten ungefiltert und mithilfe von Schemakreationen und Mapping-Funktionen in korrekter Datentypform und im Zielformat in einem Data Lake oder einem Data Warehouse gespeichert.

Datentransformationen finden erst im Anschluss statt.

Möglich geworden ist dies durch die sinkenden Speicherkosten marktführender Cloud-Computing-Dienstleister, wie Google, Microsoft oder Amazon.

Die Speicherung großer Datenmengen bietet die Grundlage für Machine Learning Ansätze - noch nicht definierte Analysen können nachträglich durchgeführt werden und es gibt keinen Datenverlust. Beim ELT-Prozess liegt die Gefahr allerdings darin, dass sensible Daten möglicherweise direkt gespeichert werden und Mitarbeitende auf diese zugreifen können, ohne dass diese vorher unkenntlich gemacht worden sind. Daher ist es notwendig, Zugriffsrechte innerhalb eines Data Lakes oder eines Data Warehouses zu definieren.

Haus, See oder Haus am See?

Die Bezeichnung „Data Warehouse“ reicht bis in die 1980er Jahre zurück, weshalb vielen dieser Begriff schon geläufig ist. Data Warehouses ermöglichen es Business-Analysten, Analysen auf Basis dort gespeicherter, strukturierter Daten zu erstellen. Zugriffsrechte für einzelne Datensets oder Tabellen können hier feingranular reguliert werden.

In den frühen 2010er Jahren ist das Konzept des Data Warehouses von großen Technologiekonzernen wie Google und Amazon adaptiert und in Cloud-Umgebungen migriert worden.

Etwa zur gleichen Zeit sind auch Storage-Dienste näher in den Fokus gerückt. Die Idee des Data Lakes war geboren und ermöglicht es Unternehmen, extrem große Mengen an strukturierten, semi-strukturierten und unstrukturierten Daten vergleichsweise kostengünstig zu speichern. Ein Data Lake zeichnet sich durch seine flache Architektur aus, wodurch diverse heterogene Datenformate, wie bspw. CSV-, Bild- oder Textdateien aufgenommen werden können.

Data Lakes können mithilfe von Public-Cloud-Dienstleistern, wie Microsoft Azure, aber auch durch open-source Frameworks, wie Apache Hadoop realisiert werden.

Aber wie nun mit den ganzen Daten umgehen?

Fakt ist, dass die Kosten der Cloud Storage-Dienste deutlich geringer sind als eine vergleichbare Datenhaltung in einem Cloud Data Warehouse. Die Grenzen zwischen Data Lake und Data Warehouse scheinen immer mehr miteinander zu verschwimmen und häufig werden Kombinationen der beiden Konzepte genutzt – der Gedanke des „Data Lakehouses“ ist geboren. Ein typisches Anwendungsbeispiel ist das Laden großer Mengen von Rohdaten mittels ELT-Software in einen Data Lake. Von dort aus werden dann die Daten, die für eine Datenanalyse infrage kommen, in ein Data Warehouse geladen, dort transformiert, aggregiert, gespeichert und Analysten zur Verfügung gestellt.

Doch wie hoch sind die Kosten wirklich?

Der Begriff Cloud klingt für viele noch futuristisch und scheint ohne ausreichend Ressourcen, wie z.B. geschultes IT-Personal oder finanzielle Aufwendungen, kaum erreichbar zu sein. Entscheidet sich ein Unternehmen für den Aufbau einer Infrastruktur für das Datenmanagement, gilt es diverse Faktoren zu identifizieren wie bspw. Datenquellen, Datenmenge, die Anzahl von Analysten, die Art und Weise der Distribution von Daten sowie weitere Aspekte.

Die Preise für individuelle Architekturen variieren je nach eingesetzter Einzellösung also stark. Einige Public-Cloud-Dienstleister bieten Data Lakes, also Speicherlösungen auf die regelmäßig zugegriffen wird, schon ab 0,02$/GB/Monat an. Bei einer Datenmenge von 100 GB entspricht dies 2$ pro Monat.

Hört sich doch eigentlich gar nicht so viel an, oder?

Und wie sieht es im Vergleich bei einem Cloud Data Warehouse aus?

Hier ist es mit der Preisgestaltung ein bisschen komplizierter. Zunächst müssen Faktoren, wie die Menge gespeicherter Daten, die Rechengeschwindigkeit, die abgefragte Datenmenge oder eine Wahl zwischen der Reservierung fester Kapazitäten und der Nutzung von on-demand Lösungen evaluiert werden. Bei einer auf das eigene Unternehmen zugeschnittene Lösung können aber auch hier die Kosten geringgehalten werden.

Ähnlich sieht es bei der Nutzung von ETL/ELT Tools und Business Intelligence (BI) Software aus: Die Kosten hängen stets von den Anwendungsfällen und Bedürfnissen des eigenen Unternehmens ab.

Datenmanagement – wohin geht die Reise?

Datenmanagement-Architekturen können sowohl on-premise, cloudbasiert als auch hybrid sein. Welche für das eigene Unternehmen die richtige ist, hängt von unterschiedlichen Variablen ab.

Tatsächlich bietet die Nutzung öffentlicher Cloud-Dienste diverse positive Effekte für Unternehmen und der Trend ist eindeutig:

Eine von dem Beratungsunternehmen KPMG beauftragte Studie zeigte, dass 2019 38 % der befragten Unternehmen bereits öffentliche Cloud-Dienste nutzen. Das sind 12 % mehr als noch 2015.

Die Nutzung moderner Konzepte, wie ELT, Data Lake und BI-Tool versprechen nicht nur eine automatisierbare Datenhaltung, sondern auch einfache, nutzer- und anwendungsfallspezifische Datenanalysen, damit einhergehende Wissensgenerierung und schlussendlich unternehmerische Mehrwerte. Mit das Beste daran ist, dass Machine Learning Ansätzen aufgrund der großen Datenmengen nun endlich auch auf Unternehmensebene die Tür geöffnet wird.

„The world’s most valuable resource is no longer oil, but data“
(The Economist 05.06.2017)

Unser Data Analyst

ist für Sie da!

Haben Sie Fragen?

Weitere Blogartikel

28. Apr. 2022

Empathy Maps als UX-Tool

Headerbild Empathy Maps
Blog

In Entwicklungs-, Design- oder Marketing-Teams bestehen oftmals unterschiedliche Vorstellungen von Zielgruppen, bzw. dem Endnutzer einer Applikation. Dies kann dann problematisch werden, wenn bspw. neue Features geplant oder versucht wird, den Endnutzer in Texten sowie Bildern direkt anzusprechen. Vor allem aber führt dies oftmals zu langwierigen Prozessen sowie Entscheidungen über die Nutzer und deren Bedürfnisse. Um dieser Herausforderung entgegenzuwirken, lassen sich unterschiedliche Ansätze sowie Methoden nutzen. Eine besonders effiziente und in der Umsetzung einfache Methode ist die „Empathy Map“. Empathy Maps sind ein agiles Tool im Bereich des User Experience Designs, das dabei hilft, die Nutzer sowie deren Bedürfnisse besser zu verstehen und ein einheitliches Mindset im Projekt-Team zu etablieren. Die Nielsen Norman Group, eine Erfolgreiche UX Beratungsfirma aus Amerika, welche von den User Experience Pionieren, Don Norman und Jakob Nielsen gegründet wurde, definiert Empathy Maps wie folgt: mehr

15. Apr. 2022

Flexibel einsetzbare Markupsprache

Blog

Die Idee, dass Daten wertvoll sind und das strukturierte Speichern dieser sinnvoll ist, wurde schon in den 60er Jahren im Konzept des Generic Coding erkannt. Diese Versuche, eine vereinheitlichte Sprache zur Beschreibung von Daten zu entwickeln, mündeten 1986 in die Entstehung der Standard Generalized Markup Language (SGML), welche sich durch die Verwendung von sogenannten Tags auszeichnet. Die Ähnlichkeit zu modernen Markup-Sprachen wie HTML oder XML ist kein Zufall, da diese SGML-konform entstanden sind, sich aber mittlerweile davon gelöst haben, um ihre Struktur weniger eingeschränkt anpassen zu können. mehr

24. Feb. 2022

Mit PWAs in die Zukunft?

Person am Laptop
Blog

Progressive Web-Apps (PWA) – ein neuartiges App-Format, das sich noch in der Entwicklung befindet und versucht, den Weg in die digitale Welt zu finden. Eine Progressive Web-Applikation zeichnet sich dadurch aus, dass sie Eigenschaften von Webseiten mit Merkmalen von nativen Applikationen verknüpft und dadurch sowohl im Web als auch auf mobilen Endgeräten genutzt werden kann. Doch warum Progressive Web-Apps, wenn es bereits klassische App-Varianten gibt, wie beispielsweise native Apps oder hybride Apps? Was genau ist so „Progressive“ an einer PWA und worin liegen die Vor- sowie Nachteile zu klassischen Web-Applikationen? Wir geben einen Überblick und zeigen Ihnen all dies an einem unserer aktuellen Projekte, einer Progressive Web-App als Kassenbuch, das als Feature bei den Warenwirtschafts- sowie ERP-Systemen des Anbieters APRO.CON Software GmbH & Co. KG eingesetzt wird. mehr

21. Okt. 2021

Das Potenzial der Datenanalyse für Unternehmen

Blog

Sich nach einem langen Tag auf die Couch zu setzen ist doch ’was Schönes: Kaum ist das Smartphone aus der Tasche gezogen, wird schnell ein schönes Urlaubsfoto auf Instagram gepostet, neueste Vorkommnisse getwittert oder man verabredet sich innerhalb weniger Sekunden über WhatsApp mit dem besten Freund auf ein Feierabendbier. Die Geschwindigkeit und Menge, mit der Daten heutzutage erzeugt und gesendet werden können, hat in den letzten Jahren spürbar zugenommen und wird sich zukünftig noch erheblich steigern. Spätestens seit dem Datenskandal um Facebook und Cambridge Analytica wissen wir alle, dass Unternehmen Daten nutzen können, um Profite zu generieren. Doch längst nicht immer muss es sich um personenbezogene Daten handeln. Es gibt eine Vielzahl weiterer Daten in jedem Unternehmen, die in der Auswertung wertvolle Erkenntnisse liefern können. Doch wieso lohnt es sich überhaupt für Unternehmen eigene Daten zu analysieren und wie sieht der perfekte Prozess einer Datenanalyse aus? mehr