Lohnt sich Datenanalyse für Unternehmen?
Sich nach einem langen Tag auf die Couch zu setzen ist doch ’was Schönes: Kaum ist das Smartphone aus der Tasche gezogen, wird schnell ein schönes Urlaubsfoto auf Instagram gepostet, neueste Vorkommnisse getwittert oder man verabredet sich innerhalb weniger Sekunden über WhatsApp mit dem besten Freund auf ein Feierabendbier.
Die Geschwindigkeit und Menge, mit der Daten heutzutage erzeugt und gesendet werden können, hat in den letzten Jahren spürbar zugenommen und wird sich zukünftig noch erheblich steigern.
Spätestens seit dem Datenskandal um Facebook und Cambridge Analytica wissen wir alle, dass Unternehmen Daten nutzen können, um Profite zu generieren. Doch längst nicht immer muss es sich um personenbezogene Daten handeln. Es gibt eine Vielzahl weiterer Daten in jedem Unternehmen, die in der Auswertung wertvolle Erkenntnisse liefern können.
Doch wieso lohnt es sich überhaupt für Unternehmen eigene Daten zu analysieren und wie sieht der perfekte Prozess einer Datenanalyse aus?
Datenanalyse: Wieso, weshalb, warum
Zunächst einmal muss geklärt werden, was man unter dem Begriff "Daten" überhaupt alles versteht. Laut Duden handelt es sich bei Daten um „(durch Beobachtungen, Messungen, statistische Erhebungen u. a. gewonnene) [Zahlen]werte, (auf Beobachtungen, Messungen, statistischen Erhebungen u. a. beruhende) Angaben, formulierbare Befunde“ oder vor dem Hintergrund der EDV als „elektronisch gespeicherte Zeichen, Angaben, Informationen“ – einfach gesagt: irgendwie alles was irgendwo an Informationen anfällt und gespeichert wird.
Und wie können Daten in einem Unternehmen nun genutzt werden?
Ein kleines Beispiel: Wenn ein Unternehmen seit Jahren rote Zahlen schreibt, das Management aber keine Daten über die Ausgaben und Einnahmen erhält, können mögliche Kostenverursacher nicht identifiziert und weitere Verluste hingenommen werden.
Die Notwendigkeit grundlegender Datenanalysen ist so in jedem Unternehmen gegeben. Im heutigen Zeitalter von Big Data sind Daten überall, sei es tabellarisch in einem Excelsheet, im binären Format in einer Datenbank, online in der Cloud oder vielleicht sogar noch als uralter Bericht im Register im Archiv. Die Analyse all’ dieser Daten bringt viele Potenziale mit sich, die in verschiedenen Geschäfts- oder Betriebsbereichen eines jeden Unternehmens nachhaltige Mehrwerte generieren können.
4 Arten der Datenanalyse
Bevor der Datenanalyseprozess näher beschrieben werden kann, muss sich zunächst für eine der vier Analysemethoden entschieden werden:
- Deskriptiv: Was passiert in der Vergangenheit?
- Diagnostisch: Warum passiert etwas?
- Prädiktiv: Was passiert zukünftig?
- Präskriptiv: Was ist das beste Vorgehen?
Während alle Arten der Datenanalyse ihre Daseinsberechtigung haben, werden in der breiten Masse von Unternehmen vor allem deskriptive Datenanalysen vorgenommen, da diese Analysemethode vergleichsweise einfach umzusetzen ist und ein schneller Mehrwert generiert werden kann.
Mit höherer Analysekomplexität geht jedoch häufig auch ein höherer Nutzen für Unternehmen einher. Die Potenziale komplexerer Methoden sind spätestens seit der Verbreitung der Predictive Maintenance erkannt worden.
Dass die prädiktive Analysemethode schnell umsetzbar ist, hat die Data Challenge Oldenburg 2020 sponsored by windpunx und worldiety gezeigt. Die Data Challenge ist ein einzigartiges Praxismodul bei dem Informatik-Studierende innerhalb von zwei Wochen verschiedene Machine Learning Algorithmen sowie Modelle entwickeln, die historische Daten nutzen, um Aussagen über das Eintreten zukünftiger Ereignisse treffen zu können.
Wie genau sich die Arten der Datenanalyse voneinander unterscheiden, lässt sich am Beispiel einer auf Sensordaten basierenden Datenanalyse einer Produktionsmaschine im Betrieb veranschaulichen:
- Deskriptiv: Es fällt auf, dass die Maschine seit einem Jahr monatlich für etwa 3 Stunden ausfällt.
- Diagnostisch: Die Sensordaten zeigen, dass der Ausfall auf eine zu hohe Betriebstemperatur zurückzuführen ist.
- Prädiktiv: Historische Sensordaten können genutzt werden, um die Wahrscheinlichkeit und den Zeitpunkt eines erneuten Ausfalls der Maschine vorherzusagen.
- Präskriptiv: Auf Basis historischer und aktueller Daten wird ein baldiger Ausfall prognostiziert, der mit der Anordnung „Kühlwasser nachfüllen“ verhindert werden soll.
Der Datenanalyse-Prozess in 5 Schritten
Für die Datenanalyse existieren bereits definierte Prozesse, wie KDD, CRISP-DM oder SEMMA.
Grundsätzlich kann jedoch jeder Datenanalyseprozess zunächst in fünf Schritte unterteilt werden.
1. Definition einer Fragestellung
Der 1. und wohl wichtigste Schritt ist die Definition einer unternehmerischen Fragestellung mit dem Ziel, ein Geschäftsverständnis für den Data Analysten herzustellen. Die Fragestellung ist hierbei entscheidend für die Art und Komplexität der Datenanalyse.
Es gibt z.B. einen deutlichen Unterschied zwischen den Fragestellungen „Gibt es Ausfallzeiten der Maschine?“ und „Welche Maßnahmen müssen ergriffen werden, damit die Maschine im nächsten Monat nicht wieder ausfällt?“. Je nach Fragestellung wird sich für eine der im vorherigen Abschnitt vorgestellten Analysearten entschieden. Die Definition einer solchen Fragestellung kann zwei Ausgangspunkte haben: Entweder existiert bereits eine betriebliche Fragestellung oder es existieren gespeicherte, noch nicht ausgewertete Daten, von denen Fragestellungen abgeleitet werden können.
2. Analyse
Im 2. Analyseschritt folgt die Sammlung und Aufbereitung aller relevanten Daten, die für die Beantwortung der im ersten Schritt erfolgten Fragestellung relevant sind.
Für die Datenanalyse mithilfe von Software bieten sich Datenquellen an, die in Dateiformaten wie csv, xlsx, json und xml oder aber auch in Datenbanken sowie Data Lakes gespeichert sind.
Die anschließende Aufbereitung der Daten kann gegebenenfalls knifflig sein – erfahrene Data Analysten, die Programmiersprachen wie Python oder R beherrschen, stellt das jedoch in der Regel vor keine Probleme. Einmal aufbereitet eignet sich die Speicherung dieser strukturierten Daten in einem (Cloud) Data Warehouse, damit diese für mögliche nachfolgende Datenanalysen wiederverwendet werden können.
3. Datenanalyse
Die nachfolgende, explorative Datenanalyse im 3. Schritt des Datenanalyse-Prozesses nutzt die zuvor aufbereiteten Daten mit dem Ziel, Muster, Anomalien und Abhängigkeiten in den Daten zu entdecken. Hierbei kommen statistische Analyseverfahren, wie beispielsweise Korrelations-, Regressions- oder Zeitreihenanalysen zum Einsatz.
4. Modellierung & Auswertung
Die Modellierung und Auswertung der Daten erfolgen im 4. Analyseschritt, bei dem die deskriptive Statistik zum Einsatz kommt, mit dem Ziel, die Daten möglichst übersichtlich zu präsentieren, z.B. in tabellarischer Form, als Diagramm oder aber als Kennzahl.
Anders als die deskriptive Statistik nutzt die induktive Statistik Methoden, mit deren Hilfe Daten mathematischen Operationen unterliegen, wodurch weitere Erkenntnisse gewonnen werden können.
Eine dritte Modellierungsmethode stellt die Entwicklung von Machine Learning Modellen dar, die sich insbesondere dann eignen, wenn Prognose- oder Klassifikationsaufgaben bewältigt werden müssen.
5. Visualisierung
Im 5. und letzten Schritt werden die zuvor generierten Diagramme und Modelle verfeinert, visualisiert und kommuniziert. Die Visualisierung kann dabei einmalig erfolgen, beispielweise in Berichtsform sowie auf einem Foliensatz oder aber regelmäßig mithilfe von Dashboards und den tagesaktuellen Daten.
Self-Service Reporting – Datenanalyse für alle
Der Prozess einer Datenanalyse sieht auf dem ersten Blick kompliziert aus und scheint ohne die Unterstützung eines Data Analysten bzw. Data Scientist sowie ohne eingeschlägige Programmierkenntnisse unmöglich. Glücklicherweise existiert eine breite Auswahl an Business Intelligence (BI) Software, die es auch Nicht-ITlern ermöglicht den Datenanalyseprozess zu durchlaufen und Wissen auf Datenbasis zu generieren sowie zu kommunizieren.
Diese Möglichkeit des Self-Service Reporting bietet diverse Vorteile:
- Kurze Zeit von der User-Story zum Analyseergebnis
- Höhere Effizienz
- Entlastung der IT
- „Analyse per Mausklick“
Fazit
Viele kleine und mittelständische Unternehmen erkennen zurzeit noch nicht den Mehrwert in der Nutzung von Datenanalysen, wobei häufig aus überschätzten Kosten- oder Komplexitätsgründen darauf verzichtet wird – „und außerdem haben wir ja Excel!“.
Richtig ist, dass nicht für jedes Unternehmen komplexe Datenanalyse infrage kommen. Jedoch bietet moderne BI-Software jedem Unternehmen die Möglichkeit, erschwingliche Datenanalysen, selbst für die weniger technikaffinen Mitarbeitenden, zu ermöglichen.
Im Zeitalter von Big Data stellen diverse Dienstleister darüber hinaus sowohl Cloud-, als auch on-premise-Lösungen sowie Hybridarchitekturen kostengünstig bereit, mit der Möglichkeit, einen unternehmensspezifischen Data Stack zu entwickeln, der automatisierbare Datenmodellierung und -aufbereitung verspricht.
Innovative Konzepte wie der Data Lake öffnen der Nutzung von Machine Learning Modellen die Tür.
Die Erstellung und Verteilung von Berichten sowie Dashboards generiert zudem unternehmensspezifisches Wissen, das im Umkehrschluss dazu genutzt werden kann, innerbetriebliche Schwachstellen zu identifizieren, Prozesse zu optimieren und datengetriebene (Management-) Entscheidungen effizient zu treffen, die den Erfolg eines Unternehmens maßgeblich beeinflussen können.