Big Data - IPD - Institut für Prozessmanagement und Digitale Transformation

Eine weitere wichtige Quelle sind die vernetzten Smart Products, die über Sensoren Daten sammeln und an IT-Systeme senden, z. B. Verkehrsleitsysteme. Mittels Big Data können die durch zahlreiche Anwendungen entstandenen sehr großen Datenmengen in diversen Formaten gespeichert und verarbeitet werden. Dabei ist das übergreifende Ziel die Umwandlung der Daten in wesentliche Informationen.

Was sind die Eigenschaften von Big Data?
Die Schlüsselmerkmale von Big Data lassen sich in ein V-Modell einordnen. Erstmals wurde im Jahr 2001 das 3V-Modell der META Group veröffentlicht, welches seither durch zahlreiche Vs von weiteren Unternehmen ergänzt wurde.

Volume: Datenmenge, die durch ein Unternehmen täglich produziert wird.
Variety: Datenvielfalt von strukturiert, unstrukturiert sowie semistrukturiert.
Velocity: Geschwindigkeit der Datenanalyse in einem Bruchteil von Sekunden (nahezu) in Echtzeit.

Neben den drei grundlegenden Vs umfasst das 5V-Modell zwei weitere entscheidende Eigenschaften.

Value: Mehrwert für das Unternehmen durch die Analyse der Daten.
Veracity: Wahrhaftigkeit und Glaubwürdigkeit von Daten durch die Sicherstellung der Datenqualität.

Verschiedene Datenstrukturen sind möglich
Strukturierte Daten sind durch eine feste Datenstruktur gekennzeichnet wie beispielsweise Materialstammdatensätze eines Unternehmens.
Unstrukturierte Daten sind nicht formalisiert und folgen keiner festen Struktur. Dazu zählen unter anderem Multimedia-Daten wie Videoaufnahmen oder Fließtexte.
Bei semistrukturierten Daten ändert sich die Struktur und der Inhalt laufend, weshalb kein fixes Datenbankschema verwendet wird. Dabei kann es sich um einen formatierten Text mit Überschriften und Absätzen handeln.

Beispiel

Daten zu Personen, Prozessen und Objekten entstehen durch zahlreiche Anwendungen und jeden Klick, der dabei ausgeführt wird, sodass Unternehmen mit der Verarbeitung von umfangreichen Datenbeständen konfrontiert sind. Bestellvorgänge und Transaktionen in Onlineshops oder Millionen Posts im Social Web in differenzierten Formaten, welche über die gesamte Welt verteilt sind, ergeben sich Datensätze bis hin zum Zettabyte Bereich. Klassische Datenbanken kommen in der Regel ab einem Volumen von 100 Terabyte an ihre Grenzen, sodass solche Unternehmen Big Data einsetzen. Die Daten resultieren aus verschiedenen Quellsystemen in diversen Formaten und können mittels Big Data analysiert werden.

Datengrößen
Megabyte = 106106 Byte; Gigabyte = 109109 Byte; Terabyte = 10121012 Byte; Petabyte = 10151015 Byte; Exabyte = 10181018 Byte; Zettabyte = 10211021 Byte

Warum ist Big Data so wichtig?
Bei Big Data handelt es sich in der Regel nicht nur um die reine Verarbeitung von großen Datensätzen, sondern auch um die Analyse und Identifizierung von zum Teil unbekannten Verhaltensmustern. Die Sammlung, Analyse und Auswertung von heterogenen Daten kann Unternehmen wertvolle Erkenntnisse liefern und sie bei wettbewerbskritischen Geschäftsentscheidungen unterstützen. Es wird möglich, die Kundenbedürfnisse und -präferenzen zu verstehen und die angebotenen Leistungen individuell anzupassen, um den Kaufanreiz zu erhöhen oder den Nutzungsgrad zu steigern.

Praxisbeispiel

Der US-amerikanischer Streaming-Entertainment-Dienst Netflix nutzte für eine finanziell risikoreiche Eigenproduktion Big Data. Einem Produktionsstart gingen Sucherverhalts-Analysen der Bestandskunden voraus. Die Auswertungen von Millionen Suchanfragen ergaben eine Tendenz zu einem spezifischen Genre sowie besonders beliebten Schauspielern. Auf dieser Basis konnten Fehlinvestitionen vorgebeugt werden und die Serie wurde ein großer Erfolg.

Welche Big Data Technologien gibt es?
Im Big Data Umfeld können unterschiedliche Technologie-Komponenten zielführend sein. Die Wahl einer geeigneten Technologie hängt vom vorgesehenen Einsatzbereich und den Eigenschaften der Daten ab. Für eine optimale Lösung werden die Technologien oftmals kombiniert. Eine grobe Clusterung der Technologien kann wie folgt aussehen.

Streaming bietet Echtzeit-Lösungen an, um die Daten in dem Moment der Entstehung zu erfassen und auszuwerten.
Standard SQL (Structured Query Language) ist eine Datenbanksprache zur Definition von Datenstrukturen und Bearbeitung von Datenbeständen. Die Daten werden in Tabellenform gespeichert und in Relation zueinander gesetzt.
In-Memory ist ein Datenbankmanagementsystem. Hierbei werden die Daten nicht auf dem Festplattenspeicher, sondern auf dem Arbeitsspeicher (RAM) abgelegt, um Datenanalysen innerhalb von Sekunden durchführen zu können und somit den Zugriff auf Echtzeitinformationen zu ermöglichen.
NoSQL Datenbanken (Not only SQL) sind nicht relationale Datenbanken. Hierbei werden die Daten flexibel, d. h. nicht in Tabellenform, abgespeichert und die Datenbanksprache ist nicht SQL.
Hadoop wird zunehmend in allen vier Quadranten verwendet und ist ein Software-Framework, um die großen Datenmengen aus dem Big Data Umfeld zu verarbeiten. Als Open Source Plattform ist Hadoop von dem Unternehmen Apache frei verfügbar. Hadoop gilt als wichtigster Enabler für Big Data, da komplexe Analysen z. B. zur Auswertung von Seitenbesuchen oder zur Betrugserkennung wirtschaftliche effizient und nahezu in Echtzeit durchgeführt werden können. Die Ergebnisse können ein Unternehmen bei der Entscheidungsfindung unterstützen oder auch der strategischen Planung dienen. Dabei ist das Format der Daten für die Verarbeitung unerheblich. Es können sowohl strukturiert als auch unstrukturierte Daten aus z. B. Produktionsprozessen, Kundentransaktionen oder auch Social-Media Plattformen verarbeitet werden. Hadoop ist dabei effizient, weil die Datenmengen nicht nacheinander, sondern parallel auf verteilten Servern verarbeitet werden.

Literatur

Appelfeller, W., & Feldmann, C. (2018). Die digitale Transformation des Unternehmens. Springer Berlin Heidelberg.
Falkenberg, G., & Weber, M. (2014). Big-Data-Technologien-Wissen für Entscheider. Leitfaden, Berlin, Hannover.
Fasel, D., & Meier, A. (Eds.). (2016). Big Data: Grundlagen, Systeme und Nutzungspotenziale. Springer-Verlag.
Meier, A., Kaufmann, M., & Kaufmann, M. (2016). SQL-& NoSQL-Datenbanken. Springer Berlin Heidelberg.
Meier, A. (2018). Unterschied zwischen SQL-und NoSQL-Datenbanken. In Werkzeuge der digitalen Wirtschaft: Big Data, NoSQL & Co. (pp. 9-12). Springer Vieweg, Wiesbaden.
Sedkaoui, S., & Khelfaoui, M. (2020). Sharing economy and big data analytics. John Wiley & Sons.
www.bigdata-insider.de
https://de.talend.com/resources/what-is-hadoop/#:~:text=Hadoop%20ist%20ein%20Java%2Dbasiertes,die%20in%20Clustern%20verbunden%20sind.&text=
Das%20Framework%20wird%20von%20der,unter%20der%20Apache%20License%202.0.