Big Data und ich

Kreativität aus rohen Daten

Christian Meder

Big Data ändert die traditionellen Spielregeln der Datenanalyse auf fundamentale Weise, indem es den Fokus, die Kosten und die Aufwände von der Vorverarbeitung und Aggregation der Daten auf die eigentliche Analyse verschiebt. Daten werden roh, unstrukturiert und in nahezu beliebiger Menge speicherbar. Die Analyse vieler Probleme kann trotzdem parallel und performant durchgeführt werden. Aber die Analyse funktioniert nicht wie gewohnt. Welche Auswirkungen hat diese Neufokussierung auf die Prozesse der Datenanalyse? Auf die Anforderungen an die Analysespezialisten? Auf die Möglichkeiten der Fachabteilung?

Big Data ist aktuell ein sehr beliebtes Thema in IT-Zirkeln. Egal, ob Produkthersteller, Softwarearchitekt oder IT-Berater, die ganze Branche diskutiert die „Big-Data-Revolution“ und ihre Auswirkungen auf den Umgang und die Auswertung von Daten. In Deutschland wird die Debatte zusätzlich noch durch die generelle Diskussion über das Datensammeln und Fragen des Datenschutzes beflügelt. Dieser Artikel möchte für die kreativen Möglichkeiten im Big Data werben, aber die Herausforderungen auf dem Weg auch systematisch andiskutieren. Wenn dabei die Referenzen des vorliegenden Artikels vorrangig aus dem amerikanischen Umfeld entlehnt sind, liegt das vor allem am nur spärlich vorhandenen veröffentlichten Material im deutschen und europäischen Sprachraum.

Was ist Big Data?

Geht man direkt von der gewählten Benennung aus, ist ein erstes Kriterium sicherlich, dass es sich um große Datenmengen handelt, die es zu analysieren gilt. Was aber ist das Besondere an der Größe der zu verarbeitenden Datenmenge? Meist definiert man die Datenmenge als zu groß [1]: zu groß für die Verarbeitung mithilfe von traditionellen RDBMS-basierten Lösungen. Die Datenmenge übersteigt eine mit vertretbarem Aufwand und Kosten für Analysezwecke betreibbare relationale Datenbank. Hier handelt es sich durchaus um eine typische IT-Herausforderung, da die Speicherung in RDBMS mit zunehmender Anzahl der Datensätze schnell kostspielig wird. Häufig werden aus diesem Grund archivierte Daten aus dem Datenbanksystem ausgelagert und stehen daher überhaupt nicht für eine einfache Analyse zur Verfügung. Typische Beispiele sind komplette Logdaten von E-Commerce-Seiten oder Anwendungen des Social Web, aber auch die vollständigen Messdaten von Produktionsmaschinen oder ganzen Fertigungsstraßen.

Ein zweites häufig genanntes Kriterium ist, dass die Daten zu unstrukturiert sind, um sie unverarbeitet sinnvoll in einer strukturierten, relationalen Datenbank zu speichern. Ein möglicher Weg ist die Aufbereitung der unstrukturierten Daten und ihre Überführung in strukturierte, vorverarbeitete Daten. Das hat allerdings den Nachteil, dass die in der Aufbereitung weggefilterten Anteile der Rohdaten verloren sind und nicht mehr analysiert werden können. Nur eine Anpassung der Vorverarbeitung kann dann für zukünftige Analysen weitere Aspekte der Rohdaten verfügbar machen. Wer also keine Muster in den ursprünglichen Daten verlieren möchte, sollte die Rohdaten direkt in unstrukturierter Form abspeichern. Typische Beispiele sind Texte oder Bilddaten, aber auch etwa der rohe Datenstrom von Messfühlern.

Ein dritter Aspekt für Big Data ist oft, dass die Daten zu schnell erzeugt werden, um sie mit aufwändiger Vorverarbeitung zu strukturieren und dann in einem Datenbanksystem einzuspielen. Hierbei spricht man dann meist von einer komplexen Ereignisverarbeitung (Complex Event Processing, CEP) oder einer StromVerarbeitung (Stream Processing) der Daten. Beispiele für diesen Typus können Audio- und Videodaten sein, oder noch genereller: komplexe Echtzeitmessdaten.

Geschrieben von
Christian Meder
Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.