Kreativität aus rohen Daten

Big Data und die Datenqualität

Es ist Teil der grundsätzlichen Big-Data-Philosophie, im Normalfall die unstrukturierten, unverarbeiteten Rohdaten abzuspeichern. Idealerweise speichert man die Daten dabei ohne Verluste ab, sodass der Fokus für Bereinigung und Aufbereitung in die Analyse verlagert wird. Nichtsdestotrotz sollten die Daten selbstverständlich so sauber wie möglich gespeichert werden, allerdings ohne aufwändiges Säubern zu betreiben. In der Datenakquisitionsphase soll keine Zeit verloren werden, die Daten sollen schnell in der Rohform für eine weitere Analyse zur Verfügung stehen. Nach dem schnellen Speichern der Daten werden die eigentlichen Schätze dann in der Analyse aus den Rohdaten extrahiert. Dabei ist es in der Analyse in aller Regel sehr viel wichtiger, das Unwichtige zu ignorieren als das Wichtige zu suchen (Noise Elimination).

Data Scientists

Nachdem die Rolle der Menschen und des Teams mehrfach betont wurde, stellt sich natürlich die Frage, was den Datenwissenschaftler (Data Scientist) auszeichnet. Zum einen ist es sicherlich ein technisch orientierter Mensch, der tiefe Expertise in seinem Fachgebiet besitzt, aber nicht unbedingt ein Informatiker von Haus aus. Wie ebenfalls schon mehrfach erwähnt, ist der Datenwissenschaftler von sich aus neugierig und ein Sammler von Daten. Er ist kreativ im Umgang mit Daten, um neue Antworten zu finden, und er ist kommunikativ, um seine Analysen zu erläutern und gemeinsam mit anderen zu verifizieren. Dieses Anforderungsprofil ist sicherlich nicht einfach zu entdecken, aber da dem Datenwissenschaftler eine so zentrale Rolle in Big-Data-Projekten zukommt, sollte man bei den Anforderungen keine Kompromisse eingehen.

Fazit

Aller Anfang ist schwer, auch im Big-Data-Bereich. Umso wichtiger ist es, sich die Annäherung an das Thema nicht durch überambitionierte Ziele zu verderben. Nach einem gemeinsam initial festgelegten Analyseziel sollte man schnell in die Situation kommen, dass unstrukturierte Rohdaten in der Big-Data-Lösung gesammelt werden. Ab diesem Zeitpunkt ist es möglich, mit der Analyse der Daten erste Erfahrungen zu sammeln. In der Folge entwickelt sich normalerweise die Kreativität im Umgang mit den Daten ganz von selbst. Und man wird erstaunt sein, welche Überraschung in den Daten schlummert, wenn man mit explorativen Analysen die richtigen Leute an die Datentöpfe lässt.

Christian Meder ist CTO bei der inovex GmbH in Pforzheim. Dort beschäftigt er sich vor allem mit leichtgewichtigen Java- und Open-Source-Technologien sowie skalierbaren Linux-basierten Architekturen. Seit mehr als einer Dekade ist er in der Open-Source-Community aktiv.
Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.