Suche
Die Big Data Days auf der W-JAX 2012

An der Schwelle zu Big Data

Mirko Schrempp

Die Big Data Days auf der W-JAX 2012 haben sich zum Ziel gesetzt, technische und strategische Szenarien vorzustellen, die Architekten, Datenbankspezialisten und IT-Entscheidern Orientierungshilfen geben sollen. Im Kontext von Big Data ist die offensichtlichste Orientierungsfrage die danach, was eigentlich „Big“ ist. Zugleich ist es aber auch die Frage, die als sofort zeigt, dass die Größe nicht unbedingt das entscheidende Kriterium für ein Big-Data-Projekt sein muss.

Business Technology

Mehr Informationen zum Thema Big Data finden Sie im

Business Technology Magazin 2.2012

Die Speaker der Big Data Days waren sich darin einig, dass im Vordergrund vor allem die Frage steht, was ein Unternehmen mit seinen Daten erreichen will, denn die Big-Data-Frage stellt sich vor allem vor dem Hintergrund, dass die Menge an Geschäftsdaten, die heute in allen Branchen erfasst werden, rasant wächst. Diese effizient zu speichern und zu durchsuchen sowie für Analyse und Prognose im geschäftlichen Umfeld zu nutzen, stellt eine enorme Herausforderung an die klassischen Methoden der Datenspeicherung und Auswertung dar.

Im Zeichen von Big Data entstehen immer mehr neue Technologien und Methoden für Speicherung, Processing, Suche, Echtzeitverarbeitung, globale Bereitstellung und Visualisierung. Dass bei diesen Anforderungen gerade Google einer der Vorreiter von Big Data ist, verwundert daher kaum. Von Google stammte auch die „Definition“ von Big Data, die von den Speakern gerne als Antwort auf die Frage nach dem „Big“ gegeben wurde, bevor sie sich dem Problem auf ihre Weise näherten. Google definiert eine Menge von 500 Millionen Events als Big Data, aber sowohl diese Menge als auch die 500 Terabyte Daten, die laut Bernd Fondermann (brainlounge), bei Facebook täglich anfallen, dürfen für die meisten deutschen Unternehmen kaum realistisch sein. Wenn auch Stefan Igel (Inovex) aus einem 1&1-Projekt berichtete, dass man dort eine Hadoop-Lösung entwickelt habe, mit der man z.B. die 2 Terrabyte Daten, die durch das Mediatracking auf den Consumer-Portalen anfallen, verarbeiten konnte.

Es ist aber nicht die Mega-, Peta- oder Exabytegrenze, die das Phänomen bestimmt, sondern ein in der Regel sehr komplexes Szenario, das zum Ziel hat, aus der ggf. schon vorhandenen Datenmenge einen neuen, bisher nicht vorliegenden Value zu Tage zu fördern, um das Geschäftsziel eines Unternehmens zu fördern. Hierzu muss im Prinzip jedes Unternehmen einen Schwellwert aus dem Verhältnis von Datenmenge und Geschäftszielen bilden und für sich entscheiden, ab wann ein Big-Data-Projekt z.B. auf Basis von Hadoop sinnvoll ist. Nach den Erfahrungen von Bruno Ungermann (Pentaho) kann es für Unternehmen auch bei geringeren Datenmengen schon sinnvoll sein, sich durch den Einsatz einer kleinen Hadoop-Lösung Kostenvorteile zu verschaffen. Da sich hier durch die Möglichkeit der besseren Datenintegration zum einen Ressourcen einsparen lassen, zum anderen aber auch die BI-Analysen eine strategischen Vorteil liefen können, da ggf. mehrere Abteillungen eines Unternehmens mit ihrer jeweiligen Sicht schnell auf die Daten zugreifen können.

Die Frage danach, was Big-Data-Technologien sind, lässt sich ebenfalls nicht einfach beantworten. Zum einen bieten inzwischen viele der großen Hersteller Big-Data-Lösungen an, die auf ihren meist recht teuren Datenbanken und Serverlösungen laufen. Dann gibt es Serviceunternehmen wie Pentaho, die auf Communitybasis entwickelte Lösungen zusammenfassen und mit kommerziellem Support anbieten. Und zum andern gibt es einen sehr umfangreichen Stack an Open-Source-Technologien, die alle Einsatzszenarien abdecken und aus dem frei ausgewählt werden kann. Dazu zählen vor allem natürlich Hadoop, das Filesystem HDFS, Map Reduce, HBase, Zookeeper oder Cassandra. Diese Lösungen sind teilweise aus Google-Produkten entstanden oder stellen Varianten dar und stehen oft als Apache-Projekte zur Verfügung. Ebenso wie bei der Frage nach den strategischen Zielen einer Big-Data-Initiative, muss hier die Auswahl sehr genau dadurch bestimmt sein, was erreicht werden soll. Unter Umständen kann es einem Unternehmen genügen, wenn es fürs erste eine zukunftssichere NoSQL-Lösung installiert und sich dazu aus den vielen Möglichkeiten genau die heraussucht, die zum Problem passt.

Gerade im Big-Data-Umfeld zeigt sich, dass nicht immer der ganze Werkzeugkasten gebraucht wird, aber auch der Hammer nicht die einzige Lösung für das Problem ist. Daher ist der Start eines Big-Data-Projekts vor allem von der Planung im Unternehmen und der klaren Verständigung aller Beteiligten im Unternehmen wichtig. Die Sessions haben gezeigt, dass Big Data aktuell vor allem in Technologieunternehmen angekommen ist, die ihre Expertise wiederum ihren Kunden anbieten. Hierbei wird schnell klar, dass das Einsatzfeld von Big Data noch lange nicht ausgereizt sein wird, zum einen wegen der schon erwähnten Zunahme von Daten, zum andern, weil vom CEO über den Marketingleiter bis hin zum Manger einer Industriefertigung jeder damit konfrontiert ist, auf Basis seiner jeweiligen Daten Entscheidungen zu treffen und Strategien zu entwickeln. Auch wenn das „Big“ nur als Schwellwert in einem bestimmten Kontext zu definieren ist, wird das Thema getrieben durch das faktische Anwachsen der Daten.

Geschrieben von
Mirko Schrempp
Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.