Die Datenflut durch Automatismen bewältigt

Big Data = Big Problem?

Johann Baumeister

Durch Big Data sollen die riesigen Datenmengen, die hauptsächlich durch das Internet entstehen, nutzbringend ausgewertet werden. Wir klären über Hintergründe und Möglichkeiten von Big Data auf.

Business Technology

Der Artikel „Big Data = Big Problem?“ von Johann Baumeister ist erstmalig erschienen im

Business Technology Magazin 2.2012

Big Data ist der neueste Trend in Sachen IT. Der Begriff steht für die elektronisch gesteuerte Verarbeitung von Massendaten. Und dies ist durchaus wörtlich zu nehmen: Es geht bei Big Data um schier unendliche Datenmengen. Um eine Vorstellung von diesem gewaltigen Datenvolumen zu erhalten, hilft ein Blick auf ein paar Zahlen: Allein im Jahr 2011 soll nach Schätzungen von Analysten das weltweite Datenvolumen um 1,8 Zetabyte gewachsen sein – eine Zahl mit 21 Nullen. Die Menge der Unternehmensdaten ist, obgleich gewaltig, im Vergleich zum Volumen von Big Data verschwindend klein und unbedeutend. Woher aber kommen all diese Datenmengen, und warum sollte man sie überhaupt elektronisch verarbeiten?

Verbesserungen der Hardware

Die Ursachen für Big Data liegen nicht zuletzt in der Entwicklung der IT. In den Anfängen war die Kapazität der Systeme klein und begrenzt, das gilt für den Plattenplatz, den Arbeitsspeicher, die Prozessorleistung oder auch die Transferraten auf den Bus-Systemen. Infolgedessen wurden die beteiligten IT-Komponenten auf Sparsamkeit getrimmt. Kompakte Sprachen produzierten kompakten Code, der 8 Bit oder noch schmaler war. Mittlerweile haben sich 64-Bit-CPUs mit mehreren Rechenkernen durchgesetzt, die in der Lage sind, ein Vielfaches der Daten ihrer Vorgänger zu verarbeiten. Als Arbeitsspeicher wird heute mit mehreren Gigabyte gerechnet, bei Festplatten sogar mit Terabyte. Dank dieser enormen Fortschritte in der Hardwareentwicklung entstanden neue Kapazitäten, die auch gerne genutzt wurden. Neue Sprachen, Betriebssysteme oder auch Entwicklungsbibliotheken stellen viel größere Anforderungen als ihre Vorgänger. Mit jeder neuen Version von Windows verlangte dieses mehr an Plattenplatz und Arbeitsspeicher. Die Situation ist bekannt, man hat sich über Jahre daran gewöhnt.

Abb. 1: Die stetig wachsenden Rechenkapazitäten können mit der Datenflut kaum noch Schritt halten
© Andres Rodriguez, fotolia.com

Bei den Daten allerdings herrschte ein geteiltes Bild, hier war die Situation verglichen mit den Anfängen relativ konstant. Die frühen Datenhaltungssysteme waren überwiegend relationale Datenbanken mit strukturierten und kompakt aufgebauten Inhalten, die eine Speicherung nahezu ohne Redundanzen ermöglichten. Erzeugt wurden diese Daten überwiegend durch interne Prozesse oder geschäftliche Transaktionen mit Kunden, beispielsweise durch die Abwicklung eines Einkaufs mit Bestellung, Lieferschein oder Rechnung. Viele dieser frühen Datenbanken sind heute noch im Einsatz. Ihre Struktur ist aber relativ starr. Dies gilt, sieht man von den neueren Anwendungsfeldern wie Business Intelligence oder Data Warehouses ab, auch für ihren Platzbedarf. Wenn ein Unternehmen seine Lieferungen innerhalb eines Jahres nicht steigert, wird sich auch die Datenmenge für die Bestellungen und Lieferscheine kaum ändern. Mit dem Aufkommen und der breiten Nutzung des Internets allerdings änderte sich diese Situation grundlegend.

Das Internet erzeugt die Datenflut

Zum einen ist da die Menge der Verkaufsplattformen zu nennen, darunter Giganten wie Amazon oder Ebay, aber auch all die kleineren Verkaufsshops. Sie alle haben direkten Kontakt mit den Kunden. Während der Kunde früher meist anonym im Laden einkaufte, wirkt sich heute jede noch so kleine Bestellung im Internet datenmäßig aus. Amazon allein versendet an verkaufsstarken Tagen bis zu 150 000 Pakete aus seinem Auslieferungslager in Bad Hersfeld. Dabei entstehen enorme Datenmengen. Es sind aber nicht nur die Handelsplattformen im Internet, die für das Datenvolumen sorgen. Noch größere Datenproduzenten sind Social-Media-Plattformen. Millionen Nutzer der sozialen Netzwerke, wie Facebook, Twitter oder etwa Xing, hinterlassen Unmengen an Datenschnipseln. Bei diesen Daten handelt es sich, anders als bei den Verkaufsportalen, überwiegend um Nachrichten in Textform. Diese Informationshäppchen wären für sich genommen kaum von besonderem Nutzen. In Verbindung mit den vorher erwähnten Einkaufsmöglichkeiten durch Webshops aber gewinnen sie enorm an Bedeutung.

Abb. 2: Social Media, wie Facebook und Twitter, gehören heute zu den größten Datenproduzenten
© Mihai Simonia, fotolia.com

Das Ziel für die Marketiers in den Unternehmen liegt darin, passgenau zu den Einträgen (Postings) der Anwender über Produkte oder Vorlieben die eigenen Produkte zu präsentieren. Wenn ein Nutzer auf Facebook von seiner neuesten Kamera schwärmt und die Leser dieser Meldung just daneben einen Link zum Kauf der Kamera finden, so wäre das eine passgenaue Platzierung und damit eine optimale Verkaufsaktion. Es muss aber nicht so plump sein. Zum Hinweis eines Nutzers, dass er mal wieder „raus“ will, passen Angebote von Touristikunternehmen wie die viel zitierte „Faust auf´s Auge“. Innovative Unternehmen nutzen darüber hinaus die Informationen aus den sozialen Plattformen, um Trends und Entwicklungen frühzeitig mitzubekommen, also praktisch als Instrument der Marktforschung. Wer heute die Zeichen der Zeit nicht rechtzeitig erkennt, läuft Gefahr, im Wettbewerb zurückzufallen. Wie schnell das gehen kann, wird am Beispiel des kanadischen Unternehmens Research in Motion (RIM) deutlich: Noch vor wenigen Jahren war RIM mit seinen Blackberrys Marktführer bei mobilen Endgeräten für Businessanwender. Heute ist das Unternehmen von der Pleite bedroht, weil es die Entwicklung des Markts verschlafen und nicht angemessen reagiert hat.

BI-Techniken als Vorboten für Big Data

Ziel von Big Data ist es, sich um diese Unmengen an Daten und deren nutzbringende Verwendung zu kümmern. Das ist prinzipiell nicht neu. Big Data baut dazu auf mehreren Säulen auf. Die eine Säule wird durch die Grundlagen von Business Intelligence, Data Warehouses und Online-Analytical-Processing (OLAP-)Techniken gebildet. Die zweite Säule ist die Echtzeitverarbeitung. Auch das Schlagwort vom Realtime Enterprise drückt letztendlich aus, dass die Daten nahezu in Echtzeit verarbeitet werden. Hierbei kommen auch neue Dienste, wie etwa Location-based Services, zum Einsatz. All diese Technologien sind Vorboten für die nun aufkeimenden Ansätze, die mit Big Data umschrieben werden. Hier reichen die bestehenden Techniken, wie BI, OLAP oder Data Warehouses, nicht mehr zur Bewältigung aus.

Die traditionellen BI-Technologien basieren oftmals darauf, dass durch ETL-Tools eine Datenextraktion der operativen Daten in den Bestand des Data Warehouse bewegt wird. Nach dem Abschluss der Ladeoperationen erfolgen die Analyse und Bewertung der Daten durch die BI-Tools und OLAP-Werkzeuge. Die Technik der BI-Tools basiert auf Konzepten der 90er-Jahre und wurde seinerzeit konzipiert, um aus operativen Daten, bessere Ergebnisse und Analysen ableiten zu können. Das Internet und seine Datenmengen spielten in dieser Betrachtung noch keine Rolle. Auch die Echtzeitverarbeitung wurde gänzlich ausgeklammert. Mittlerweile ist das Internet Realität – und gleichzeitig der größte Datenproduzent. Für die heute geforderten Aspekte sind die BI-Techniken der Vergangenheit aber viel zu langsam und decken auch nicht den gesamten Bereich ab, der notwendig ist. Gefordert werden heute Echtzeitanalysen. Dabei kann nicht auf den Abschluss eines ETL-Prozesses, der oftmals auch Tage dauern konnte, gewartet werden. Auch die Analysen selbst wurden in der Vergangenheit meist durch die Kombination der Werkzeuge und der manuellen Optimierung durch die Mitarbeiter vorgenommen.

Big Data verlangt zwingend nach Automatismen

Angesichts der Menge der anfallenden Daten und der geforderten Geschwindigkeit muss die gesamte Verarbeitungskette der Daten vollständig automatisiert durchgeführt werden. Das beginnt beim Einsammeln der Daten bei den „Produzenten“, geht über zur Verarbeitung und der Bereitstellung der dazu notwendigen Analysejobs und endet schließlich bei der Echtzeitauswertung der Daten und den daraus abzuleitenden Reaktionen. In den folgenden Erläuterungen soll diese Verarbeitungskette näher betrachtet werden.

Datenquellen oder Produzenten haben sich gegenüber früheren Situationen vervielfältigt. Früher wurden Daten überwiegend durch die internen Geschäftsprozesse erzeugt und in Datenbanksystemen hinterlegt. Diese waren auch die wichtigsten Quellen für die BI-Tools. Neben diesen auch weiterhin zentralen Datenquellen steht heute eine Vielzahl an weiteren Quellen bereit, die hinsichtlich ihrer räumlichen Position und Technik neu sind. Webshops etwa generieren Daten rund um die Uhr. Das Format dieser Daten wird in der Regel durch den Shopbetreiber vorgegeben, es wird sich dabei aber meist um strukturierte Daten wie die Daten eines relationalen Datenbanksystems handeln. Die Datenmenge ist dabei extrem groß und auch kaum in der gesamten Breite erfassbar. Ein wiederum völlig anderer Datentyp wird durch Informationen von den Location-based Services dargestellt. Diese produzieren Echtzeitdaten über die Position eines Konsumenten. Sensoren liefern Informationen über Mengen oder Positionen.

Diese wenigen, willkürlichen Beispiele sollen die heute existierende Bandbreite der Datenquellen aufzeigen. Jeder „Informationstyp“ hat eigene Verarbeitungsroutinen und Richtlinien. Um diese Breite an Schnittstellen überhaupt bedienen zu können, müssen die Prozesse automatisiert werden. Um die Daten des Webshops beispielweise abzuholen, sind Skripte bereitzustellen. Oftmals setzt man dabei auch auf den Transfer von Daten durch Toolsets des „Managed File Transfer“. Die Sensoren wiederum stellen eventuell ein Programminterface zur Verfügung. Um die Daten abzuholen, müssen folglich Programme angestoßen werden. Dies könnte man am ehesten in die Disziplin des „Job Scheduling“ einordnen.

Gänzlich anders ist die Situation bei den Social-Networking-Plattformen. Um die Stimmung über das eigene Produkt zu erfahren, müssen Textanalysen durchgeführt werden. Das Management der mannigfachen Quellen muss in der Lage sein, unterschiedliche Betriebssysteme, Datenbanken, Applikationssysteme, Programmschnittstellen und Informationstypen gleichermaßen bedienen zu können. Um die Konfiguration der Systeme zu verwalten, helfen oftmals Funktionen, die traditionell im Release- und Konfigurationsmanagement anzutreffen sind.

Geschrieben von
Johann Baumeister
Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.