Zur Erfassung und Verarbeitung von Big Data

BigDataCon 2013: Es kommt nicht nur auf die Größe an

Judith Lungstraß

Wer wissen möchte, was hinter dem Begriff Big Data steckt, muss sich diesen eigentlich nur genau ansehen. Um die Erfassung riesiger Datenmengen geht es hier, genauso wie um deren Verarbeitung und Auswertung. Doch das Ende der Fahnenstange ist damit noch lange nicht erreicht, schließlich sind Big Data nicht einfach nur „big“. Nein, sie sind auch anders als gewöhnliche Daten und benötigen eine spezielle Art des Umgangs. So richtig „big“ wird es nämlich erst, wenn enorme Datenumfänge erstens langfristig gesichert werden, man zweitens aber auch jederzeit auf ausgewählte Bereiche zugreifen kann.

Hierfür sind spezielle Technologien nötig. Und wer sonst könnte Urheber der ersten Big-Data-Technologien sein als das Unternehmen Google, welches täglich wahre Unmengen an Daten generiert und diese natürlich auch auswerten muss? So ist es kein Wunder, dass hier das Google File System, kurz GFS, und der dazugehörige MapReduce-Algorithmus ihren Ursprung haben. Der Zugriff auf die gespeicherten Daten erfolgt schließlich mittels der BigTable-Technologie.

Wie uns Lars George (Cloudera) in seiner Session mit dem Titel „HBase, die Hadoop-Datenbank – eine Einführung“ auf der BigDataCon 2013 erklärte, kommt auf genau dieser Entwicklungsstufe das bekannte Big Data Framework Apache Hadoop ins Spiel. Dieses besteht grundlegend aus zwei Komponenten, auf der einen Seite ist da das Hadoop Distributed File System (HDFS), eine offene Implementierung des Google File System, auf der anderen Seite MapReduce zur Verarbeitung der erfassten Daten.

So effizient das Hadoop Distributed File System auch arbeitet, kommt es dennoch mit einer großen Einschränkung daher: Hadoop erlaubt lediglich den Schreibe- und Lesezugriff auf die erfassten Daten – modifizierbar sind diese nicht! Einmal geschrieben und abgespeichert, sind sie geschlossen, für wichtige Aktualisierungen kann man sie höchstens löschen und neu anlegen. Bei dieser Einschränkung handelt es sich aber keinesfalls um ein Manko, welches den Hadoop-Verantwortlichen vorzuwerfen wäre, sondern um eine bewusste, durchaus sinnvolle Entscheidung. Schließlich vereinfacht diese das Zugriffsmodell erheblich und sorgt folglich dafür, dass Hadoop überhaupt erst mit großen Datenmengen umgehen kann.

Aber nichtsdestotrotz müssen Daten eben manchmal auch bearbeitet werden. Dafür gibt es HBase, kurz für Hadoop Database, eine freie Implementierung von Googles BigTable. Im Februar 2007 als Prototyp auf dem Markt, seit Oktober desselben Jahres auch als nutzbare Version verfügbar, schließt sie genau die Lücken, die Hadoop hinterlässt.

HBase ist eine verteilte, Spalten-orientierte, multidimensionale und hochverfügbare Datenbank zur Verwaltung von Big Data innerhalb eines Hadoop Clusters. Obwohl sie noch nicht einmal Version 1.0 erreicht hat, wird die Datenbank bereits von einigen namhaften Vertretern der IT-Branche verwendet. Kein anderer als Facebook beispielsweise nutzt HBase für seinen Nachrichtendienst und für das System zur Erfassung der Gefällt-mir-Angaben. Auch Apples Sprach-Assistentin Siri liegt HBase zugrunde.

Lars George spricht auf der BigDataCon über HBase.

Nach einer ausführlichen Einführung in das Thema Big Data allgemein und Hadoop im Speziellen gab Lars George schließlich einen Einblick in die Architektur der Datenbank HBase. Diese besteht aus frei benennbaren Zeilen (Row Keys) und Spalten (Column Qualifiers), wobei für jede einzelne Zeile ein individuelles Set aus Spalten festgelegt werden kann. Die Spalten wiederum lassen sich in Familien gruppieren – das wird dann nützlich, wenn man Aspekte logisch separieren muss, etwa Daten von Metadaten. Zeilen gruppiert das System ganz von alleine, sie werden zur besseren Lokalisierung in Regionen zusammengeführt.

Wer nun auf den Geschmack gekommen war und mehr zu Big Data und HBase wissen wollte, konnte Georges zweite Session mit dem Titel „HBase – Schemadesign, das A und O für eine erfolgreiche Nutzung“ ebenfalls besuchen und so zum echten Big-Data-Experten werden. An diesen fehlt es in Deutschland übrigens noch erheblich, wie uns der Speaker im anschließenden Gespräch mitteilte. Aber wer weiß, vielleicht konnten er und die BigDataCon ja ein wenig zur Verbesserung der Umstände beitragen.

So dürften nach dem heutigen Tage einige erkannt haben, dass es bei Big Data keineswegs nur auf die Größe der Datenmengen ankommt. Mindestens genauso wichtig ist die Art, in der man mit diesen XXL-Datenpaketen umgeht. Erst wenn wir das erkennen, kann Big Data richtig in unserem Alltag ankommen.

Geschrieben von
Judith Lungstraß
Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.