Exportschlager der Java-Welt

Big Data Days der W-JAX: Hadoop 2 – Jetzt erst recht!

Diana Kupfer
© S&S Media

Big Data Days ohne Hadoop, das wäre wie eine (W-)JAX ohne Java. Seit seinen bescheidenen Anfängen im Rahmen von Yahoos Suchmaschinen-Projekt Nutch ist das Java-Framework für verteilte, skalierbare Systeme zum Dreh- und Angelpunkt wegweisender Big-Data-Lösungen avanciert. Oder, wie der W-JAX-Speaker Kai Wähner es formuliert: „das Thema Nummer eins, wenn es um die Verarbeitung großer Datenmengen geht“ – nicht nur im Java-Umfeld, sondern auch weit darüber hinaus. Hadoop ist damit eine Art Exportschlager der Java-Welt. Und mit Version 2 wird sich das keineswegs ändern.

Die Hadoop-eigene Kombination aus HDFS (Hadoop Distributed File System) und dem Programmiermodell MapReduce hat sich als Erfolgsrezept erwiesen. Neben Yahoo sind u. a. Twitter, Facebook, AOL, und IBM prominente Nutzer. Selbst Microsoft setzt mit Azure und dem Windows Server auf Hadoop auf. Das Timing der Big Data Days könnte im Übrigen nicht besser sein: Erst seit drei Wochen, seit 15. Oktober, ist Version 2 – genauer: 2.2 – von Hadoop verfügbar. Nach mehr als drei Jahren Entwicklungszeit wurde die nächste Generation des gelben Elefanten endlich aus dem Sack gelassen.

Wieso hat das Release so lange auf sich warten lassen? Grund war eine Art Generalüberholung der Ablaufumgebung. Das neue System MapReduce 2.0, auch bekannt als YARN (Yet Another Resource Negotiator), das in der Architektur auf das Dateisystem HDFS (Hadoop Distrubuted File System) aufsetzt, teilt die wichtigsten Funktionalitäten des JobTrackers in zwei separate Bereiche auf: (Hardware-)Ressourcen-Verwaltung und Job-Verwaltung, sprich: die Speicherung der Daten einerseits, die Verarbeitung andererseits. Damit ist man nicht mehr auf MapReduce beschränkt  – beliebige verteilte Programme können nun direkt auf Hadoop laufen.

Die Echtzeitverarbeitung der exorbitant steigenden Datenmengen aus sozialen Medien etc. hatte das Hadoop-Projekt in den vergangenen Jahren vor eine große Herausforderung gestellt. Mit der neuen Version zeigt die Vorreitertechnologie, dass sie auch diese mit Bravour meistern kann – und das halten, was Bernd Fondermanns Session-Titel auf der W-JAX verspricht, nämlich „schneller, bigger, weiter“ zu sein.

Herr der Daten

Mit den Big-Data-Technologien und Webplattformen wird die Welt der Daten immer bunter und heterogener: Unterschiedliche Geschäftsanwendungen und Speichersysteme bringen einen wahren Zoo speicherbedürftiger Daten hervor. Erst deren Integration generiert Mehrwert, englisch: „Value“, laut Kai Wähner (Talend) das wichtigste der großen „Vs“, die im Big-Data-Umfeld Qualitäten wie Volume, Velocity oder Variety bezeichnen. „If you can’t measure it, you can’t manage it“, zitierte Wähner den Management-Berater Peter Drucker. Wie sich dieser Daten-Zoo einheitlich integrieren lässt – mit einem Integrationsframework wie Apache Camel, einem Enterprise Service Bus oder dem umfassenden Ansatz einer Integration Suite –, zeigte Wähner in der Auftaktsession der Big Data Days. Trotz bereits zahlreich vorhandener Konnektoren erfordert die Arbeit mit Integrationsframeworks oft individuelle Konnektoren für neue Technologien wie Impala, die noch in den Kinderschuhen stecken. Speziell für Open-Source-Frameworks lassen sich diese allerdings im Handumdrehen entwickeln, wie Wähner demonstrierte. Ein entsprechendes Vorhaben lasse sich innerhalb von zwei bis drei Tagen über die Bühne bringen, so der Speaker.

Grau ist alle Theorie, und so war der konkrete Use Case, den Dr. Kathrin Spreyer (inovex) am Nachmittag vorstellte, ein erfrischender Blick über den Tellerrand: Die Speakerin stellte vor, wie der Fernsehsender Pro 7 unterschiedliche Big-Data-Technologien, darunter Hadoop, Pentaho Data Integration, Pig, Flume oder Hive, einsetzt und zu einem hybriden Datawarehouse-System aus relationaler Datenbank und Hadoop-Cluster kombiniert.

Die Analogie zu einem Warehaus zog auch Bernd Fondermann in seinem Vortrag über Hadoop 2 (s. Bild) mit Referenz auf Urs Hölzle und Luiz André Barroso (Google): „As computation continues to move into the cloud, the computing platform of interest no longer resembles a pizza box or a refrigerator, but a warehouse full of computers.“ In diesem Warenhaus befinden sich die unterschiedlichsten Güter, nach außen mutet allerdings alles wie eine einheitliche Struktur an.

Bernd Fondermann: Hadoop – schneller, bigger, weiter

HBase

Auch HBase basiert auf Hadoop. Diese Technologie stand im Fokus von Lars Georges (Cloudera) Vortrag, an dem das Interesse auf dieser W-JAX sehr groß war. HBase ist die Kurzform von „Hadoop Database“. Es handelt sich um eine Open-Soruce-Implementierung des proprietären Google-Datenbanksystems BigTable. In den Jahren nach seiner Gründung durch Mike Cafarella legte HBase eine steile Karriere hin: von einem Contrib-Modul (2007) in Hadoop wurde es zu einem Unterprojekt (2008), von einem Unterprojekt schließlich zu einem Apache-Hauptprojekt. Aktuell trägt es die Versionsnummer 0.96. Seit Version 0.94 unterstützt HBase „regionslokale Transaktionen“, die mit den Entitätsgruppen im Google-Megastore-Projekt vergleichbar sind. HBase hat die Vorteile, verteilt, spaltenorientiert und multidimensional zu sein. Es schreibt sich zudem eine hohe Verfügbarkeit sowie Performanz auf die Fahnen.

Ausblick

Das Speichersystem von HBase steht anderen Datenbanken allerdings in einiges nach: Auf Joins, eine Query Engine, Typen und SQL muss man verzichten. In puncto Query Engine können u. a. hier u. a. Tools wie Impala weiterhelfen. Impala ist eine relativ junge interaktive Search Engine aus dem Hause Cloudera, mit der sowohl der Zugriff auf Rohdaten im HDFS (Hadoop Distributed File System) als auch auf HBase-Daten möglich ist. Wann ist die Kombination von HBase und Impala sinnvoll? Darauf wird Lars George in seiner morgigen Session auf dem zweiten Big Data Day der W-JAX eine Antwort geben. Und wer auf der W-JAX nicht dabei sein konnte: Eine Einführung in HBase gibt George im aktuellen Java Magazin.

Eine hoch gejubelte NoSQL-Technologie im Java-Umfeld ist Neo4j. Die Graphdatenbank steht ebenfalls auf der Agenda des zweiten Big Data Days auf der W-JAX – Stefan Armbruster (Neo Technology) wird eine Einführung geben.

Auf der weiteren Agenda steht die Suchengine ElasticSearch, mit der sich nicht nur Volltextsuchen, sondern auch Echtzeitanalysen ausführen lassen.

Die letzte Session des Big Data Days ist zugleich ein kleiner Vorgeschmack auf die im Anschluss stattfindende Embedded Night: Ramon Wartala zeigt, dass es keineswegs gigantische Serverracks braucht, um die Funktionsweise von Hadoop nachzuvollziehen. Dass es nicht nur auf Datenvolumina ankommt, sondern auch auf ausgeklügeltes Clustering, wird Thema der Session „Personal Hadoop Cluster“ sein. Im JAX-Interview erklärte er uns im Vorfeld, wie er auf die Idee kam, mit Einplatinenrechnern (Cubieboards) ein konventionelles Hadoop-Cluster nachzuahmen.

 

 

 

Geschrieben von
Diana Kupfer
Diana Kupfer
Diana Kupfer war Redakteurin bei S&S Media für die Zeitschriften Java Magazin, Eclipse Magazin und das Portal JAXenter. 
Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.