Apache Hadoop 2 freigegeben

Hartmut Schlosser

Die Apache Foundation hat die Verfügbarkeit von Hadoop 2 bekannt gegeben.

Das Big Data-Framework, das maßgeblich von Lucene-Gründer Doug Cutting bei Yahoo entwickelt wurde, hat sich seit seinem ersten Release 2006 zu einer Standardtechnologie für die Verarbeitung großer Datenmengen auf verteilten Systemen entwickelt. Zum Einsatz kommt das Hadoop Distributed File System (HDFS), das die Illusion eines einheitlichen Filesystems bietet und von den realen Hardware-Gegebenheiten abstrahiert. Node-Verwaltung und Datenreplikation werden automatisiert durchgeführt. Als Ausführungsengine ist Googles MapReduce-Algorithmus implementiert, mit dem sich Operationen auf das gesamte Grid ausführen lassen. Entwickler müssen sich im Ergebnis weder um die Speicherverwaltung noch um die parallele Ausführung von Operationen kümmern. Mehrere 100 Millionen Dateien und Exabytes (10 hoch 18 Bytes) von Daten lassen sich mit Hadoop verwalten.

Hadoop 2 ist nun das Ergebnis einer vierjährigen Entwicklungsarbeit, die Hadoop Enterprise-tauglich machen soll. Zentral ist die Einführung der sogenannten YARN Engine, die als Weiterentwicklung des MapReduce-Ansatzes gilt (manchmal als MapReduce 2.0 bezeichnet). Im Grunde geht es bei YARN (übrigens die Abkürzung für „yet another resource negotiator“) darum, die ursprüngliche MapReduce-Komponente aus Hadoop als optionales Plug-in herauszulösen und so alternative Ausführungsalgorithmen zu ermöglichen. Das bei MapReduce verwendete Batch-Modell kann so durch interaktivere Ansätze (etwa Apache Storm oder auch Services wie Apache HBase) ersetzt werden.

YARN war zwar schon eine Zeit lang in verschiedenen Hadoop-Distributionen (beispielsweise bei Cloudera) im Einsatz, jetzt erst gibt die Apache Foundation aber ihren Segen zum finalen Status der Implementierung. Aktuell ist die Hadoop-Entwicklung sogar schon bis zur Version 2.2.0 fortgeschritten – laut Apache Foundation das erste stabile Release der 2.x-Linie und damit für den großflächigen Einsatz in Enterprise-Szenarien empfohlen.

Hadoop-2-Release-Manager Arun C. Murthy kommentiert:

Es war eine Ehre, mit der Community zusammenzuarbeiten, und eine persönliche Freude zu sehen, wie unsere vier Jahre Arbeit an YARN schließlich im GA Release von Hadoop 2 fruchtet. Hadoop wird damit zu einem Grundbestandteil moderner Daten-Architekturen, indem es Unternehmen in die Lage setzt, vom realen Wert ihrer Daten zu profitieren und mit neuesten Daten-Typen innovative Services und Anwendungen zu entwickeln.

In einer Mitteilung werden die Neuerungen in Hadoop 2 im Überblick präsentiert:

  • Apache Hadoop YARN, a cornerstone of next generation Apache Hadoop, for running both data-processing applications (e.g. Apache Hadoop MapReduce, Apache Storm etc.) and services (e.g. Apache HBase)
  • High Availability for Apache Hadoop HDFS
  • Federation for Apache Hadoop HDFS for significant scale compared to Apache Hadoop 1.x.
  • Binary Compatibility for existing Apache Hadoop MapReduce applications built for Apache Hadoop 1.x.
  • Support for Microsoft Windows.
  • Snapshots for data in Apache Hadoop HDFS.
  • NFS-v3 Access for Apache Hadoop HDFS.

Ebenfalls neu erschienen ist die Version 0.12.0 der Data-Warehouse-Lösung Apache Hive, die die volle Kompabilität zu Hadoop 2 bringt. Auch in Hive lässt sich somit MapReduce durch alternative Ansätze wie Apache Tez ersetzen. Absehbar ist, dass sich weitere Projekte der Optimierung von Hadoop für gewisse Anwendungsfälle annehmen werden.

Hadoop 2 kann unter http://hadoop.apache.org/ kostenlos bezogen werden. Zu beachten ist, dass MapReduce-Anwendungen auf Basis von Hadoop 1.x  auch mit Hadoop 2.x kompatibel bleiben. Einen Überblick über die neue YARN-Funktionalität bietet das Dokument Apache Hadoop NextGen MapReduce (YARN). Eine generelle Einführung in Hadoop gibt der Gründer Doug Cutting in unten stehendem Video von der JAX London. Und wer sich dem Thema Big Data aus einer High-Level-Perspektive annähern möchte, dem sei der Artikel Kreativität aus rohen Daten von Christian Meder empfohlen.

Geschrieben von
Hartmut Schlosser
Hartmut Schlosser
Hartmut Schlosser ist Redakteur und Online-Koordinator bei Software & Support Media. Seine Spezialgebiete liegen bei Java-Enterprise-Technologien, JavaFX, Eclipse und DevOps. Vor seiner Tätigkeit bei S & S Media studierte er Musik, Informatik, französische Philologie und Ethnologie.
Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.