Hadoop 2.5 erschienen: Neuerungen in YARN, HDFS, ATS

Hartmut Schlosser

90 Prozent der Daten, die die Menschheit bis heute produziert hat, wurde in den letzten zwei Jahren erzeugt. Warum die IT diesem Daten-Tsunami aber relativ gelassen entgegenblickt, hat einen Namen: Hadoop – das Big-Data-Projekt, das gerade in Version 2.5 erschienen ist.

Hadoop gegen die Datenflut

Zugegeben, die obige Einleitung klingt dramatisch. Doch ist es manchmal nötig, sich die Ausmaße der Datenexplosion der letzten Jahre anschaulich zu machen. Denn diese ist wirklich enorm. Im Jahr 2016 werden die Internet-Nutzer von den heutigen 2.4 Milliarden auf 3.4 Milliarden angestiegen sein – auf 45% der Weltbevölkerung. Auch wird sich die Menge an Daten, die von einem durchschnittlichen Internet-User produziert wird, von monatlichen 12GB auf 32GB fast verdreifachen. Eine durchschnittliche Anwendung erzeugt jedes Jahr doppelt so viele Daten als im Jahr zuvor – Daten, die dann gespeichert, geschützt, analysiert werden wollen, damit Unternehmen Nutzen daraus ziehen können.

Hadoop hat sich in den letzten Jahren als klassische Lösung etabliert, um der Datenflut Herr zu werden. Das Big-Data-Framework, das maßgeblich von Lucene-Gründer Doug Cutting bei Yahoo entwickelt wurde, hat sich seit seinem ersten Release 2006 zu einer Standardtechnologie für die Verarbeitung großer Datenmengen auf verteilten Systemen entwickelt. Zum Einsatz kommt das Hadoop Distributed File System (HDFS), das die Illusion eines einheitlichen Filesystems bietet und von den realen Hardware-Gegebenheiten abstrahiert. Node-Verwaltung und Datenreplikation werden automatisiert durchgeführt. Als Ausführungsengine ist Googles MapReduce-Algorithmus implementiert, mit dem sich Operationen auf das gesamte Grid ausführen lassen. Seit Hadoop 2.0 lässt sich in der neuen YARN-Architektur der MapReduce-Ansatz durch alternative Ausführungsalgorithmen ersetzen, was in Projekten wie Apache Storm, Spark, Hive, Tez, Mesos schon erfolgreich geschehen ist.

Hadoop 2.5

Mit Hadoop 2.5 erscheint also die neueste Version des Big-Data-Klassikers, in der zahlreiche Bugfixes vorgenommen und die bestehenden Funktionalitäten homogen erweitert wurden. So wurden erweiterte File-Attribute eingeführt, mit denen sich Dateisysteme um Zusatzinformationen wie Autor, Schlüssel oder Kommentare ergänzen lassen. Motiviert ist dieses Feature von der Idee, in Hadoop At-Rest-Verschlüsselung unter dem Rhino-Projekt zu ermöglichen, doch sind auch alternative Anwendungsfälle denkbar. Ein reichhaltigeres REST API in der YARN-Komponente, Sicherheitsfunktionen für den in Hadoop 2.4 eingeführten Application Timeline Server (ATS) und überarbeitete Web UIs im HDFS (Hadoop Distributed File System) gehören zu den weiteren Highlights in Hadoop 2.5.

Auf dem Cloudera-Blog wird das Release kurz vorgestellt. Ausführliche Informationen verschafft man sich am besten über die Release Notes oder die aktualisierte Dokumentation. Der Ausblick auf Hadoop 2.6 verspricht weitere Neuerungen im Bereich Verschlüsselung: transparent encryption in HDFS samt Key Management Server, Arbeits-erhaltende Restarts von YARN Daemons und eine dynamische Ressourcen-Konfiguration stehen auf der Roadmap.

Geschrieben von
Hartmut Schlosser
Hartmut Schlosser
Content-Stratege, IT-Redakteur, Storyteller – als Online-Teamlead bei S&S Media ist Hartmut Schlosser immer auf der Suche nach der Geschichte hinter der News. SEO und KPIs isst er zum Frühstück. Satt machen ihn kreative Aktionen, die den Leser bewegen. @hschlosser
Kommentare

Hinterlasse einen Kommentar

Hinterlasse den ersten Kommentar!

avatar
400
  Subscribe  
Benachrichtige mich zu: