Hadoop 2.6.0 unterstützt SSD-Speicher-Schichten

Konstanze Löw

Das in Java programmierte Big-Data-Framework Hadoop ist in Version 2.6.0 erschienen. Neuerungen gibt es vor allem im Kern der Software: HDFS und YARN. Die zwei Highlights sind der Support für heterogene Speicher-Schichten mit SSD-Medien sowie die Unterstützung langlaufender Services in YARN.

Heterogeneous Storages in HDFS

Hadoop 2.6.0 ermöglicht den Anwendern, heterogene Speicher-Schichten im HDFS (Hadoop Distributed File System) festzulegen. Hintergrund ist, dass Hadoop traditionell auf die Batch-Verarbeitung von Daten auf Festplattenspeicher ausgelegt ist, wobei mehr auf den hohen sequentiellen Datendurchlauf als auf Latenz-Zeiten geachtet wurde. Interaktive Query-Prozesse, wie sie beispielsweise von Apache Hive unterstützt werden, profitieren indes von Niedriglatenz-Medien wie SSDs, die in Hadoop 2.6 jetzt gezielt eingebunden werden können.

Da ein Cluster aus reinen SSD-Speichermedien zwar möglich, aber im Allgemeinen zu teuer ist, sind meist gemischte Szenarien im Einsatz. In Hadoop 2.6.0 kann einer Anwendung jetzt individuell der Speichertyp zugewiesen werden, der den Performance- und Kosten-Kriterien am besten entspricht. Admins können Speicherschichten über Hardware-Grenzen hinweg in einem Datenknoten festlegen. Über APIs lassen sich Daten in Anwendungen dann gezielt in diesen verschiedenen Schichten ablegen.

Langlaufende Services in YARN

In Hadoop 2.6.0 gibt es außerdem eine Weiterentwicklung des Software-Kerns YARN. Hierdurch können langlaufende Services wie sie beispielsweise mit Apache Samza und Apache Kafka möglich sind, in YARN betrieben werden. Nützlich ist das beispielsweise in „Always-on“-Anwendungen, die ständig auf einkommende Daten warten; etwa bei der Verarbeitung von Streaming-Daten in Echtzeit via Apache Storm. Diese „Long-Lived Services“ sollen einfach neben jenen Anwendungen, die für „Ad-Hoc“- Arbeiten gedacht sind (z. B. Apache Hive und Apache Pig), koexistieren können.

Noch dazu wurden Rolling-Upgrades integriert. Sie sollen einen Knoten-Neustart so durchführen, dass dabei laufende Prozesse bzw.  Zustände erhalten bleiben.

Hadoop kann in Version 2.6.0 kann auf der Projektseite heruntergeladen werden. Für weitere Informationen empfiehlt sich ein Blick in die Release Notes.

 

Geschrieben von
Konstanze Löw
Konstanze Löw
Konstanze Löw hat Germanistik und Kommunikationswissenschaft in Jena studiert. Seit November 2014 arbeitet sie als Volontärin bei der S&S Media Group für die Zeitschriften Java Magazin, Eclipse Magazin und das Portal JAXenter.
Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.