Update ermöglicht u. a. globales Caching lokalisierter Ressourcen

Apache Hadoop 2.7.0 freigegeben

Michael Thomas

© Shutterstock.com/ Dirk Ercken

Mit Hadoop 2.7.0 ist eine neue Version des in Java geschriebenen Big-Data-Klassikers erschienen. Da die JDK 6-Unterstützung eingestellt wurde, benötigt das Framework als Laufzeitumgebung ab sofort JDK 7 oder höher.

Hadoop 2.7 ist das siebte Update nach der offiziellen Freigabe der Hadoop-2-Architektur, in der die YARN („yet another resource negotiator“)-Engine eingeführt wurde, die als Weiterentwicklung des MapReduce-Ansatzes gilt. Bei YARN geht es darum, die ursprüngliche MapReduce-Komponente aus Hadoop als optionales Plug-in herauszulösen und alternative Ausführungsalgorithmen zu ermöglichen.

Zwar ist 2.7.0 noch nicht für den Produktionseinsatz freigegeben, allerdings soll eine entsprechende Version des 2.7.x-Stranges in Kürze folgen. Insgesamt wurden im Rahmen des aktuellen Release über 500 JIRA-Issues bearbeitet.

Neuerungen im Hadoop File System (HDFS) betreffen beispielsweise neue Lese-/Schreibszenarios, die durch die Unterstützung von Dateien mit Blöcken variabler Länge ermöglicht werden. Außerdem wurden sowohl die Verwaltung als auch die Überwachung des NFS Gateway Server erweitert. Die YARN-Engine wurde u.a. um ein (sich allerdings noch im Beta-Stadium befindendes) Feature für das automatisch geteilte, globale Caching lokalisierter Ressourcen erweitert. Auch in MapReduce stehen neue Möglichkeiten bereit. So kann nun die Größe eines laufenden MapReduce-Jobs begrenzt werden, indem man die maximale Anzahl der gleichzeitig laufenden Tasks festlegt. Durch Verbesserungen an FileOutputCommitter konnten zudem Hive-, Pig- und MapReduce-Jobs, die mit vielen Ausgabedateien arbeiten, beschleunigt werden.

Eine komplette Übersicht über alle Änderungen finden sich in den offiziellen Release Notes.

Über Apache Hadoop

Apache Hadoop hat sich mittlerweile als klassische Lösung etabliert, um der in den vergangenen Jahren aufgelaufenen Datenflut Herr zu werden. Das Big-Data-Framework, das maßgeblich von Lucene-Gründer Doug Cutting bei Yahoo entwickelt wurde, hat sich seit seinem ersten Release 2006 zu einer Standardtechnologie für die Verarbeitung großer Datenmengen auf verteilten Systemen entwickelt.

Zum Einsatz kommt das Hadoop Distributed File System (HDFS), das die Illusion eines einheitlichen Filesystems bietet und von den realen Hardware-Gegebenheiten abstrahiert. Node-Verwaltung und Datenreplikation werden automatisiert durchgeführt. Als Ausführungsengine ist Googles MapReduce-Algorithmus implementiert, mit dem sich Operationen auf das gesamte Grid ausführen lassen. Seit Hadoop 2.0 lässt sich in der neuen YARN-Architektur der MapReduce-Ansatz durch alternative Ausführungsalgorithmen ersetzen, was in Projekten wie Apache Storm, Spark, Hive, Tez, Mesos schon erfolgreich geschehen ist.

Aufmacherbild: big data exabyte terrabyte or gigabyte in very large data set cloud computing storage von Shutterstock.com / Urheberrecht: Dirk Ercken

Verwandte Themen:

Geschrieben von
Michael Thomas
Michael Thomas
Michael Thomas studierte Erziehungswissenschaft an der Johannes Gutenberg-Universität Mainz und arbeitet seit 2013 als Freelance-Autor bei JAXenter.de. Kontakt: mthomas[at]sandsmedia.com
Kommentare

Hinterlasse einen Kommentar

Hinterlasse den ersten Kommentar!

avatar
4000
  Subscribe  
Benachrichtige mich zu: