Die nächste Generation von MapReduce: Apache Hadoop 0.23.0

Hartmut Schlosser

Apache Hadoop ist derzeit eines der am heißesten gehandelten Eisen im Java-Bereich. Die Herausforderung, aus großen Datenmengen Business-relevante Informationen zu ziehen und diese in Echtzeit zur Verfügung zu stellen, benötigt neue Lösungswege, die vom in Hadoop gepflegten Map-Reduce-Ansatz bedient werden.

Interesse weckt deshalb das neue Release von Hadoop, das die Versionsnummer 0.23.0 trägt – ein signifikates Release, wie Tom White vom Hadoop-Unternehmen Cloudera kommentiert: das erste Major-Release seit einem Jahr, das HDFS Federation, ein neues MapReduce Framework, Maven-Integration und Support für Kerberos http SPNEGO mit sich bringt.

HDFS steht für „Hadoop Distributed File System“, das verteilte Dateiverwaltungssystem von Hadoop. Eine bessere Skalierbarkeit soll durch die Einführung mehrerer unabhängiger Namen-Knoten erreicht worden sein, die jeweils einen Teil des Namespaces verwalten.

MapReduce 2 steht für die „nächste Generation“ von MapReduce, des von Google eingeführten Frameworks für nebenläufige Berechnungen großer Datenmengen auf Computerclustern. In Hadoop 0.23.0 wurde die MapReduce-Runtime komplett neugeschrieben, was u.a. Performanz-Engstellen in der Jobtracker-Komponente beseitigen soll. Das Cluster-Management wird von dem neuen Framework namens YARN erledigt. Neben MapReduce-Anwendungen können nun auch andere parallele Anwendungen auf Hadoop Clustern betrieben werden.

Tom White weist darauf hin, dass Hadoop 0.23.0 noch als „Early Release“ firmiert und noch nicht für den produktiven Einsatz empfohlen wird. Eine lesenswerte Einführung in das Hadoop-Ökosystem gibt Apache-Committer Bernd Fondermann in seinem Beitrag: „Apache Hadoop: Elefantitis.

Geschrieben von
Hartmut Schlosser
Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.