Let’s Crunch! Apache Crunch für Big Data

Judith Lungstraß

Das Prinzip „Keep it simple“ ließ sich für Hadoop MapReduce bisher nur schwer einhalten, denn der größte Teil des Codes hatte mit der Infrastruktur anstatt der eigentlichen Aufgabe zu tun. Dies zu ändern, schickt sich nun Apache Crunch an, ein Projekt in der Entwicklungsphase, welches derzeit Version 0.3.0 erreicht hat.

Bei Apache Crunch handelt es sich um eine Java-Bibliothek zum Schreiben, Testen und Laufenlassen von MapReduce Pipelines, die die Entwicklung hierfür vereinfachen soll und auf Googles FlumeJava Paper basiert. Auf Hadoop MapReduce laufend, stellt Apache Crunch ein einfaches Java API für die Datenaggregation zur Verfügung.

Die Bibliothek kann Daten aus verschiedenen Quellen, wie beispielsweise Sequence Files, Avro, Text, Hbase oder JDBC mit Hilfe eines einfachen Read APIs lesen. Daten verschiedener Formate, wie JSON, Acro und Thrift, können importiert werden. Für Scala User gibt es darüber hinaus Scrunch, ein Scala API für Crunch.

Die Vorversion Apache Crunch 0.3.0 (incubating) kann im Apache Incubator heruntergeladen werden.

Geschrieben von
Judith Lungstraß
Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.