Twitter und Cloudera veröffentlichen Hadoop-Library Parquet 1.0

Hartmut Schlosser

Seit März wissen wir von der Zusammenarbeit zwischen Twitter und dem Cloud-Anbieter Cloudera, um eine quelloffene Spalten-Speicherformat-Library für Apache Hadoop bereit zu stellen. Jetzt sind mit dem Release von Parquet 1.0 die ersten Ergebnisse dieses Gemeinschaftsprojektes sichtbar geworden.

Parquet ist ein Spalten-Speicherformat für Hadoop Frameworks, das neue Datenverarbeitungsarchitekturen wie Impala, Drill oder Hive ermöglicht. Statt Datensets zeilenweise abzulegen (etwa: Name, Alter, Adresse, etc.) wird spaltenweise vorgegangen (also zuerst alle Namen, dann alle Alter, dann alle Adressen). Vorteile bringt dieses Vorgehen bei Typen-spezifischen Datenkompressionen und bei Querys, die nicht das gesamte Datenset für die Beantwortung einer Anfrage benötigen.

Parquet 1.0 bietet Hadoop Map Reduce Input und Output Formate und unterstützt die Hadoop 1 und Hadoop 2 APIs. Apache Pig Loader und Storer, Impala Support, dynamisches Bit-Packing / RLE Encoding und die Fähigkeit, mit Avro und Thrift Records zu arbeiten, gehören zum Feature-Set. Brandneu ist auch das automatische Dictionary Encoding, das in Java und, für Impala, in C++ implementiert wurde.

Justin Kestelyn von Cloudera freut sich auf dem Cloudera-Blog über die wachsende Akzeptanz des Projektes. Parquet ist bewusst generisch gehalten und nicht an bestimmte Prozess-Frameworks, Serialisierungsbibliotheken oder Tools gebunden. Diese Unabhängigkeit macht Parquet offenbar für viele Anbieter interessant; Beiträge von 18 Entwicklern aus diversen Unternehmen sollen dem Release zugute gekommen sein. Gesucht sind dennoch weitere Mitstreiter für das Folgerelease, in dem u.a. Statistiken, Delta Encoding und nativer Protocol Buffer Support geplant ist.

Geschrieben von
Hartmut Schlosser
Hartmut Schlosser
Hartmut Schlosser ist Redakteur und Online-Koordinator bei Software & Support Media. Seine Spezialgebiete liegen bei Java-Enterprise-Technologien, JavaFX, Eclipse und DevOps. Vor seiner Tätigkeit bei S & S Media studierte er Musik, Informatik, französische Philologie und Ethnologie.
Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.