Cloudera und Twitter verlegen Parquet auf dem Hadoop-Boden

Eric Herrmann

Cloudera hat sich mit Twitter zusammengetan und den Hadoop-Spalten-Speicher Parquet Open Source bereitgestellt. „Komprimierte, effiziente, spaltenbasierte Datenrepräsentation“ soll das Dateiformat bieten.

Die Inspiration zu Parquet zog das Team um Julien Le Dem aus dem „Dremel“-Paper, einer Publikation, die Google 2010 veröffentlicht hatte. Der darin vorgestellte Striping-and-Assembly-Algorithmmus sei etablierten Lösungen wie dem Angleichen verschachtelter Namespaces überlegen. Die mit Parquet erstellten Datenstrukturen legen spaltenweise individuelle Kompressionsmodelle fest, auf deren Daten mit bestimmten Operatoren zugegriffen werden kann, ohne zunächst die bereits vorhandenen Daten extrahieren zu müssen.

Auf dem Markt der Speicher für spaltenbasierte Daten tritt Parquet in direkte Konkurrenz zu Hadoops HBase. Aufgrund seiner Framework- und Datenmodell-agnostischen Aufmachung öffnet es jedoch ein neues Türchen für den Austausch großer Datenmengen. Twitter-Analytics-Infrastruktur-Mitarbeiter Dimitriy Ryaboy spricht sich für die einfache Implementierbarkeit von Parquet aus und sagt:

The Hadoop ecosystem is rich with data processing frameworks, and we are not interested in playing favorites. We believe that an efficient, well-implemented columnar storage substrate should be useful to all frameworks without the cost of extensive and difficult to set up dependencies.

Sowohl Cloudera als auch Twitter haben bereits begonnen, Parquet produktiv einzusetzen. Während der Lieferant der Cloudera Distribution Including Apache Hadoop seine Echtzeit-Query-Engine Impala damit testet, stellt der Microblogging-Dienst seine Datenquellen peu à peu auf Parquet um und plant für die Zukunft den Support des Data-Warehouse-Systems Hive sowie der Abstraktionsschicht Cascading. Im weiteren Verlauf der Entwicklung wollen Twitter, Cloudera und die anderen Gründungsmitglieder Parquet dem Apache Incubator übergeben, um die Zahl der beteiligten Entwickler und die Verbreitung des Dateiformates noch weiter zu erhöhen, wie es auf der offiziellen Homepage heißt.

Geschrieben von
Eric Herrmann
Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.