Open-Source-Projekt für interaktive Big-Data-Analysen: Apache Drill vorgeschlagen

Hartmut Schlosser

Die Verarbeitung großer Datenmengen, sogenannter Big Data, könnte bald mit einem neuen Open-Source-Projekt auf eine höhere Stufe der Performanz gebracht werden. Die Rede ist von dem Big-Data-Projekt Drill, das gerade in den Apache Incubator aufgenommen wurde.

Mit Drill wird der Versuch unternommen, eine Open-Source-Variante des Google-Big-Data-Projektes Dremel bereit zu stellen. Dremel wird von Google für die Beschleunigung der mittels Hadoop durchgeführten Datenanalysen verwendet. Das Durchsuchen großer Datenmengen, die in GoogleFS und BigTable abgelegt sind, soll mit Dremel dramatisch schneller vonstatten gehen. Wo MapReduce-Jobs mit Hadoop Stunden benötigten, macht Dremel die Resultate quasi in Echtzeit zugänglich.

Drill soll dieselben Funktionalitäten wie Dremel aufweisen, darüberhinaus aber eine erweiterte Flexibilität erhalten, um eine größere Anzahl von Query-Sprachen, Datenformaten und Datenquellen zu unterstützen. Das Design-Ziel besteht darin, Suchanfragen auf mehr als 10.000 Servern bewältigen zu können. Die Bearbeitung von Daten im Petabyte-Bereich bzw. im Bereich von mehreren Milliarden von Einträgen soll in wenigen Sekunden abgeschlossen sein.

Die Initiative kommt vom Hadoop-Anbieter MapR, der auch einen Großteil der Committer stellt. Für Projektleiter Tomer Shiran füllt Drill eine Lücke im Open-Source-Bereich der Big Data Analyse. Während Hadoop auf Stapelverarbeitung (Batch Processing) spezialisiert sei, habe die mit Drill durchgeführte „interaktive Analyse“ das Potenzial, die Suchzeiten signifikant zu reduzieren. Die Öffnung des Projektes als Apache-Open-Source-Projekt begründet Shiran mit der Notwendigkeit, standardisierte APIs zu etablieren, die von einer breiten Unternehmens-Basis mitgetragen werden.

In einer ersten Etappe sollen die Anforderungen und Architektur-Entwürfe spezifiziert und eine erste Implementierung bereitgestellt werden, die eine Ausführungs-Engine und die Query-Sprache DrQL umfassen. Das Drill-Proposal steht im Apache Incubator zur Einsicht bereit. Der Architekturentwurf ist auch in einem PDF veröffentlicht worden.

Geschrieben von
Hartmut Schlosser
Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.