MapR: SQL-on-Hadoop durch Einsatz von Apache Drill

Michael Thomas
Screenshot: mapr.com

Die monatlich aktualisierten MapR-Distributionen für Apache Hadoop stellen Programmpakete von mehr als einem Dutzend Projekten der Hadoop-Community dar und sollen  umfassende Ressourcen zur Verarbeitung von Big Data zur Verfügung stellen.

Wie einer Mitteilung von MapR Technologies zu entnehmen ist, werden die MapR-Distributionen ab sofort ebenfalls Apache Drill 0.5 beinhalten. Mit Apache Drill verfügt Hadoop damit über ANSI SQL der neuesten Generation, welche Self-Service-Datenexploration über verschiedene Datenquellen (inklusive Apps) hinweg ermöglicht.

Die Vorteile der Nutzung von Apache Drill umfassen demnach:

  • die Hochleistungsanalyse von Daten in ihrem nativen Format, darunter auch selbstbeschreibende Daten wie Parquet, JSON-Dateien und  HBase-Tabellen.
  • die Direktabfrage von Daten aus HBase-Tabellen, und zwar ohne dass parallele bzw. Overlay-Schemas im Hive Metastore definiert und aufrecht erhalten werden müssen.
  • Intuitive SQL-Erweiterungen für die Arbeit mit semistrukturierten bzw. verschachtelten Daten wie z.B. aus NoSQL Stores wie MongoDB oder Online-REST-APIs.
  • Anfragen, die verschiedene Hadoop-Datenquellen wie Dateien, HBase-Tabellen und Hive-Tabellen simultan kombinieren.

Des Weiteren können Analysten und Entwickler Apache Drill nutzen, um einen Leverage-Effekt mit bereits bestehende SQL-Skillsets und Business-Intelligence-Tools zu erzielen:

  • Die Wechselkosten sowie die Lernkurven werden durch die vertraute ANSI-SQL-Syntax minimiert.
  • Durch den Einsatz von ODBC- und JDBC-Treibern können vertraute Business-Intelligence- und Analyse-Tools wie Excel oder Tableau weiterhin verwendet werden.
  • Es werden Anfragen mit niedriger Latenz auf bestehende Hive-Tabellen ermöglicht; die Wiederverwendung von Hive-Metadaten, hunderten Dateiformaten sowie benutzerdefinierter Funktionen ist Out-of-the-Box möglich.

Bisher wird MapR von mehr als 500 Kunden u.a. aus solch verschiedenen Sparten wie dem Finanzwesen, dem Gesundheitswesen, dem produzierenden Gewerbe, von Telekommunikationsunternehmen sowie Regierungsbehörden eingesetzt. Das erweiterte Partner-Ökosystem umfasst Größen wie Amazon, HP und Google. Mit dieser neuesten Version von MapR könnten sich schon bald weitere große Namen hinzugesellen.

Geschrieben von
Michael Thomas
Michael Thomas
Michael Thomas studierte Erziehungswissenschaft an der Johannes Gutenberg-Universität Mainz und arbeitet seit 2013 als Freelance-Autor bei JAXenter.de. Kontakt: mthomas[at]sandsmedia.com
Kommentare

Hinterlasse einen Kommentar

1 Kommentar auf "MapR: SQL-on-Hadoop durch Einsatz von Apache Drill"

avatar
400
  Subscribe  
Benachrichtige mich zu:
Frederik Wildmann
Gast

Drill ist wirklich unglaublich einfach und funktioniert super! Großer Schritt für SQL und Hadoop