Big und Fast Data

Hybrid Storage Engine Apache Kudu ist jetzt Top-Level-Projekt

Melanie Feldmann

© Shutterstock / Martin Prochazkacz

Die Storage Engine Kudu will eine Brücke schlagen zwischen traditionellen Datenbankanwendungen und der neuen Welt der Big und Fast Data. Dazu hat es bei der Apache Software Foundation jetzt den Weg vom Inkubator zum Top-Level-Projekt hinter sich gebracht. Wann Version 1.0 erscheint, steht aber noch nicht fest.

Apache Kudu ist eine spaltenorientierte Storage Engine. Sie ermöglicht flexible, hoch-performante Pipelines für die Datenanalyse. Dazu arbeitet sie mit MapReduce, Spark und anderen Komponenten aus dem Hadoop-Okösystem zusammen. Besonders eng ist die Integration mit dem Schwesterprojekt Apache Imapala. Damit ist das Tool eine eine Alternative für das Hadoop Distributed File System (HDFS) mit Parquet. Kudu verarbeitet OLAP (Online Analytical Processing) Workloads schnell. Sowohl sequenzielle als auch zufällige Workloads arbeitet die Engine simultan performant ab.  

Apache Kudu verbindet Welten

„Das Internet der Dinge, Cybersecurity und andere schnelle Datentreiber verlangen danach, das Echtzeit-Datenanalyse auf den Big-Data-Plattformen stattfindet“, erläutert Arvind Prabhakar, Mitglied der Apache Software Foundation  und CTO von StreamSets, der Nutzen der Software. „Apache Kudu schließt eine wichtige Lücke, indem es eine elegante Lösung bietet traditionelle Datenanalyse und Fast-Data-Zugriffe miteinander zu verbinden.“ Kudu ermöglicht dies, weil es ein eher traditionelles relationales Datenmodell nutzt als zum Beispiel HBase, das schemalos ist. Das simple Datenmodell macht es einfach, Legacy-Anwendungen zu portieren oder neue zu bauen. Die Tabellen sind selbsterklärend, sodass Entwickler Standard-Tools wie SQL Engines oder Spark nutzen können, um Daten zu analysieren. Für Zugriff im NoSQL-Stil können Entwickler zwischen APIs in Java, C++ oder Python wählen. Die APIs lassen sich zusammen mit Batch-Zugriffen für Maschinelles Lernen oder Datenanalyse nutzen.

Lesen Sie auch: Apache Spark: Mehr als ein Hadoop-Ersatz

Stand der Dinge bei Apache Kudu

Im November 2015 hatte der Erfinder von Kudu, das Unternehmen Cloudera, die Software der Apache Software Foundation übergeben. Seitdem wuchs das Projekt auf 45 aktive Entwickler an. Zurzeit befindet sich die Software in einer Beta-Version 0.9.1. Die Entwickler empfehlen, es lediglich als Proof of Concept einzusetzen und noch nicht im Produktivbetrieb, da es jederzeit sein kann, dass sich noch APIs ändern und die Rückwärtskompatibilität gebrochen werden muss. Für die Version 1.0 gibt es noch keinen Release-Termin. Wer trotzdem schon einmal hineinschnuppern möchte, findet Starthilfe im Quickstart Guide.

Verwandte Themen:

Geschrieben von
Melanie Feldmann
Melanie Feldmann
Melanie Feldmann ist seit 2015 Redakteurin beim Java Magazin und JAXenter. Sie hat Technikjournalismus an der Hochschule Bonn-Rhein-Sieg studiert. Ihre Themenschwerpunkte sind IoT und Industrie 4.0.
Kommentare

Hinterlasse einen Kommentar

Hinterlasse den ersten Kommentar!

avatar
400
  Subscribe  
Benachrichtige mich zu: