Vorhang auf für Apache Spark 1.0

Redaktion JAXenter

Databricks, das Unternehmen hinter Apache Spark, gab vor wenigen Tagen das erste Major Release des Datenanalyse-Tools bekannt. Mit mehr als 110 Beteiligten während der vergangenen vier Monate handle es sich um das bislang größte Release in der Geschichte des Big-Data-Frameworks.

An Bord dieser ersten Major-Version sind neben diversen anderen neuen Features das neue Modul Spark SQL, Verbesserungen im Management und Deployment und ein Java-8-API.

Spark SQL stattet Spark mit nativer Unterstützung für SQL aus. Es vereinfacht den Import strukturierter Daten aus Quellen wie Hive oder Parquet. Gleichzeitig ermöglicht es komplexe Datenanalyse und Operationen wie ETL (Extract, Transform, Load) und MapReduce. Somit sind Abfragen sowohl in Sparks eigener Datenablage, den RDDs (Resilient Distributed Datasets), als auch in externen Datenquellen möglich. Dank Spark SQL können RDDs und strukturierte Datenquellen also nahtlos zusammengeführt werden.

In Sachen Management und Deployment unterstützt Spark nun die Sicherheitsfähigkeiten von Hadoops YARN-Engine, sollte also fehlerfrei auf gesicherten Hadoop-Clustern laufen.

Das Java-API unterstützt seit dieser Version die Lambda-Ausdrücke der neuen Java-Version 8.

Erst im vergangenen Februar wurde Apache Spark aus dem Projekt-Inkubator der Apache Foundation entlassen und zum vollwertigen Projekt gewählt, wenige Wochen, nachdem Cloudera kommerziellen Support für das In-Memory-Framework angekündigt hatte. Bereits wenige Monate später kann Spark auf eine kleine Erfolgsstory zurückblicken. So kündigte das US-amerikanische Unternehmen MapR Technologies neulich an, Spark künftig in seine Distributionen integrieren zu wollen. Auch DataStax, Spezialist für die Datenbank Cassandra, wird mit Databricks kooperieren, um eine Integration in Cassandra in die Wege zu leiten. Dazu äußerte sich Martin Van Ryswyk kürzlich in einem JAXenter-Interview.

Seit fünf Jahren wird das Projekt entwickelt, seit vier Jahren ist es Open Source. Mit der wachsenden Community steigt auch die Zahl der erhaltenen Patches, wie das folgende Schaubild zeigt.

Apache Spark Patches 

Geschrieben von
Kommentare

Hinterlasse einen Kommentar

2 Kommentare auf "Vorhang auf für Apache Spark 1.0"

avatar
400
  Subscribe  
Benachrichtige mich zu:
Ingo Meyer
Gast

Nur ’ne Kleinigkeit: ETL heisst: Extract Transform Load

dkupfer
Gast

Klar! Ist korrigiert, danke!