Big Data

Apache Spark 1.3 mit DataFrame API

Michael Thomas

© Shutterstock.com/Imageman

Wie Databricks, das Unternehmen hinter Apache Spark, bekannt gegeben hat, ist das Datenanalyse-Tool ab sofort in Version 1.3 erhältlich. Das vierte Release der 1.x-Reihe setzt sich nach Angaben der Entwickler aus insgesamt mehr als 1000 Einzelpatches zusammen. Highlight des Updates ist jedoch zweifellos das neue DataFrame API sowie die Tatsache, dass die Spark-SQL-Komponente sich nun nicht länger im Alpha-Stadium befindet.

DataFrame API und Spark SQL

Das DataFrame API soll die Verarbeitung strukturierter Datensätze erleichtern und beschleunigen. Die dabei zum Einsatz kommenden DataFrames stellen eine Weiterentwicklung von Sparks RDD-Modell war. Das Konzept der DataFrames war bereits bei R und Pandas anzutreffen, weshalb Sparks DataFrames mit diesen vollständig interoperabel sind. DataFrames sind in Sparks Java-, Scala- und Python-API verfügbar und werden auch Teil des noch unveröffentlichten R API sein. Sie machen sich den logische Optimierer von Spark SQL zunutze, um die physische Ausführung von Operationen derart zu planen, dass sie auch bei großen Datensätzen gut funktionieren.

Da sie sich mit Version 1.3 nicht länger im Alpha-Stadium befindet, wird Sparks SQL-Komponente mit dem SQL-Dialekt und der Semantik zukünftiger Releases kompatibel sein. Spark SQL ist nun vollständig interoperabel mit der DataFrame-Komponente, was die Erstellung von DataFrames aus Hive-Tabellen, Parquet-Dateien und ähnlichen Quellen ermöglicht. Des Weiteren können nun Tabellen aus einer JDBC-Verbindung gelesen werden, wobei nach Aussagen der Entwickler eine native Unterstützung von PostgreSQL, MySQL und anderen RDBMS-Systeme gegeben ist.

Eine Übersicht über die weiteren Neuerungen findet sich in den offiziellen Release Notes.

Über Apache Spark

Im Februar 2014 wurde Apache Spark aus dem Projekt-Inkubator der Apache Foundation entlassen und zum vollwertigen Projekt gewählt, wenige Wochen, nachdem Cloudera kommerziellen Support für das In-Memory-Framework angekündigt hatte. Bereits wenige Monate später konnte Spark auf eine kleine Erfolgsstory zurückblicken. So integrierte das US-amerikanische Unternehmen MapR Technologies Spark in seine Distributionen. DataStax, Spezialist für die Datenbank Cassandra, startete eine Kooperation mit Databricks, um eine Integration von Spark in Cassandra zu realisieren (siehe dazu auch das JAXenter-Interview mit Martin Van Ryswyk von DataStax).

In Entwicklerkreisen erfreut sich Apache Spark wachsender Beliebtheit: Wie einer Anfang des Jahres von Typesafe durchgeführten Umfrage zu entnehmen ist, verwenden 13 % das Big-Data-Tool bereits jetzt in der Produktion. 20 % haben fest eingeplant, im Laufe des Jahres 2015 mit der Nutzung von Spark zu beginnen und weitere 31 % prüfen zur Zeit, ob eine Verwendung für sie in Frage kommt.

Verwandte Themen:

Geschrieben von
Michael Thomas
Michael Thomas
Michael Thomas studierte Erziehungswissenschaft an der Johannes Gutenberg-Universität Mainz und arbeitet seit 2013 als Freelance-Autor bei JAXenter.de. Kontakt: mthomas[at]sandsmedia.com
Kommentare

Hinterlasse einen Kommentar

Hinterlasse den ersten Kommentar!

avatar
4000
  Subscribe  
Benachrichtige mich zu: