Die Funken fliegen schneller

Apache Spark 1.5 verspricht bessere Performance

Michael Thomas

© Shutterstock.com/Evgeniya Anfimova

Das quelloffene Framework Apache Spark hat ein Update erfahren. Version 1.5 steht ganz unter dem Zeichen einer besseren Performance, die u. a. durch neue Datenverarbeitungsfunktionen sowie die Beseitigung von Flaschenhälsen, die Sparks Abhängigkeiten von der JVM geschuldet sind, erreicht werden soll.

Eine Schlüsselkomponente von Spark 1.5 ist das Projekt „Tungsten“, das die Performance durch Umgehung der Beschränkungen der JVM verbessern soll: Viele der „Geschwindigkeitsbegrenzungen“, denen Spark unterworfen ist, sind ein Nebenprodukt der Garbage Collection sowie der Speichermanagementsysteme der JVM. Tungsten, das zumindest in Ansätzen bereits in Spark 1.4 enthalten war, schreibt zentrale Teile von Spark um. Dadurch sollen die bisher vorhandenen Flaschenhälse vollständig vermieden werden; zusätzlich stehen neue Features, wie etwa die direkte Nutzung des Cache-Speichers bereit, die Sparks Datenverarbeitung noch weiter beschleunigen sollen.

Databricks, Sparks wichtigster kommerzieller Förderer, hat langfristig gesehen zudem die Ausnutzung der GPU-Parallelität auf der Agenda, um eine weitere Geschwindigkeitszunahme zu erreichen. Bislang existieren diese Pläne jedoch nur auf dem Papier

Weitere in Spark 1.5 realisierte Performance-Verbesserungen betreffen beispielsweise SQL-Operationen in DataFrames (eine Weiterentwicklung von Sparks RDD-Modell). Zudem werden Cluster-Management-Systeme wie YARN und Mesos in der neuen Version besser unterstützt als bisher, wobei letzteres Spark einen breiteren Einsatzzweck eröffnet, als mit Hadoop allein möglich wäre.

Über Apache Spark

Im Februar 2014, wenige Wochen, nachdem Cloudera kommerziellen Support für das In-Memory-Framework angekündigt hatte, wurde Apache Spark aus dem Projekt-Inkubator der Apache Foundation entlassen und zum vollwertigen Projekt gemacht. Bereits wenige Monate später konnte Spark auf eine kleine Erfolgsstory zurückblicken: So integrierte das US-amerikanische Unternehmen MapR Technologies Spark in seine Distributionen. DataStax, Spezialist für die Datenbank Cassandra, startete eine Kooperation mit Databricks, um eine Integration von Spark in Cassandra zu realisieren (siehe dazu auch das JAXenter-Interview mit Martin Van Ryswyk von DataStax).

In Entwicklerkreisen erfreut sich Apache Spark derweil wachsender Beliebtheit: Wie einer Anfang dieses Jahres von Typesafe durchgeführten Umfrage zu entnehmen ist, verwenden 13 % das Big-Data-Tool bereits jetzt in der Produktion. 20 % haben fest eingeplant, im Laufe des Jahres 2015 mit der Nutzung von Spark zu beginnen und weitere 31 % prüfen, ob eine Verwendung für sie in Frage kommt.

Aufmacherbild: sparks von Shutterstock / Urheberrecht: Evgeniya Anfimova

Geschrieben von
Michael Thomas
Michael Thomas
Michael Thomas studierte Erziehungswissenschaft an der Johannes Gutenberg-Universität Mainz und arbeitet seit 2013 als Freelance-Autor bei JAXenter.de. Kontakt: mthomas[at]sandsmedia.com
Kommentare

Hinterlasse einen Kommentar

Hinterlasse den ersten Kommentar!

avatar
400
  Subscribe  
Benachrichtige mich zu: