Machine Learning

Sparkling Water 2.0: Maschinelles Lernen mit Spark

Melanie Feldmann

© Shutterstock / Nagib

Sparkling Water verbindet Spark mit dem Big-Data-Analyse-Tool H2O, um in den Unmengen an Daten in Spark-Clustern mithilfe von Machine Learning neue Einblicke und Trends zu finden. Dabei helfen ein übersichtliches UI und die Integration der populären Machine-Learning-Bibliothek MLib.

Basis für Maschinelles Lernen mit Spark ist die Open Source Software H2O der gleichnamigen Firma. Mit H2O lassen sich mathematische Analysen und Predictive Analytics auf großen Datenmengen durchführen. Das Tool lässt sich sowohl mit den für Big-Data- und ML-Anwendungen typischen Programmiersprachen R und Python verwenden als auch mit Java und Scala. H2O unterstützt gängige Datenbankformate von Microsoft Excel bis Tableau. Daten lassen sich von HDFS-, S3-, SQL- und NoSQL-Quellen nutzen. Mit H2O ist es möglich, Modelle nicht nur an kleinen Mengen von Daten zu testen, sondern an kompletten Datensets. Dafür sorgt die verteilte, in-memory Datenverarbeitung von Spark.

Lesen Sie auch: TensorFlow 0.9: Ein erster Standard für Machine-Learning-Systeme

Sparkling Water verbindet H2O mit Spark. Im Prinzip ist es ein API. Den Entwicklern ging es darum, Spark möglichst eng mit dem Tool für Maschinelles Lernen zu verknüpfen. Anwender können Spark SQL für Querries nutzen und diese nach H2O überführen, um darauf Machine-Learning-Modelle laufen zu lassen. Die Ergebnisse lassen sich wieder nach Spark zurückführen. Möglich macht das, dass das H2O RDD (Resilient Distributed Dataset) ein neuer RDD-Typ in Spark ist. Die H2O-Software läuft direkt im Spark-Cluster. Sparkling Water liegt als JAR-Datei im Spark-Master-Knoten und wird im Spark-Cluster verteilt.

Das bringt Sparkling Water 2.0

Die aktuelle Version Sparkling Water 2.0 bringt mehrere Verbesserungen und neue Features für Maschinelles Lernen mit Spark. Es ist jetzt kompatibel mit Spark 2.0 und allen Vorgängerversionen sowie dem Apache Zeppelin, einem Notizbuch-Tool für interaktive Datenanalyse. Eine wichtige Funktion von Sparkling Water ist, dass es nicht nur auf H2O selbst für Algorithmen zurückgreifen kann, sondern auch auf MLib-Algorithmen. Diese Integration wurde mit 2.0 verbessert. So lassen sich nun beispielsweise MLib-Modelle als POJOs exportieren, die sich einfach auf jeder Hardware ausführen lassen. Auch die Visualisierung wurde verbessert, um es für Anwender einfacher zu machen, die Algorithmen und Ergebnisse nachzuvollziehen. Außerdem wurde eine Toolchain für Machine Learning Pipelines eingeführt. Und für die Echtzeitverarbeitung von Daten für Maschinelles Lernen können Spark Streaming und H2O nun zusammenarbeiten.

Zu finden ist Sparkling Water auf GitHub. Für den Einstieg gibt es mehrere Tutorials und diesen Quick Start Guide:

 Aufmacherbild: vivid water abstract von Shutterstock / Urheberrecht: Nagib

Geschrieben von
Melanie Feldmann
Melanie Feldmann
Melanie Feldmann ist seit 2015 Redakteurin beim Java Magazin und JAXenter. Sie hat Technikjournalismus an der Hochschule Bonn-Rhein-Sieg studiert. Ihre Themenschwerpunkte sind IoT und Industrie 4.0.
Kommentare

Hinterlasse einen Kommentar

Hinterlasse den ersten Kommentar!

avatar
400
  Subscribe  
Benachrichtige mich zu: