Maschinelles Lernen mit Open Source Tools

Machine Learning Framework Datumbox ist mit Version 0.7.0 jetzt schneller

Melanie Feldmann

© Shutterstock / Anita Ponne

Das Ziel des Frameworks Datumbox ist es, Algorithmen für Maschinelles Lernen einfach in produktiven Code zu integrieren. Dafür unterstützt die Version 0.7.0 jetzt Multi-threading und soll Festplatten-basiertes Training schneller machen – also Trainingsmodelle, die Daten nicht in den Speicher laden. Außerdem hat sich auch einiges bei den Algorithmen selbst getan.

Flottes Multi-threading

Die neue Version soll um einiges schneller sein als sein Vorgänger 0.6.x. Möglich machen das Threads, Verbesserungen an den Hot Spots des Codes und Umbauten bei Komponenten für nicht-blockierende nebenläufige Schreib-/Leseaktionen. Aktuell werden in allen Algorithmen, die parallelisiert werden können, Threads genutzt. Das ist die Mehrheit der unterstützten Modelle des Frameworks. Die parallele Ausführung wird sowohl während des Trainings als auch während Tests und Vorhersagen unterstützt.

Schnelleres Festplattenbasiertes Training

Festplattenbasiertes Training gab es schon in der Version 0.6.0 Jedoch war es so langsam, das es kaum zu gebrauchen war. Mit der Version 0.7.0 wurden die Storage-Engine-Mechanismen so geändert, dass sie einen hybrides Vorgehen für die Speicherung der wichtigen und regelmäßigen Daten im Speicher und LRU Cache. Der Rest bleibt auf der Festplatte. Dieser Ansatz soll das Festplattenbasierte Training deutlich beschleunigen. Der Entwickler von Datumbox Vasilis Vryniotis rät dazu, diese Variante zu bevorzugen, auch wenn die Daten kaum in den Speicher passen.

Lesen Sie auch: Machine Learning: Fünf Toolkits im Kurzportrait

Verbesserungen bei den Algorithmen

Die neue Version unterstützt jetzt die Regulierungen von L1, L2 und Elastischen Netzen in der SoftMaxRegression (Multinominale logistische Regression), Ordinale Regression und NLMS (Lineare Regression). Dies bedeutet, das man dieselben Standardklassen für Ridge Regressionen, Lasso Regressionen und für Elastische Netze nutzen kann.

DatumBox ist ein quelloffenes Java-Framework zur Entwicklung von Anwendungen für maschinelles Lernen und statistische Datenverarbeitung. Auf Basis von Java 8 und einer Maven-Projektstruktur bietet es eine umfangreiche Sammlung von Algorithmen, Tools und Statistik-Tests. Um Maschinelles Lernen praktisch überall möglich zu machen, bietet Datumbox zudem ein eigenes API an, das mit der REST- und JSON-Technologie arbeitet. Der Plan sieht vor, dass der Zugriff auf das Framework auch für Nicht-Java-Nutzer einfacher werden soll, entweder über die Konsole oder ein API. Außerdem sollen mit der Zeit weitere Machine-Learning-Algorithmen dazukommen.

Datumbox steht unter eine Apache License Version 2.0 und kann bei GitHub gefunden werden. Ein Installations-Guide findet sich hier und Code-Beispiele hier.

Aufmacherbild: Multicolored brain connections von Shutterstock / Urheberrecht: Nicku

Verwandte Themen:

Geschrieben von
Melanie Feldmann
Melanie Feldmann
Melanie Feldmann ist seit 2015 Redakteurin beim Java Magazin und JAXenter. Sie hat Technikjournalismus an der Hochschule Bonn-Rhein-Sieg studiert. Ihre Themenschwerpunkte sind IoT und Industrie 4.0.
Kommentare

Hinterlasse einen Kommentar

Hinterlasse den ersten Kommentar!

avatar
400
  Subscribe  
Benachrichtige mich zu: