Maschinelles Lernen und Statistik

Maschinelles Lernen mit DatumBox-Framework 0.6.0

Moritz Hoffmann

DatumBox ist ein quelloffenes Java-Framework zur Entwicklung von Anwendungen für maschinelles Lernen und statistische Datenverarbeitung. Auf Basis von Java 8 und einer Maven-Projektstruktur bietet es eine umfangreiche Sammlung von Algorithmen, Tools und Statistik-Tests. Um Maschinelles Lernen praktisch überall möglich zu machen, bietet Datumbox zudem ein eigenes API an, das mit der REST- und JSON-Technologie arbeitet. Nun ist die neue Version des Datumbox Machine Learning Framework 0.6.0 veröffentlicht worden.

In der neuen Version wird ein Schwerpunkt auf die Verarbeitung großer Datenmengen bis zu einigen Gigabytes Größe gelegt. Dazu wurde das Memory Management weiterentwickelt und die Möglichkeit einer persistenten Datenspeicherung geschaffen. Zusätzlich wird nun auch Support für die Datenbank-Engine MapDB bereitgestellt.

Eine gestraffte Architektur und ein Re-Design der Kernelemente sollen das Framework einfacher und schlanker machen. Überflüssige Features und Datenstrukturen wurden entfernt. Auch das Parsen von CSV-Daten und Dateiordnern in DataSet Objects soll im neuen Framework unkomplizierter von statten gehen. Trotz der vielen Vereinfachungen raten die Macher dennoch zu einem Blick in den ausführlichen Installation Guide.

Das Projekt befindet sich nach eigenem Bekunden nun in der Beta-Phase und verspricht eine stabile Anwendung. Eine Abwärts-Kompatibilität ist für DatumBox Machine Learning Framework 0.6.0 nicht vorgesehen.

Laut den Entwicklern ist der allergrößte Teil des knapp 30000 Zeilen umfassenden Codes in Java geschrieben. In den nächsten Releases soll die Anwendbarkeit für Entwickler jenseits der Java-Welt im Vordergrund stehen. So wird daran gearbeitet, die Framework-Algorithmen auch über Konsolenbefehle aufrufen und einsetzen zu können. Ebenso in Arbeit ist die Integration neuer Machine-Learning-Algorithmen, eine verbesserten Dokumentation und Testabdeckung sowie die weitere Optimierung der Code-Struktur.

Zunächst war das Projekt mit der GNU General Public License v3.0 angetreten. Die neue Framework-Version 0.6.0 wurde nun unter der Apache-2.0-Lizenz veröffentlicht. Auf dem DatumBox-Blog wird dies mit der offeneren Haltung Apaches zur Wiederverwendung von Open-Source-Software in kommerziellen Produkten begründet.

Aufmacherbild: Computer script. Programming code abstract @shutterstock.com
Urheberrecht: Mclek

 

Geschrieben von
Moritz Hoffmann
Moritz Hoffmann
Moritz Hoffmann hat an der Goethe Universität Soziologie sowie Buch- und Medienpraxis studiert. Er lebt seit acht Jahren in Frankfurt am Main und arbeitet in der Redaktion von Software und Support Media.
Kommentare

Hinterlasse einen Kommentar

avatar
4000
  Subscribe  
Benachrichtige mich zu: