Suche
Ein neuer Stern am KI-Himmel?

CaffeOnSpark: Yahoo macht Deep-Learning-Software quelloffen

Michael Thomas, Gabriela Motroc

© Shutterstock/maxuser

Yahoo hat mit CaffeOnSpark ein Deep-Learning-System vorgestellt, das auf die Entwicklung sogenannter Predictive Applications (die beispielsweise der Sprach- oder Bilderkennung dienen) abzielt. CaffeOnSpark ist offenbar in der Lage, sehr große, in Hadoop-Dateisystemen gespeicherte Datenmengen zum Zwecke des Deep Learning (ein Ansatz im Bereich des Maschinellen Lernens) heranzuziehen. Die bislang intern entwickelte Software ist ab sofort quelloffen über GitHub verfügbar.

CaffeOnSpark ermöglicht es Yahoos Ankündigung zufolge, Deep-Learning-Prozesse in Spark-Anwendungen einzubetten. Die Software wurde demnach u. a. von dem Entwicklungsteam des zu Yahoo gehörenden Foto-Portals Flickr genutzt, um Verbesserungen bei der automatischen Bilderkennung zu realisieren. Dadurch soll die Suchfunktion nun auch unabhängig von den von Nutzerseite vergebenen Beschreibungen und Tags bessere Ergebnisse liefern.

CaffeOnSpark: Die Highlights

Wie bereits der Name verrät, vereint CaffeOnSpark zwei bereits existierende Technologien, namentlich das unter Federführung des Berkeley Vision and Learning Center (BVLC) entwickelte Deep-Learning-Framework Caffe sowie das auf breites Interesse stoßende Cluster-Computing-Framework Apache Spark (das auch als Ergänzung der Big-Data-Plattform Hadoop genutzt werden kann). Kurz gesagt hat Yahoo offenbar einen Weg gefunden, Caffe auf Spark-Clustern zum laufen zu bringen.

Wie Andy Feng (Vice President of Architecture bei Yahoo) im Gespräch mit dem Technologie-Magazin Wired erläuterte, soll es CaffeOnSpark seinen Nutzern (einigermaßen) leicht machen, Deep-Learning-Prozesse auf mehrere Server zu verteilen – etwas, dass ein direkter Konkurrent, die quelloffene Version von TensorFlow aus dem Hause Google, bislang nicht leisten kann.

Yahoos offizieller Ankündigung zufolge wurde CaffeOnSpark als Deep-Learning-Package für Spark konzipiert. Sparks Machine-Learning-Bibliothek MLlib unterstützt zwar eine Reihe von Algorithmen, beispielsweise für die Bereiche Klassifikation, Regression und Clustering. Jedoch ist keiner dieser Algorithmen dem Deep Learning zuzurechnen – eine Lücke, die CaffeOnSpark nun schließen soll. CaffeOnSparks API unterstützt die aus Apache Spark bekannten DataFrames (eine Weiterentwicklung von Sparks RDD-Modell). Nutzern soll es dadurch möglich sein, auf mithilfe einer Spark-Anwendung vorbereitete Trainingsdaten zurückzugreifen; die somit gewonnenen Vorhersagen sollen sich anschließend via MLlib oder SQL extrahieren lassen.

Da CaffeOnSpark Deep Learning direkt auf Big-Data-Clustern ermöglicht, werden zudem die im Rahmen herkömmlicher Lösungen erforderlichen Datenbewegungen minimiert, was eine im direkten Vergleich höhere Verarbeitungsgeschwindigkeit verspricht. Darüber hinaus können die – zumeist über einen längeren Zeitraum laufenden – Trainings-Jobs dank regelmäßiger Schnappschüsse sowohl pausiert und weitergeführt, als auch – im Falle eines Absturzes – wiederhergestellt werden.

Yahoo gibt an, CaffeOnSpark in den letzten Quartalen im Rahmen mehrerer interner Projekte eingesetzt und dabei durchweg positives Feedback erhalten zu haben. Die Software richtet sich nicht nur an Deep-Learning-Enthusiasten, sondern auch an die Spark-Community. CaffeOnSpark steht unter Apache-2.0-Lizenz und kann über GitHub heruntergeladen werden.

Yahoos Ankündigung erfolgt nur wenige Monate (bzw. Wochen), nachdem Google sein Machine-Learning-System TensorFlow sowie das Serving-System TensorFlow Serving quelloffen zur Verfügung gestellt hat. Microsofts Deep-Learning-Toolkit CNTK (Computational Network Toolkit) ist bereits seit April 2015 Open Source und erhielt im Januar 2016 ein eigenes GitHub Repository. Auch Facebook und der chinesische Suchmaschinenbetreiber Baidu haben vor kurzem ehemals hauseigene Machine-Learning-Technologien quelloffen gemacht. Ein Vorteil, den CaffeOnSpark all diese Lösungen voraus hat, ist der Umstand, dass es ein bestehendes Big-Data-Tool nutzt – der Übergang zu neuen Arbeitsabläufen gestaltet sich somit potentiell deutlich reibungsloser.

Aufmacherbild: Artificial Intelligence von Shutterstock / Urheberrecht: maxuser

Geschrieben von
Michael Thomas
Michael Thomas
Michael Thomas studierte Erziehungswissenschaft an der Johannes Gutenberg-Universität Mainz und arbeitet seit 2013 als Freelance-Autor bei JAXenter.de. Kontakt: mthomas[at]sandsmedia.com
Gabriela Motroc

Gabriela Motroc is an online editor for JAXenter.com. Before working at S&S Media she studied International Communication Management at The Hague University of Applied Sciences.

Kommentare

Hinterlasse einen Kommentar

Hinterlasse den ersten Kommentar!

avatar
400
  Subscribe  
Benachrichtige mich zu: