Suche
Maschinelles Lernen

Embedding Projector visualisiert komplexe Machine-Learning-Daten

Melanie Feldmann

© Shutterstock / agsandrew

Wie genau Machine-Learning-Modelle Daten interpretieren, ist für Menschen nicht einfach zu durchdringen. Denn die Daten haben oft hunderte oder gar tausende von Dimensionen. Das Tool Embedding Projector visualisiert die Daten und wurde jetzt von Google Open Source gestellt.

Menschen denken meist in drei Dimensionen: Höhe, Breite, Tiefe. Mit der Zeit als vierte Dimension können wir meistens auch noch umgehen. Alles darüber hinaus sprengt einfach die Vorstellungskraft. Die Algorithmen des Maschinellen Lernens interpretieren Daten in vielen Dimensionen. Um das nachvollziehen zu können, ist Visualisierung gefragt. Embedding Projector ist eine Web-Applikation für die interaktive Visualisierung und Analyse von hoch-dimensionalen Daten. Es war das Ergebnis eines A.I. Experiments. A.I. Experiments sind kleine von Google gehostete Showcases für Machine-Learning-Anwendungen, mit denen jeder herumspielen kann, um die Technologie zu erkunden und besser zu verstehen.

Embedding Projector ist Teil von TensorFlow. Es wird auch eine Stand-alone-Variante geben, die auch läuft ohne Tensorflow installiert zu haben. Auf der Projektseite stehen auch ein paar Datensammlungen zum Ausprobieren bereit.

Lesen Sie auch: Interview mit Christian Meder und Christoph Tempich: „Gerade kleine Firmen sollten Maschinelles Lernen für sich nutzen“

So funktioniert Embedding

Machine-Learning-Systeme übersetzen für Menschen einfach verständliche Dinge wie Wörter oder Geräusche in eine Form, die Computer verstehen und verarbeiten können. Dazu nutzen sie sogenannte Embeddings, mathematische Vektoren, die verschiedene Facetten der Daten (Dimensionen) repräsentieren. Bei Wörtern lassen sich zum Beispiel ähnliche Worte als Punkte darstellen, die nah beieinander liegen. Mit Embedding Projector können Anwender durch Datenansichten in 2D oder 3D navigieren. Sie können zoomen, die Ansicht drehen und schwenken.

Embedding Projector bietet drei verbreitete Methoden, um die Dimensionen der Daten zu reduzieren. Das macht die Visualisierung einfacher. Es nutzt PCA, t-SNE und lineare Projektion. PCA kommt vor allem dann zum Einsatz, wenn man die internen Strukturen der Embeddings untersuchen möchte. Es zeigt die einflussreichsten Dimensionen der Daten. t-SNE wird genutzt, um lokale Gebiete und Cluster zu finden. So können Entwickler sicherstellen, dass das Embedding die Bedeutung der Daten beibehält. Lineare Projektion hilft dabei, interessante „Richtungen“ der Daten zu erkennen; zum Beispiel den Unterschied zwischen formalem und umgangssprachlichem Ton einer Sprache. Das Paper „Embedding Projector: Interactive Visualization and Interpretation of Embeddings“ beschreibt das Tool und den Prozess genauer.

Verwandte Themen:

Geschrieben von
Melanie Feldmann
Melanie Feldmann
Melanie Feldmann ist seit 2015 Redakteurin beim Java Magazin und JAXenter. Sie hat Technikjournalismus an der Hochschule Bonn-Rhein-Sieg studiert. Ihre Themenschwerpunkte sind IoT und Industrie 4.0.
Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.