Deep Learning und KI: PlaNet erkennt Orte dank neuronaler Rasterfahndung ohne Geodaten

PlaNet: Googles neuronales Netzwerk identifiziert Aufnahmeort von Fotos

Mats Autzen

© Shutterstock.com / Andrey Armyagov

Googles neuestes Deep-Learning-Projekt PlaNet ist in der Lage, den Aufnahmeorte von Fotos anhand des Bildhintergrunds zu erkennen. Mit genügend Ressourcen gelingt dem hochentwickelten neuronalen Netzwerk dieses Kunststück sogar besser als Menschen.

Menschen sind unterschiedlich gut darin, Fotos geografisch einzuordnen. Für neuronale Netzwerke war das bisher hingegen eine kaum lösbare Aufgabe. Google hat bereits große Fortschritte bei KI-unterstützter maschineller Übersetzung gemacht. Auch die Fähigkeiten etwa Gemälde oder Grafiken im Internet zu finden oder Tiere und Gesichter auf Bildern zu erkennen – beispielsweise mithilfe des Machine-Learning-Framework TensorFlow – sind beeindruckend. Jetzt hat ein Team von Google-Forschern an der Cornell University ein neuronales Netzwerk namens PlaNet vorgestellt, das den Aufnahmeort von Fotos besser erkennt als Menschen.

PlaNet: KI erkennt Orte ohne Zuhilfenahme von Geodaten

Die Forscher musste in seiner Entwicklung schwierige technische Hürden überwinden: Während der Mensch seine Erfahrung über Architektur, Haustiere, Klima, Denkmäler und kulturelle Eigenarten der Menschen nutzen kann, um Bildern erstaunlich gut identifizieren kann, muss PlaNet auf weitere Mittel und Kniffe zurückgreifen, um diese biologischen und kulturellen Fähigkeiten des menschlichen Verstandes zu kompensieren.

Neuronale Rasterfahndung: die Welt in 26.000 Vierecken

Das Team um Tobias Weyand, dem auch Ilya Kostrikov von der RWTH Aachen angehört, hat ein lernendes neuronales (ANN) Netzwerk geschaffen, das ein Foto lediglich anhand der Pixel im Bild untersucht und mit Hilfe einer Datenbank analysiert. Zunächst wurde jedoch die Weltkarte in ein Raster von 26.000 Vierecken unterteilt. Die Vierecke unterscheiden sich in ihrer Größe: Je mehr Fotos von einer bestimmten Region zur Verfügung stehen, desto kleiner sind dort die Vierecke. Ergo ist das Raster umso feiner, je urbaner und dichter besiedelt die Gegend ist. Danach trainierten die Forscher das neuronale Netzwerk mit 126 Millionen Fotos, die Geotags enthalten, sprich Exif-Daten in der Bilddatei, die den Ort angegeben. Auch die Vegetation und identifizierbare Wortfetzen, Symbole und das Wetter dienen zur Einordnung. Technisch gesprochen werden die Bilder nicht lokalisiert, sondern, so heißt es im Forschungspaper, klassifiziert.

Auf der linken Seite ist die Weltkarte in 26.263 Zellen partitioniert. Rechts ist Großbritannien und Irland und die San Francisco Bay Area. / Quelle: Google via Arxiv

Auf der linken Seite ist die Weltkarte in 26.263 Zellen partitioniert. Rechts ist Großbritannien und Irland und die San Francisco Bay Area. / Quelle: Google via Arxiv

Das hat Weyand zufolge den Vorteil, dass mehrere wahrscheinliche Orte angegeben werden können, während ein „regressives“ Modell sich auf eine Lösung festlegen müsste, selbst wenn sie unwahrscheinlich ist. Während Gebiete wie Alaska oder das Nordkap aufgrund des Mangels von Quellen nur grobe Raster kriegen, gibt es Stadtgebieten eine Bilderflut.

Der Eiffelturm ist unverwechselbar (a), der Fjord könnte in Neuseeland oder in Norwegen liegen (b). Der Strand hingegen könnte in der Levante oder in Mexico sein. / Quelle: Google via Arxiv

Der Eiffelturm ist unverwechselbar (a), der Fjord könnte in Neuseeland oder in Norwegen liegen (b). Der Strand hingegen könnte in der Levante oder in Mexico sein. / Quelle: Google via Arxiv

PlaNet hat bessere Ortskenntnis als Menschen

Wie gut PlaNet funktioniert, erfuhren die Forscher nach einem test mit 2,3 Millionen Fotos von Flickr. PlaNet konnte 3,6 Prozent der Bilder auf die Straße genau einordnen, 10,1 Prozent auf die Stadt genau. Das richtige Land wurde zu 28,4 Prozent richtig identifiziert, der Kontinent zumindest in 48 Prozent der Fälle. Die Zahlen mögen zunächst nicht beeindrucken. Doch in einem Quiz, in dem zehn Weltenbummler gegen das neuronale Netzwerk antraten, zeigte sich, dass das neuronale Netzwerk 28 von 50 Partien gewann. Man kann das nicht besonders einfache Spiel Geoguessr übrigens kostenlos auf dem Browser ausprobieren, um zu sehen, wie viele Treffer man selbst bei 50 Versuchen landet.

Insbesondere bei Sequenzen von Fotos in Alben kann der Algorithmus auftrumpfen. Das Vergleichen von allgemeinen und besonderen Orten innerhalb von Fotoserien lässt das Programm Wahrscheinlichkeiten für verschiedene Orte errechnen, das neuronale Netz bildet gewissermaßen ein Kurzzeitgedächtnis.

Je kälter die Heatmap, desto unsicherer ist sich das ANN. / Quelle: Google via Arxiv

Je kälter die Heatmap, desto unsicherer ist sich das ANN. / Quelle: Google via Arxiv

Natürlich gibt es Grenzen. Wo es keine Fotos gibt, etwa von Grönland, kann Google’s ANN auch nichts analysieren. Aber die menschliche Begrenzung – sprich die Limitierungen aufgrund individueller Ressourcen (wie viel, wie lange und wie weit man reisen kann und wie viel man sich dabei merken kann), hebelt der endlose Speicher von Googles neuronalem Netzwerk eben doch aus.

Die letzte erstaunliche Tatsache ist, dass das Programm nur 377 MB benötigt, also eigentlich schon Smartphone-ready ist. Wenn man bedenkt, wie jung diese erste funktionsfähige Version ist und das sie auf kumulativem Wissenssammlung beruht, sollten wir auf weitere erstaunliche Fortschritte in Suchalgorithmen in der nicht allzu ferner Zukunft hoffen.

Wie gut sind Sie im Erkennen von den Orten auf den Fotos? Googles Abweichung lag bei durchschnittlich 1131,7 KM.

Geschrieben von
Mats Autzen
Mats Autzen
Mats Autzen studiert Politische Theorie an der Goethe Universität Frankfurt am Main und arbeitet seit September 2016 als Werkstudent bei Software & Support Media. Vorher hat er Politikwissenschaft sowie Wirtschafts- und Sozialgeschichte in Aachen studiert.
Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.