Medien im Griff

Machine Learning: Wie KI hilft, Bilder und Videos im großen Maßstab zu managen

Nadav Soferman

© Shutterstock / wgraphiks

Den Lebenszyklus von Bildern und Videos in großem Maßstab zu managen, ist für Entwickler eine Herausforderung. Die Pflege von Webseiten mit zigtausenden Medien-Assets und nutzergenerierten Inhalten ist ohne eine Armee an Designern und Entwicklern – oder eben aber Automatisierung – fast unmöglich. Wie künstliche Intelligenz helfen kann, erklärt Nadav Soferman, Co-Founder und CPO von Cloudinary.

Ich kenne die Probleme des Medienmanagements aus eigener Erfahrung. Die Mitbegründer von Cloudinary und ich hatten als IT-Berater immer wieder Herausforderungen für das Bild- und Videomanagement manuell lösen müssen. Wir sahen eine große Chance darin, diese Prozesse zu automatisieren – und so entstand Cloudinary. Hier fünf Beispiele dafür, wie wir KI auf unserer Plattform anwenden, um Bild- und Videomanagement im großen Maßstab zu ermöglichen.

#1: Auto-Cropping und Größenanpassung von Bildern

Das genaue, schnelle und maßstabsgetreue Zuschneiden von Bildern ist angesichts der großen Anzahl von Geräten und Browsern eine gewaltige Herausforderung. Es ist notwendig, das gleiche Bild in unterschiedlichen Formaten zu liefern und es je nach Größe näher oder ferner am Motiv zuzuschneiden.

Beim Auto-Cropping muss beachtet werden, dass die wichtigsten Bildelemente sichtbar bleiben. Das ist leichter gesagt als getan. Kürzlich habe ich gesehen, wie ein Modehändler unbeabsichtigterweise die beworbenen Schuhe aus dem Bild herausgeschnitten hat, weil das Auto-Cropping-Tool, wie oft üblich, auf die Bildmitte eingestellt war. Ein anderer Cropping-Ansatz besteht darin, ein Bild auf Grundlage einer mathematischen Pixelanalyse zuzuschneiden. Dabei konzentriert sich die Lösung auf jenen Bereich, in dem die Pixel schärfer sind als andere. Obwohl diese Methode leistungsstark ist, reicht sie oft nicht aus.

Der vielversprechendste Ansatz fürs Auto-Cropping ist, ein Bild so zu betrachten, wie es das menschliche Auge tun würde. Bei Cloudinary nutzen wir dafür Media-Transformationen, die auf Deep-Learning-Algorithmen basieren und jene Bildbereiche identifizieren, die am ehesten die menschliche Aufmerksamkeit auf sich ziehen. Dazu wurde der Algorithmus mit zigtausenden Bildern und entsprechendem menschlichen Input trainiert. So hat das System gelernt, unabhängig von Bildinhalten und Layout, die wichtigsten Regionen in Bildern ausfindig zu machen. Der Prozess umfasst fortschrittliche Berechnungen, die von GPU-basierten Hardware-Clustern durchgeführt werden, und Millionen an Cropping-Anfragen während des laufenden Betriebs verarbeiten.

Aber Deep Learning kann noch mehr. Nehmen wir das Beispiel des Einzelhändlers, der die Schuhe, die er verkaufen wollte, herausgeschnitten hat. Bestimmte Deep-Learning-Algorithmen können bestimmten Objekten oder Kategorien, wie zum Beispiel Schuhen, die höchste Priorität einräumen, sodass diese beibehalten werden.

#2: Auto-Cropping und Größenanpassung von Videos

Die korrekte Wiedergabe von Videos ist eine Herausforderung. Viele Videos werden im Querformat gedreht, aber dann auf dem Handy im Hochformat abgespielt. Um diese korrekt anzuzeigen, müssten die Betrachter ihr Handy umdrehen, was jedoch nur selten passiert. Einige Websites lösen das Formatproblem, indem sie schwarze Balken oder eine verschwommene Version des Videos manuell dahinter legen. Das sieht aber nicht wirklich gut aus. Und es sind nicht nur Handys, die zu Formatproblemen führen. Eine große Anzahl von Videos wird auf sozialen Kanälen wie Instagram konsumiert, die Videos im quadratischen Format anzeigen.

Um Videos optimal zuzuschneiden, sollten die wichtigsten Aspekte in jedem Frame für jede Szene wiedergegeben werden. Bei einem Fußballspiel sollte zum Beispiel der Ball in der Mitte jedes Frames sein. Deep-Learning-Algorithmen können an dieser Stelle verwendet werden, um die Video Frames zu analysieren und jene Bereiche zu identifizieren, die für das menschliche Auge am interessantesten sind. Anhand dieser Analyse kann eine Heatmap erstellt und dann zur intelligenten Zuschneidung des Videos verwendet werden. Das zugeschnittene Video folgt dann während der gesamten Dauer dem interessantesten Bereich, wobei sichergestellt wird, dass alle wichtigen Merkmale beibehalten werden und der Bildschirm unabhängig vom Format ausgefüllt wird.

#3: Video Previews

Webseiten mit vielen Video-Miniaturansichten werden schnell unübersichtlich und laden nur langsam. Daher werden Previews, die nur einige wenige Sekunden des Videos anzeigen, immer beliebter. Die Erstellung einer Video-Preview ist eine Kunst für sich. Wenn es sich um einige wenige Videos handelt, können die Designer diese Aufgabe manuell erledigen. Handelt es sich jedoch um Hunderte oder Tausende von Videos, geht ohne Automatisierung nichts.

Wie beim Cropping können auch hier Deep-Learning-Algorithmen verwendet werden, um jene Ausschnitte zu bestimmen, die für Menschen besonders attraktiv sind. Dann wird ein Graph der relevanten Ausschnitte erstellt und entsprechend der zur Verfügung stehenden Sekunden die Auswahl getroffen.

#4: Kategorisieren und Taggen von Bild- und Videoinhalten

Um nutzergenerierte Videos und Bilder dem richtigen Publikum zu zeigen und sie suchfähig zu machen, muss man wissen, was in den Videos oder auf den Bildern zu sehen ist. Manuelles Kategorisieren/Taggen nimmt da zu viel Zeit und Ressourcen in Anspruch. KI-basierte Inhaltserkennung bietet sich an, um diese Informationen den Media-Assets zuzuordnen und die Inhalte entsprechend zu kategorisieren.

Unternehmen wie zum Beispiel Google, Amazon oder Microsoft bieten KI-basiertes Taggen an. Wer ein Bild auf unsere Plattform hochlädt oder aktualisiert, kann die automatische Kategorisierung dieser Dienste nutzen und erhält dann die von den einzelnen Engines identifizierten Kategorien.

#5: Hintergrundentfernung

Ein weiterer Anwendungsfall, wie KI eingesetzt wird, ist das Entfernen von Bildhintergründen. Heutzutage enthalten viele E-Commerce-Webseiten Produktfotos mit klaren und schlichten Hintergründen. Dazu muss der Hintergrund allerdings erst transparent gemacht werden. Die manuelle Bildbearbeitung ist, gerade wenn es sich um viele Bilder handelt, zu langsam und umständlich.

Auch für die automatische Entfernung des Hintergrundes können Deep-Learning-Algorithmen genutzt werden. Sie werden darauf trainiert, die zentralen Objekte auf dem Bild zu erkennen, sie zu segmentieren, Hintergrund und Vordergrund zu definieren sowie festzulegen, welche Pixel entfernt werden sollen. Dabei müssen sowohl der Kontext als auch die Bildkomposition berücksichtigt werden. Für die professionelle Nutzung der Hintergrundentfernung müssen die Segmentierungskarten von Vorder- und Hintergrundpixeln nahezu perfekt sein.

Dies waren nur fünf Beispiele dafür, wie Machine Learning, Deep Learning und künstliche Intelligenz eingesetzt werden kann. Es gibt jedoch noch viel mehr Möglichkeiten der KI-Nutzung für Bild- und Videomanagement. Es ist ein aufregendes Einsatzgebiet und ich bin gespannt, wohin uns die KI-basierte Automatisierung in Zukunft noch führen wird.

Geschrieben von
Nadav Soferman

Nadav Soferman ist Co-Founder und CPO von Cloudinary, einem Anbieter von cloud-basierten Image- und Videomanagementlösungen. Von Haus aus Softwareentwickler hat er in den letzten 17 Jahren bei verschiedenen Internet-Startups Web- und mobile Softwarelösungen entwickelt und Entwicklungsteams geleitet.

Kommentare

Hinterlasse einen Kommentar

avatar
4000
  Subscribe  
Benachrichtige mich zu: