Musikale Digitalisierung

Optical Music Recognition: Wie können komplexe Musiknoten fehlerfrei digitalisiert werden?

Evgeny Mitichkin

© Shutterstock / Varunyuuu

Von Notenköpfen, über Bindebögen, Tonarten und Vortragsbezeichnungen: Musiknotation stellt ein komplexes Zeichensystem mit bis zu 1.500 unterschiedlichen, zum Teil kontextabhängigen und sich überlappenden Elementen dar. Gescannte Notenblätter mittels Künstlicher Intelligenz fehlerfrei zu erkennen und in digitale Informationen umzuwandeln (sogenannte „Optical Music Recognition“), stellt daher eine immense technologische Herausforderung dar. Wie lässt sich dies bewerkstelligen?

Die Herausforderung: ein komplexes Zeichensystem mit unsicherer Quellenlage

Ein Kernziel der Digitalisierung der weltweiten Notenblätter ist es, unser musikalisches Erbe konsistenter, zuverlässiger und für Millionen von Musikern zugänglicher zu machen. Dieses konsistente digitale Format eröffnet auch das Potenzial für eine neue Ebene der User Experience – eine, die das Arbeiten mit Noten vollständig interaktiv macht und das Beste umfasst, was die heutigen digitalen Textverarbeitungs- und Audiotechnologien bieten.

Klingt einfach? Nun, es gibt einen Vorbehalt. Geschriebene Musik sieht zunächst simpel aus, ist aber in Wirklichkeit eine extrem komplexe, zusammenhängende Struktur mit Tausenden von miteinander verbundenen Symbolen und Dutzenden von akzeptierten Formaten. Die Werke stammen aus verschiedenen historischen Perioden und haben oft mehrere Ausgaben. Diese konkurrierenden Informationen über die „richtigen“ Noten erfordern einen musikwissenschaftlichen Beitrag um sicherzustellen, dass die wiedergegebenen Informationen zuverlässig und genau sind.

Die Qualität der Quellen ist eine weitere Herausforderung. Die meisten öffentlich zugänglichen Scans von Musik liegen in schlechter Auflösung und verlustbehafteten Kompressionsformaten vor. Daher ist ein großer Umfang an automatischer und halbautomatischer Bereinigung und Quellenerfassung erforderlich, um die Partituren für die Verarbeitung vorzubereiten. Zu guter Letzt sind Informationen über geschriebene Musik erstaunlich dezentralisiert. Daher erfordert das Sammeln von vertrauenswürdigen Metadaten über einzelne Stücke oder sogar Komponisten große Anstrengungen von Musikwissenschaftlern und Datenwissenschaftlern.

Der Ansatz: eine neue und KI-basierte OMR-Lösung

Die erste Hürde, die es zu überwinden gilt, ist die Digitalisierung selbst: Wie lässt sich also der Übergang von einer statischen visuellen Eingabe zu einem nativen digitalen Format vollziehen? Nach mehreren erfolglosen Experimenten mit den bestehenden optischen Musikerkennungslösungen (OMR) kamen wir bei Enote zu dem Schluss, dass wir unsere eigene Lösung entwickeln mussten. Nach fast zwei Jahren Entwicklungszeit haben wir eine Software mit Erkennungsmodellen geschaffen, die mehr als tausend Musiknotationselemente erkennen kann, welche durch Hunderte von Klassen auf einer beliebigen Seite repräsentiert werden. Da die bestehenden und verfügbaren KI-Ansätze und -Tools nicht gut genug waren, mussten die State-of-the-Art-Modelle aus der breiten Industrie angepasst und für den Musikbereich adaptiert werden.

So kann ein grundlegendes Verständnis dafür entstehen, wie man die atomaren Elemente der Musiknotation nutzt, sie kombiniert und schließlich eine Datei erzeugt, die auf den Geräten der Endnutzer visualisiert werden kann. Das Ergebnis ist eine semantische Rekonstruktionsmaschine für Musiknotation, die in der Lage ist, eine Vielzahl von Repertoire, Genres, Besetzungsformaten und historischen Perioden zu verarbeiten. Nachdem dies für eine Seite gelungen ist, muss die gleiche Rekonstruktion in großem Maßstab realisiert werden. Es geht also nicht nur darum, eine zuverlässige und genaue OMR-Lösung zu entwickeln, sondern sie auch auf eine Stufe zu bringen, auf der sie Musikstücke in einem vernünftigen Zeitrahmen massenhaft digitalisieren kann.

Um Musik-Noten sowohl in einem digitalen Format darzustellen als auch komplette Werke mithilfe von Such- und Filterfunktionen anhand verschiedener musikalischer Merkmale auffindbar zu machen, bedarf es zudem einer Vielzahl sauberer und konsistenter Metadaten. Hierzu mussten Musikwissenschaftler und Datenwissenschaftler ein groß angelegtes Datenaggregationsprojekt durchführen, das die besten öffentlich verfügbaren Quellen zusammenbringt und die noch bestehenden Lücken füllt. Nur so kann das System letztlich über die reichhaltigen Komponisten- und Kompositionsdaten verfügen, die für einen optimalen Musikfindungsprozess nötig sind.

Insgesamt muss der gesamte Technologie-Stack auf einem Niveau sein, das eine für die Fachwelt akzeptable Qualität der Inhalte garantiert: von der Genauigkeit der musikalischen Inhalte selbst und der begleitenden Metadaten bis hin zu ihrer Darstellung auf dem Gerät.

Learnings: frühe Einschätzung der Machbarkeit und Einbringen von Domänenexpertise

Um ein Digitalisierungsprojekt von Musiknoten wie das von Enote auf das notwendige Qualitätsniveau zu bringen, ist ein erheblicher Forschungs- und Entwicklungsaufwand erforderlich. Wie bei vielen Projekten dieser Art sind korrekte Komplexitätseinschätzungen und Machbarkeitsstudien entscheidend für den Erfolg des Projekts. Unser Team hat daher bereits in einem frühen Stadium eine Reihe von Studien und Proof-of-Concept-Evaluierungen durchgeführt, um festzustellen, ob die Ziele realistisch sind und welche Ressourcen dafür erforderlich sind. Diese Aktivitäten bergen auch ihre eigenen Risiken: Denn wenn man zu viel Zeit in die Forschung investiert, kann das von anderen greifbaren Ergebnissen ablenken, die für eine erfolgreiche Unternehmensentwicklung im Frühstadium notwendig sind. Aus diesem Grund kombinierte unser Team die Recherche der bestehenden technologischen Errungenschaften in den Bereichen KI und OMR mit Rapid Prototyping und konnte so die wichtigen Fragen „Wo stehen wir?“ und „Wo wollen wir hin?“ von Anfang an beantworten.

Ein weiterer Aspekt, der immer beachtet werden muss, ist die Domänenexpertise. Ob in der Musik-, Gesundheits- oder einer anderen Branche – eine starke Erfahrung in der Domäne ist entscheidend, um ein überzeugendes Produkt mit einer guten User Experience zu schaffen. Kleine Details mögen am Anfang nicht wichtig erscheinen – aber sie zu ignorieren bringt später viel größere Probleme auf technischer und Produktebene mit sich. Wir haben dies von Anfang an sehr ernst genommen und haben jetzt ein Team von Musikwissenschaftlern, die jeden Tag eng mit den Entwicklern an der künstlichen Intelligenz, der Notengravur, der Metadatensammlung und der Anwendung selbst arbeiten.

Geschrieben von
Evgeny Mitichkin

Evgeny Mitichkin ist CTO und Co-Founder vom Musiktechnologie-Startup Enote. Das Unternehmen hat ein fortschrittliches System mit künstlicher Intelligenz entwickelt, um Jahrhunderte an geschriebener Musik zu analysieren, digital zu rekonstruieren und über eine iOS-App zu veröffentlichen.

Kommentare

Hinterlasse einen Kommentar

avatar
4000
  Subscribe  
Benachrichtige mich zu: