Interview mit Prof. Dr.-Ing. Dorothea Kolossa

„Wir werden Sprachinteraktion zwischen Mensch und Maschine bald als einen ganz normalen Prozess erleben“

Hartmut Schlosser

Prof. Dr.-Ing. Dorothea Kolossa

Ein typisches Beispiel für Maschinelles Lernen ist die Spracherkennung. Dienste wie Siri, Google Now, Cortana haben hier in den letzten Jahren enorme Fortschritte erzielt – einen Einblick in die Technik dieser Systeme bietet der JAXenter-Artikel Ein Blick auf das Microsoft Bot Framework. Doch wie weit ist man noch entfernt vom alten Traum, dass Menschen sich reibungslos mit Maschinen unterhalten können? Prof. Dr. Dorothea Kolossa forscht an der Ruhr-Universität Bochum zum Thema Spracherkennung und kognitive Signalverarbeitung. Wir haben sie gefragt, welche Herausforderungen im Bereich der maschinellen Spracherkennung noch zu lösen sind, damit eine „natürliche“ Mensch-Maschine-Kommunikation über die Sprache möglich wird.

JAXenter: Die Idee, Sprache maschinell zu erkennen, gibt es schon lange. Allein stieß man bis vor Kurzem schnell an die Grenzen des Machbaren bzw. Nützlichen. Erst mit Diensten wie Siri, Cortana, Google Now scheint man ein Niveau erreicht zu haben, mit dem man via Spracherkennung auch im Alltag Aufgaben erledigen kann. Was machen diese neuen Dienste anders als die früheren Lösungen zur maschinellen Spracherkennung?

Dorothea Kolossa: Heute kommen für die maschinelle Spracherkennung erstmals alle Vorbedingungen zusammen, die man für eine wirklich gute Erkennungsleistung benötigt: große Mengen an Sprachdaten, eine enorme Rechenleistung und Speicherkapazität, und neue, flexiblere Sprachmodelle, beispielsweise durch den Einsatz neuronaler Netze, die heute sowohl für die Modellierung der Akustik als auch der Struktur der Sprache eingesetzt werden.

JAXenter: Wie funktionieren solche Deep Neural Networks?

Was neuronale Netze so attraktiv macht, ist die Möglichkeit, sie zu „trainieren“.

Dorothea Kolossa: Ganz prinzipiell gesprochen sind Deep Neural Networks einfach regelmäßig strukturierte, nichtlineare Funktionen. Sie bestehen aus mehreren sogenannten Schichten von „Neuronen“ – und jedes „Neuron“ macht nichts anderes, als dass es alle seine Eingangssignale zunächst gewichtet aufsummiert und dann das skalare Ergebnis durch eine Nichtlinearität schickt. Eine „Schicht“ von Neuronen kann man sich als Parallelschaltung von solchen Rechenelementen vorstellen, und das ‚Deep Neural Network‘ ist einfach eine Reihenschaltung von diesen Schichten.

Das ganze ist ganz grob an die Strukturierung von biologischen neuronalen Netzen angelehnt, wo auch ein Neuron nur dann mit einem großen Ausgangswert reagiert (bzw. „feuert“), wenn hinreichend viele seiner Eingänge (seiner Synapsen) hinreichend stark aktiviert werden, und wo ebenfalls oft verschiedene Schichten der Verarbeitung aufeinander folgen.

Was neuronale Netze so attraktiv macht, ist die Möglichkeit, sie recht effizient, z.B. mit dem sogenannten Backpropagation-Algorithmus, zu „trainieren“. Ein Netzwerk ist gut trainiert, wenn seine freien Parameter – die Gewichte – so angepasst sind, dass es genau die gewünschte Funktion erledigt, in der Welt der Spracherkennung also eine niedrige Fehlerrate erzielt. Und dadurch, dass neuronale Netze so viele freie Parameter und so effektive Lernverfahren haben, lassen sich mit ihnen – auf Basis der vielen heute verfügbaren Trainingsdaten – auch sehr gute Erkennungsleistungen erzielen; und je mehr Daten hinzukommen, desto besser lassen sie sich weiter auf die Aufgabe anpassen.

JAXenter: Was sagt die Wissenschaft zu diesen Diensten – nutzt man in diesen mobilen Sprachassistenten wissenschaftliche State-of-the-Art-Methoden? Oder sind die wissenschaftlichen Diskurse und Lösungsansätze ganz wo anders?

Dorothea Kolossa: Viel der aktuellen Entwicklung in der Spracherkennung erfolgt tatsächlich genau bei den großen Firmen (Google, Microsoft, Nuance, …), oft in Kooperation mit Universitäten. Hierzu werden große Mengen an Trainingsdaten gesammelt, gelabelt, und es fließen enorme Ressourcen in den Aufbau dieser Datenbasen. Daher ist hier auch aus Sicht der Universitäten eine Kooperation sehr wichtig, um kompetitiv arbeiten zu können. Gleichzeitig ist aber natürlich bei den Firmen der Druck groß, immer die besten Erkennungsraten anzubieten, so dass ein enormer Bedarf an hochqualifizierten Forschern entstanden ist – und ein riesiges Interesse an allem, was das Potential hat, die Methoden des maschinellen Lernens grundlegend voranzubringen. Insofern gibt es aktuell spannende Entwicklungen sowohl in den Firmen als auch an den Unis, die aber natürlich auf der einen Seite stärker von dem Wunsch nach Effizienz und Erkennungsraten und auf der anderen Seite stärker von dem Wunsch nach fundamentalen Erkenntnissen motiviert sind.

Fragen, die momentan beide Seiten bewegen sind:

  1. Wie ist es möglich, in Spracherkennungssystemen Ende-zu-Ende-Optimalität zu erreichen? Wie kann ich also alle Komponenten eines Erkennungssystems, von den ersten Stufen der Sprachsignalverarbeitung bis hin zu den Modulen, die an der Interpretation der Nutzereingabe beteiligt sind, so optimieren, dass insgesamt die höchste Nutzerzufriedenheit entsteht?
  1. Wie kann man Erkenntnisse aus dem menschlichen Sprachverstehen in die maschinellen Systeme bringen? Lassen sich die neuronalen Prozesse bei menschlichen Hörern, die ja immer noch die bei weitem größte Genauigkeit besitzen und maschineller Erkennung klar überlegen bleiben, noch weitergehend verstehen, als das heute der Fall ist – und wenn ja, was lernen wir daraus für den Aufbau der nächsten Generation von Spracherkennern und Dialogsystemen?

 

JAXenter: Sie sind an der Ruhr-Universität Bochum in der Arbeitsgruppe KOGNITIVE SIGNALVERARBEITUNG tätig. Woran forschen Sie aktuell?

Dorothea Kolossa: Diese beiden oben genannten Punkte sind auch bei uns wichtige Themen. Auf der einen Seite arbeiten wir daran, das menschliche Hören besser zu modellieren. Das tun wir einerseits im TWO!EARS-Projekt, das sich mit dem Hörverstehen von Menschen beschäftigt, und andererseits im ICanHear-Projekt, in dem wir automatisch die Verständlichkeit von Sprachsignalen bewerten möchten, zum Beispiel, um später in Hörgeräten die Signalverarbeitung so anpassen zu können, dass der jeweilige Gesprächspartner für die Hörgeräteträger möglichst immer optimal zu verstehen ist.

Auf der anderen Seite möchten wir aber auch verstehen, wie die Module eines Spracherkennungssystems optimal zusammenarbeiten können, und wie wir sie so anpassen können, dass das Systemverhalten letztlich maximal überzeugend wird. Zu diesem Zweck arbeiten wir momentan an einem gemeinsamen Verständnis von statistischen Methoden und neuronalen Netzen: Statistische Methoden können aus wenigen Daten solide und recht gut interpretierbare Ergebnisse liefern, sind aber nicht so erfolgreich wie neuronale Netze, wenn es darum geht, sich mit immer mehr Daten immer weiter zu verbessern. Die natürlichen Fragen sind dann aus unserer Sicht die, wie man neuronale Methoden mit wenigen Daten gut initialisieren kann, und wie man außerdem die neuronalen Systeme zu interpretieren lernen kann – wie man also das „Verhalten“ eines neuronalen Netzes verstehen und auf dieser Basis weiter verbessern kann.

JAXenter: Welche Herausforderungen gibt es im Bereich der maschinellen Spracherkennung noch zu lösen, damit eine „natürliche“ Mensch-Maschine-Kommunikation über die Sprache möglich wird?

Niemand möchte, dass jederzeit Microsoft oder Nuance mithört, wenn er das Licht ein- oder ausschaltet.

Dorothea Kolossa: Die automatische Spracherkennung hat in den letzten Jahren eine beeindruckende Entwicklung hingelegt – aber immer noch brechen die Erkennungsraten schnell ein, wenn wir die Systeme in lauten oder halligen Umgebungen einsetzen möchten. Damit die Spracherkennung so natürlich wird, dass wir einfach zu jeder Zeit Sprachbedienungen statt Touchpads benutzen möchten, müssen robuste Systeme entwickelt werden, die ohne Probleme auch in schwierigen Umgebungen erkennen können, was gesagt wird. Gleichzeitig müssen wir uns aber auch mit Privacy-Fragen beschäftigen. Niemand möchte wirklich gern, dass jederzeit Microsoft oder Nuance mithört, wenn er das Licht ein- oder ausschaltet – deswegen brauchen wir nach meiner Einschätzung Erkennersysteme, die lokal arbeiten, ohne je die Daten auf fremde Server zu übertragen. Hierfür sind momentan auch die Rechenleistung und die Speicherkapazität noch Themen, aber hier arbeitet ja die Technologieentwicklung für uns.

Insgesamt ist mein Eindruck der, dass wir auf einem sehr spannenden Weg sind: Die rasante Entwicklung wird wohl noch für einige Jahre weitergehen, und ich denke, dass wir in nicht allzu ferner Zukunft Sprachinteraktion als einen ganz normalen Prozess erleben werden – und, sehr erfreulicherweise, dadurch auch eine Menge darüber lernen, wie Menschen und Maschinen ihre Umwelt verstehen können.

JAXenter: Vielen Dank für dieses Interview!

Kolossa-DorotheaProf. Dr.-Ing. Dorothea Kolossa ist seit 2010 als Leiterin der Arbeitsgruppe Kognitive Signalverarbeitung an der Ruhr-Universität Bochum tätig. Dort beschäftigt sie sich mit robuster Sprach- und Mustererkennung, entwickelt also Methoden und Algorithmen, um Mustererkennung auch in schwierigen und veränderlichen Umgebungen einsetzbar zu machen. Dieses Thema hat Prof. Kolossa in vielen Projekten, zunächst in ihrer Dissertation an der TU Berlin, dann in mehreren Forschungsaufenthalten, u.a. bei NTT (Kyoto), an der University of Hong Kong und 2009 als Visiting Faculty an der UC Berkeley beschäftigt. Mehr als achtzig Publikationen und Patente und ein Buch zu robuster Spracherkennung sind im Rahmen dieser Arbeiten entstanden, und aktuelle Kooperationen, u.a. mit dem International Computer Science Institute (ICSI) in Berkeley, zielen darauf ab, die heute bestehende Spracherkennungstechnologie zuverlässig auch für den mobilen Alltagseinsatz zu gestalten.

Verwandte Themen:

Geschrieben von
Hartmut Schlosser
Hartmut Schlosser
Content-Stratege, IT-Redakteur, Storyteller – als Online-Teamlead bei S&S Media ist Hartmut Schlosser immer auf der Suche nach der Geschichte hinter der News. SEO und KPIs isst er zum Frühstück. Satt machen ihn kreative Aktionen, die den Leser bewegen. @hschlosser
Kommentare

Hinterlasse einen Kommentar

Hinterlasse den ersten Kommentar!

avatar
400
  Subscribe  
Benachrichtige mich zu: