Suche
Die Grundlagen von Spracherkennungssystemen

Grundlagen der Spracherkennung – so funktionieren Alexa, Cortana, Siri & Co

Christoph Ebert

Seit vielen Jahren schien die maschinelle Spracherkennung gerade vor dem Durchbruch zu stehen, doch meist zeigten sich schnell die Grenzen der jeweils aktuellen Technologien. Stehen wir dank Siri, Alexa, Cortana und Co. vor einem Paradigmenwechsel?

Seit einiger Zeit stehen nun endlich genügend Sprachdaten, Rechenleistung und die passenden Algorithmen bereit, um den Einsatz solcher Spracherkennungssysteme, Bots oder Personal Assistants nicht nur praktikabel, sondern sogar erfreulich zu gestalten. Inzwischen buhlen Amazons Alexa, Googles Assistant, Microsofts Cortana und natürlich Apples Siri in der „Battle of the Bots“ um die Gunst der Nutzer.

Spracherkennungssysteme – die Grundlagen

Durch Spracherkennungstechnologien werden Diktate automatisiert, Videos und Audiofiles textdurchsuchbar, Navigationsgeräte, Smartphones und die Websuche leicht steuerbar. In der Session „Smartphones getting smarter: Automatische Spracherkennung auf dem Weg in die Praxis“ stellte Prof. Dr.-Ing. Dorothea Kolossa (Ruhr-Universität Bochum) auf der MobileTech Conference die Grundlagen von Spracherkennungssystemen vor.

Lesen Sie auch: Interview mit Prof. Dr.-Ing. Dorothea Kolossa -„Wir werden Sprachinteraktion zwischen Mensch und Maschine bald als einen ganz normalen Prozess erleben“

Dabei blickt sie auf die aktuellen Methoden der Deep Neural Networks, diskutiert die Anbindung von Spracherkennungs-Apps, Software Development Kits und Hardwarelösungen, beleuchtet die Grenzen der Technologie in Bezug auf Privacy-Fragen und zeigt den aktuellen Stand der Forschung zur robusten Sprachsteuerung auch unter schwierigsten akustischen Bedingungen.

x

X

Kolossa-DorotheaProf. Dr.-Ing. Dorothea Kolossa ist seit 2010 als Leiterin der Arbeitsgruppe Kognitive Signalverarbeitung an der Ruhr-Universität Bochum tätig. Dort beschäftigt sie sich mit robuster Sprach- und Mustererkennung, entwickelt also Methoden und Algorithmen, um Mustererkennung auch in schwierigen und veränderlichen Umgebungen einsetzbar zu machen. Dieses Thema hat Prof. Kolossa in vielen Projekten, zunächst in ihrer Dissertation an der TU Berlin, dann in mehreren Forschungsaufenthalten, u.a. bei NTT (Kyoto), an der University of Hong Kong und 2009 als Visiting Faculty an der UC Berkeley beschäftigt. Mehr als achtzig Publikationen und Patente und ein Buch zu robuster Spracherkennung sind im Rahmen dieser Arbeiten entstanden, und aktuelle Kooperationen, u.a. mit dem International Computer Science Institute (ICSI) in Berkeley, zielen darauf ab, die heute bestehende Spracherkennungstechnologie zuverlässig auch für den mobilen Alltagseinsatz zu gestalten.

X

Geschrieben von
Christoph Ebert
Christoph Ebert
Christoph Ebert stieß im Juli 2011 zum Online-Team von Software & Support Media. Als Redakteur kümmert er sich um das Portfolio von entwickler.press und ist verantwortlich für das Entwickler Magazin und entwickler.de. Davor betreute er die Portale WebMagazin.de, CreateOrDie.de und mobile360.de. Vor seiner Zeit in Frankfurt arbeitete der studierte Amerikanist und Tech-Geek als Redakteur für ein Heimkinofachmagazin im Süden Deutschlands.
Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.