DFG-Forschungsprojekt im Bereich Nachrichtentechnik
Wie haben Siri und Co. sprechen gelernt und warum sind die digitalen Assistenten doch nicht so klug, wie wir denken? Die Hintergründe kennt Prof. Dr. Reinhold H?b-Umbach vom Fachgebiet Nachrichtentechnik der Universit?t Paderborn. Der Wissenschaftler besch?ftigt sich mit der automatisierten Verarbeitung von gesprochener Sprache und mit maschinellem Lernen. Aktuell hat er im Rahmen eines DFG-Projekts ein Verfahren entwickelt, das es erm?glicht, neben anderen St?rger?uschen sogar den Halleffekt in der Signalübertragung auf ein Minimum zu reduzieren. Die Methode erlaubt es au?erdem, verschiedene Sprecher zu erfassen und ein Gespr?ch simultan zu verschriftlichen, was mit konventionellen Systemen bisher nicht m?glich war.
?Alexa, stell den Wecker!“
W?hrend der Mensch sein Gegenüber in der Regel auch unter schwierigen akustischen Bedingungen versteht, indem er sich konzentriert und Umgebungsger?usche weitestgehend ausblendet, k?nnen Spracherkennungsprogramme das noch lange nicht. Das Ergebnis: Die Sprache-zu-Text-Verarbeitung funktioniert nicht mehr und auf Befehle wie ?Alexa, stell den Wecker“ reagiert der Assistent mit einer Bestellung beim B?cker. ?Um solche Fehler künftig zu vermeiden, haben wir es uns zum Ziel gesetzt, die akustische Signalverarbeitung deutlich zu verbessern und St?rger?usche fast vollst?ndig zu eliminieren“, so H?b-Umbach. ?Wenn wir sprechen, machen wir zwischendurch kurze Pausen. Die St?rger?usche im Hintergrund laufen aber weiter. Innerhalb dieser ?Lücken“ k?nnen sie vom Mikrofon identifiziert werden. Die gewonnenen Daten kann man anschlie?end isoliert betrachten und das St?rsignal l?schen“, erkl?rt er.
Die Technologie, mit der Hall aus Sprachsignalen entfernt werden kann, ist neu und mit Anwendungen wie Amazon Echo brandaktuell geworden. ?St?rfilter für Rauschen gibt es inzwischen schon in jedem Handy. Für Hall gab es bislang allerdings keine wirklich geeigneten Tools. Das Problem wird konkret, wenn Mikrofone in gr??erem Abstand zum Sprecher stehen, wie es bei den digitalen Assistenten ja der Fall ist.“ Durch den Hall wird das Sprachsignal an Fl?chen in der Umgebung reflektiert und gelangt so auf unterschiedlichen Wegen mit unterschiedlicher Laufzeit und D?mpfung zum Mikrofon. Dazu H?b-Umbach: ?Jeder kennt das: Im Badezimmer h?rt sich die Sprache anders an als im Wohnzimmer. Dieser Hall verwirrt den Spracherkenner. Man kann ihn eliminieren, indem man aus Trainingsdaten lernt, wie man vom verhallten Signal auf das unverhallte Signal zurückrechnen kann“.
Neue Technologie für die Identifizierung von unterschiedlichen Sprechern
Schwieriger wird es im Fall der sogenannten ?blinden Quellentrennung“: Sobald mehrere Personen gleichzeitig reden, gelangen die Systeme an ihre Grenzen. ?Verschiedene Sprecher zu erkennen und die Gespr?che automatisch in eine vernünftige schriftliche Form zu bringen, war bis dato eine gro?e Herausforderung. Uns ist es jetzt gelungen, mithilfe von neuronalen Netzen hervorragende Ergebnisse in der automatischen Spracherkennung zu erzielen “, erkl?rt H?b-Umbach. Dafür werden in einem ersten Schritt überlagerte Sprachsignale voneinander getrennt und anschlie?end separat betrachtet. ?Jede Einheit wird für sich genommen von dem Spracherkennungssystem analysiert. Im Ergebnis steht ein fertiger Text, genauer gesagt ein Transkript, das eine exakte Wiedergabe des Gesprochenen ist.“ Ein Ger?t, das eigenst?ndig Gespr?che verschriftlicht, k?nnte es also bald geben, meint der Experte.
Um überhaupt in der Lage zu sein, eine Sprache automatisch zu erkennen, müssen die Systeme vorher mit Daten ?gefüttert“ werden. Dazu H?b-Umbach: ?Wir sprechen hier von der Lernphase. Dabei speisen wir Sprachsignale und gleichzeitig auch die entsprechenden Texte ein. So lernen die Systeme, welche schriftliche Repr?sentation zu welchem Laut passt. Das System lernt also auch, wie die jeweiligen W?rter ausgesprochen werden.“ Inzwischen sind die Forscher sogar noch einen Schritt weiter: 360直播吧 arbeiten an selbstlernenden Systemen, die eine vorherige ?Fütterung“ überflüssig machen und trotzdem fehlerfreie Protokolle liefern. ?Es gibt nur ein Audiosignal und keinen Text, der als Lerngrundlage dient. Das bezeichnet man auch als ?Unüberwachtes Lernen“. Nützlich ist das zum Beispiel für die Dokumentation seltener Sprachen. Linguisten k?nnten mithilfe der Technologie schnell Korpora, also digitale Textsammlungen, aufbauen. Das Spracherkennungsprogramm nimmt ihnen viel Arbeit ab. Denn: Die Sprachdaten mühselig per Hand zu transkribieren, nimmt unglaublich viel Zeit in Anspruch“, wei? H?b-Umbach.
Maschinelles Lernen macht es m?glich: Die Forscher haben eine Methode entwickelt, die die akustischen Bausteine gesprochener Sprache identifiziert und ein Verfahren zum Trennen der Laute entwickelt. ?Das hei?t, Laute werden segmentiert und als wiederkehrende Muster erkannt. So kommt man letztendlich zu dem Silbenaufbau, zu W?rtern bis hin zu ganzen S?tzen“, erkl?rt der Elektrotechniker. Das st??t auch bei der Industrie auf gro?es Interesse: ?Wir haben Kontakt zu Google, Facebook, NTT und vielen anderen gro?en Playern“, sagt H?b-Umbach.
Nina Reckendorf, Stabsstelle Presse und Kommunikation