Forschende der Universit?t Paderborn und RWTH Aachen entwickeln Verfahren zur Signalverbesserung und Kennzeichnung, wer wann gesprochen hat
Gespr?che in geselliger Runde oder wichtige Besprechungen im Büro: Die automatische Transkription, also die Verschriftung, von Gespr?chssituationen ist eine Herausforderung, die bisher nur unzureichend gel?st war. Zwar erm?glichen moderne Systeme das Verschriften gesprochener Sprache, doch die Erkennungsleistungen liegen noch deutlich unter denen eines Menschen. Wissenschaftler*innen der Fachgruppe ?Nachrichtentechnik“ am Heinz Nixdorf Institut der Universit?t Paderborn haben sich dieser Problematik angenommen. Mit innovativen Ans?tzen, die auf der Nutzung von Raummikrofonen basieren, haben sie im gemeinsamen Projekt ?Automatische Transkription von Gespr?chssituationen“ mit der Arbeitsgruppe ?Machine Learning and Human Language Technology“ des Lehrstuhl Informatik 6 der RWTH Aachen Methoden entwickelt, um maschinenlesbare Transkriptionen nicht nur pr?ziser, sondern auch kontextsensitiver zu gestalten. So konnten die Forscher*innen Verfahren zur gleichzeitigen Signalverbesserung und Annotation – das hei?t, zur Kennzeichnung bzw. Markierung, wer wann gesprochen hat – entwickeln. Diese Methoden erzielten im weltweiten Vergleich, basierend auf einem etablierten Datensatz zur Transkription von Gespr?chssituationen, neue Bestwerte. Die Deutsche Forschungsgemeinschaft (DFG) hat das Projekt über drei Jahre mit rund 300.000 Euro gef?rdert.
Herausforderungen der automatischen Verschriftung von Gespr?chen
Eine ausgereifte Software zur automatischen Verschriftung von Gespr?chen, wie etwa Meetings von Gesch?ftspartner*innen oder Arbeitsgruppentreffen, kann das manuelle Protokollieren ersetzen und zu einer Arbeitserleichterung führen. Bisher war die Spracherkennung allerdings besonders in diesem Bereich schwierig. ?Umgebungseinflüsse, wie beispielweise Raumhall, haben negativen Einfluss auf die Signalqualit?t. Zudem kommt es in Gespr?chssituationen h?ufiger vor, dass sich Personen gegenseitig ins Wort fallen oder parallel verlaufende Gespr?che unter Teilnehmenden entstehen. So überlappen sich dann die Signale mehrerer Sprecher*innen. Doch wir haben es geschafft, Verfahren zu entwickeln, bei denen vorab nicht bekannt sein muss, wie viele Menschen gleichzeitig sprechen oder wie oft sich das ?ndert“, erkl?rt Prof. Dr. Reinhold H?b-Umbach vom Institut für Elektrotechnik und Informationstechnik sowie Leiter des Fachgebiets ?Nachrichtentechnik“ am Heinz Nixdorf Institut. ?Au?erdem war uns wichtig, eine sogenannte ,Ende-zu-Ende‘-Erkennung zu realisieren, um ungenaue Zwischenergebnisse zu vermeiden. Unsere neuen Methoden haben wir daraufhin überprüft, wie genau sie Sprache erkennen, aber auch bezüglich der Interpretierbarkeit der Teilkomponenten und der Handhabbarkeit bewertet“, erg?nzt PD Dr. Ralf Schlüter von der RWTH Aachen.
Wichtiger Fortschritt für automatische Transkriptionssysteme
Ein Transkriptionssystem sollte mit beliebig langen Aufnahmen arbeiten und Gespr?chssituationen mit einer oder mehreren sprechenden Personen korrekt behandeln k?nnen. Dabei muss es in der Lage sein, die Verschriftung der ?u?erungen unterschiedlicher Sprecher*innen klar zuzuordnen. Aktuelle L?sungen bestehen aus verschiedenen Bausteinen, die unabh?ngig voneinander arbeiten: 360直播吧 teilen die Daten in gleichartige Abschnitte auf, unterscheiden zwischen verschiedenen Sprecher*innen und erkennen anschlie?end das Gesprochene. ?Unsere Vision war es, diese Ergebnisse deutlich zu verbessern, indem diese Schritte nicht einzeln, sondern als ein zusammenh?ngender Prozess optimiert werden. Dementsprechend war es unser Ziel, eine koh?rente Herangehensweise zu entwickeln, um die Grenzen aktueller Transkriptionssysteme zu überwinden – und das ist uns gelungen“, sagt H?b-Umbach.