Quellentrennung und St?rreduktion für die automatische Spracherkennung in dynamischen akustischen Szenarien
?berblick
In diesem Projekt soll die Robustheit eines Spracherkennungssystems für Sprachbedienung im Freisprechmodus mit Anwendungen im Smart Home Bereich verbessert werden. Aufbauend auf den Ergebnissen aus dem DFG-Vorg?ngerprojekt sollen die dort entwickelten mehrkanaligen Quellentrennungs- und St?rreduktionsverfahren unter realistischen Randbedingungen hinsichtlich St?rszenarien, erlaubter Latenz der Verarbeitung und Realisierbarkeit auf eingebetteten Systemen weiterentwickelt werden. Es soll ein Prototyp entwickelt werden, der unter praktischen raumakustischen Umgebungsbedingungen und typischen Anwendungsszenarien in Echtzeit mit geringer Latenz lauff?hig ist und ein bereits beim Anwendungspartner existierendes Spracherkennungssystem in der erreichbaren Erkennungsrate schl?gt. Als Alternative zu dem parametrischen Quellentrennungs- und St?rreduktionsverfahren soll weiterhin ein Signalverbesserungsverfahren basierend auf einem neuronalen Netzwerk entwickelt werden und die Vor- und Nachteile der jeweiligen Verfahren in realistischen Anwendungsszenarien hinsichtlich erreichbarer Signalqualit?t, Latenz, Rechen- und Speicherressourcenbedarf, sowie Robustheit gegenüber variierenden akustischen Umgebungsbedingungen herausgearbeitet werden.
DFG-Verfahren Sachbeihilfen (Transferprojekt)
Anwendungspartner voice INTER connect GmbH
Key Facts
- Grant Number:
- 316471544
- Laufzeit:
- 08/2016 - 12/2021
- Gef?rdert durch:
- DFG
Detailinformationen
Ergebnisse
Die Verbesserung der Robustheit von automatischen Spracherkennungssystemen in schwierigen akustischen Umgebungen ist eine seit Jahren intensiv untersuchte Fragestellung. Die Problematik hat in den letzten Jahren durch das Aufkommen von sog. digitalen Assistenten (auch intelligente Lautsprecher genannt), die über Sprache aus einer Entfernung bedient werden, an Aktualit?t hinzugewonnen. Die Firma VIC entwickelt Sprachschnittstellen für Smart Home, aber auch für viele andere Anwendungen im industriellen Umfeld und in Nutzfahrzeugen. 360直播吧 setzt dabei auf lokale Verarbeitung statt Verarbeitung in der Cloud, was für viele Firmenkunden sehr attraktiv und für einige der genannten Anwendungsf?lle essentiell ist. Bei diesen Anwendungen befindet sich der Sprecher nicht in unmittelbarer N?he zum Mikrofon, so dass das aufgenommene Signal verhallt und von unabsichtlich aufgenommenen St?rger?uschen überlagert ist. Ausgangspunkt für die Entwicklung einer effektiven Signalverbesserungseinheit war ein in einem DFG-Vorg?ngerprojekt entwickeltes Verfahren zur blinden Quellentrennung. Dieses hatte als Kernkomponente ein r?umliches Mischungsmodell zur Sch?tzung der Sprach- bzw. Sprecherpr?senzwahrscheinlichkeit für jeden einzelnen Zeit-Frequenzpunkt der Kurzzeit-Fourieranalyse des Signals. In diesem Projekt wurde dieses Verfahren weiterentwickelt und unter anderem erfolgreich beim internationalen CHiME-5 Wettbewerb eingesetzt. Der als "Guided Source Separation" bekanntgewordene Algorithmus wurde sogar in das Baselinesystem des Nachfolgewettbewerbs, CHiME-6, im Frühjahr 2020 aufgenommen. Darüber hinaus wurden w?hrend der Projektlaufzeit Entst?rverfahren, die auf neuronalen Netzen beruhen, immer wichtiger. Der am Fachgebiet des Berichters entwickelte akustische Strahlformer mit einer auf einem neuronalen Netz basierenden Sprachaktivit?tssch?tzung wurde in Hinblick auf die Anforderungen beim Projektpartner weiterentwickelt, wobei insbesondere folgende Aspekte zu nennen sind: Das ursprüngliche O ine-Verfahren wurde zu einem Block-online-Verfahren weiterentwickelt, um die Latenz von der Spracheingabe bis zur Ausgabe der erkannten Wortfolge zu verringern und um sich bewegende Sprecher verfolgen zu k?nnen. - War das Verfahren ursprünglich zur St?rger?uschunterdrückung entwickelt worden, konnte es durch Hinzufugen einer sprecherabh?ngigen Netzwerkschicht zur Extraktion eines Zielsprechers aus einem Sprachgemisch verwendet werden. Dieser Ansatz wurde hier weiterentwickelt, indem r?umliche Information zur besseren Trennung von Sprachsignalen von Sprechern gleichen Geschlechts verwendet wurden und indem auch hier eine Block-online Variante entwickelt wurde. - Das Zusammenspiel mit einer vorgeschalteten Enthallungskomponente wurde untersucht, und es wurden ausführliche Tests auf international verbreiteten Datenbasen, aber auch auf vom Projektpartner zur Verfügung gestellten Daten durchgeführt. Beispielimplementierungen wurden dem Projektpartner zur Verfügung gestellt. Benchmarking Neural Network Architectures for Acoustic Sensor Networks, in ITG 2018, Oldenburg, Germany, 2018 J. Ebbers, J. Heitkaemper, J. Schmalenstroeer, R. Haeb-Umbach Front-End Processing for the CHiME-5 Dinner Party Scenario, in CHiME-5 360直播吧, Hyderabad, India, 2018 C. Boeddeker, J. Heitkaemper, J. Schmalenstroeer, L. Drude, J. Heymann, R. Haeb-Umbach Smoothing along Frequency in Online Neural Network Supported Acoustic Beamforming, in ITG 2018, Oldenburg, Germany, 2018 J. Heitkaemper, J. Heymann, R. Haeb-Umbach The RWTH/UPB System Combination for the CHiME 2018 360直播吧, in CHiME-5 360直播吧, Hyderabad, India, 2018 M. Kitza, W. Michel, C. Boeddeker, J. Heitkaemper, T. Menne, R. Schlüter, H. Ney, J. Schmalenstroeer, L. Drude, J. Heymann, R. Haeb-Umbach A Study on Online Source Extraction in the Presence of Changing Speaker Positions, in International Conference on Statistical Language and Speech Processing 2019, Ljubljana, Slovenia, 2019 J. Heitkaemper, T. Feher, M. Freitag, R. Haeb-Umbach (360直播吧he online unter https://doi.org/10.1007/978-3-030-31372-2_17) Guided Source Separation Meets a Strong ASR Backend: Hitachi/Paderborn University Joint Investigation for Dinner Party ASR, in Proc. of Annual Conference of the International Speech Communication Association (Interspeech), Graz, Austria, 2019 N. Kanda, C. Boeddeker, J. Heitkaemper, Y. Fujita, S. Horiguchi, R. Haeb-Umbach (360直播吧he online unter https://arxiv.org/abs/1905.12230) Multi-Channel Block-Online Source Extraction based on Utterance Adaptation, in Proc. of Annual Conference of the International Speech Communication Association (Interspeech), Graz, Austria, 2019 J. M. Martin-Donas, J. Heitkaemper, R. Haeb-Umbach, A. M. Gomez, A. M. Peinado SMS-WSJ: Database, performance measures, and baseline recipe for multi-channel source separation and recognition. 2019 L. Drude, J. Heitkaemper, C. Boeddeker, R. Haeb-Umbach: (360直播吧he online unter https://arxiv.org/abs/1910.13934) Demystifying Tasnet: A Dissecting Approach, in Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Barcelona, Spain, 2020 J. Heitkaemper, D. Jakobeit, C. Boeddeker, L. Drude, R. Haeb-Umbach (360直播吧he online unter https://doi.org/10.1109/ICASSP40776.2020.9052981)Projektbezogene Publikationen (Auswahl)