Bayes'sche Merkmalsverbesserung zur Erkennung verhallter und verrauschter Sprache bei gro?em Vokabular
?berblick
In diesem Vorhaben sollen Verfahren zur automatischen Spracherkennung für komplexe Erkennungsaufgaben mit gro?em Vokabular entwickelt werden für den Fall, dass die aufgenommene Sprache durch Raumhall und additives Rauschen gest?rt ist. Um eine m?glichst breite Einsetzbarkeit zu gew?hrleisten, wird dabei von lediglich einkanalig vorliegenden Sprachaufnahmen ausgegangen. Ausgangspunkt der Untersuchungen ist auf der einen Seite ein in Vorarbeiten entwickeltes Bayes'schen Merkmalsverbesserungsverfahren, welches sich auf kleineren Erkennungsaufgaben als sehr effektiv erwiesen hat, sowie auf der anderen Seite ein ausgefeiltes Spracherkennungssystem für gro?es Vokabular, das sich bereits in vielen internationalen Projekten und Benchmarks bew?hrt hat. Das Merkmalsverbesserungsverfahren soll weiterentwickelt werden, um auch den h?heren Anforderungen eines gro?en Erkennungsvokabulars gerecht zu werden, und in das gro?e Erkennungssystem optimal integriert werden, um einen leistungsf?higen Erkenner von mit entfernten Mikrofonen aufgenommener Sprache bei gro?en Vokabularien zu realisieren.
DFG-Verfahren Sachbeihilfen
Antragsteller Professor Dr.-Ing. Reinhold H?b-Umbach; Privatdozent Dr. Ralf Schlüter
Key Facts
- Grant Number:
- 235486169
- Laufzeit:
- 01/2013 - 12/2019
- Gef?rdert durch:
- DFG
- Website:
-
DFG-Datenbank gepris
Detailinformationen
Ergebnisse
Das übergreifende Ziel des Vorhabens war die Entwicklung von Verfahren, die eine robuste Spracherkennung für gro?es Vokabular in Gegenwart von Raumhall und Umgebungsrauschen erm?glichen. Die durchgeführten Arbeiten gliedern sich dabei grob in fünf Bereiche. (i) Die Entwicklung eines Denoising Autoencoder (DA) zur Enthallung von Sprachsignalen. Zum Training eines DA werden normalerweise parallele Daten ben?tigt, wobei die ungest?rte Version des Signals als Ziel an den Ausgang und die gest?rte Version an den Eingang des Netzes gelegt werden. Das Besondere des hier entwickelten Verfahrens war, dass parallele Daten nicht ben?tigt werden, weil das ungest?rte Zielsignal mit dem in Vorarbeiten entwickelten Bayes’schen Merkmalsextraktionsverfahren (Bayesian Feature Enhancement (BFE)) gesch?tzt wird. Damit k?nnen auch reale Aufnahmen gest?rter Signale, bei denen parallele Aufnahmen von ungest?rter und gest?rter Version der Signale in der Regel nicht vorhanden sind, zum Training verwendet werden. (ii) Die Entwicklung eines akustischen Strahlformers (Beamformers), dessen Koeffizienten unter Zuhilfenahme eines neuronalen Netzes gesch?tzt werden. Das neuronale Netz übernimmt die Funktion eines hochaufl?senden Sprachaktivit?tsdetektors und gibt für jeden Zeit-Frequenz-Punkt an, ob er das Zielsprachsignal enth?lt oder nicht. Mit dieser vom Netz gelieferten Maske k?nnen dann die r?umlichen Kovarianzmatrizen des Nutzsignals und der St?rung berechnet werden, woraus wiederum die Strahlformerkoeffizienten nach bekannten Regeln statistisch optimaler Mehrkanalfilterung berechnet werden, z.B. die MVDR (Minimum Variance Distortionless Response) L?sung. (iii) Die Entwicklung von Verfahren zum gemeinsamen Training des erw?hnten neuronalen Netzes zur Maskensch?tzung und des neuronalen Netzes im akustischen Modell des Spracherkenners. Um den Maskensch?tzer mit dem Cross Entropy Kriterium am Ausgang des neuronalen Netzes für das akustische Modell trainieren zu k?nnen, war es n?tig, den Gradienten durch die komplexwertigen Operationen des akustischen Strahlformers zu propagieren. Dazu wurden Ableitungsregeln nach dem Wirtinger Kalkül für die Eigenwertzerlegung komplexwertiger Kovarianzmatrizen entwickelt. Durch die Rückführung des Gradienten aus dem akustischen Modell ben?tigt das Training des Maskensch?tzers keine parallelen Daten mehr. (iv) Die Evaluation der entwickelten Spracherkennungssysteme in internationalen Vergleichstests (CHiME-3 und CHiME-4), bei dem sowohl das Paderborner System alleine als auch das mit dem Projektpartner RWTH Aachen und dem Forschungsinstitut FORTH, Kreta, gemeinsam entwickelte System vordere Pl?tze belegte. (v) Die Bereitstellung der entwickelten netzunterstützten akustischen Strahlformer als Open Source Software. Die im Rahmen des Projekts entwickelte netzunterstützte akustische Strahlformung wurde von vielen Forschergruppen übernommen. Dieser Erfolg ist zum einen dadurch geschuldet, dass das Thema der ger?usch- und hallrobusten Spracherkennung durch den kommerziellen Erfolg der sog. intelligenten Lautsprecher (z.B. Amazon Echo, Google Home oder Apple Homepad) zurzeit in der wiss. Welt eine hohe Aufmerksamkeit erf?hrt. Der andere Grund liegt sicherlich in dem sehr guten Abschneiden unserer Gruppe bei den CHiME Vergleichstests und der Bereitstellung der Software als Open Source. Die Zusammenarbeit mit der RWTH Aachen hat sich insgesamt für beide Seiten als sehr fruchtbar erwiesen. BLSTM supported GEV Beamformer Front-End for the 3RD CHiME Challenge, in Automatic Speech Recognition and Understanding 360直播吧 (ASRU 2015), December 2015 J. Heymann, L. Drude, A. Chinaev, R. Haeb-Umbach (360直播吧he online unter https://dx.doi.org/10.1109/ASRU.2015.7404829) Unsupervised adaptation of a denoising autoencoder by Bayesian Feature Enhancement for reverberant asr under mismatch conditions, in Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on, April 2015, S. 5053–5057 J. Heymann, R. Haeb-Umbach, P. Golik, R. Schlüter (360直播吧he online unter https://dx.doi.org/10.1109/ICASSP.2015.7178933) Neural Network Based Spectral Mask Estimation for Acoustic Beamforming, in Proc. IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP), 2016 J. Heymann, L. Drude, R. Haeb-Umbach (360直播吧he online unter https://dx.doi.org/10.1109/ICASSP.2016.7471664) Noise-Presence-Probability-Based Noise PSD Estimation by Using DNNs, in 12. ITG Fachtagung Sprachkommunikation (ITG 2016), Oct 2016 A. Chinaev, J. Heymann, L. Drude, R. Haeb-Umbach The RW-TH/UPB/FORTH System Combination for the 4th CHiME Challenge Evaluation, in CHiME4 360直播吧, 2016 T. Menne, J. Heymann, A. Alexandridis, K. Irie, A. Zeyer, M. Kitza, P. Golik, I. Kulikov, L. Drude, R. Schlüter, H. Ney, R. Haeb-Umbach, A. Mouchtaris Wide Residual BLSTM Network with Discriminative Speaker Adaptation for Robust Speech Recognition, in CHiME4 360直播吧, 2016 J. Heymann, L. Drude, R. Haeb-Umbach A Generic Neural Acoustic Beamforming Architecture for Robust Multi-Channel Speech Processing, Computer Speech and Language, 2017 J. Heymann, L. Drude, R. Haeb-Umbach (360直播吧he online unter https://doi.org/10.1016/j.csl.2016.11.007) BEAMNET: End-to-End Training of a Beamformer-Supported Multi-Channel ASR System, in Proc. IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP), March 2017 J. Heymann, L. Drude, C. Boeddeker, P. Hanebrink, R. Haeb-Umbach (360直播吧he online unter https://dx.doi.org/10.1109/ICASSP.2017.7953173) Optimizing Neural-Network Supported Acoustic Beamforming by Algorithmic Di?erentiation, in Proc. IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP), March 2017 C. Boeddeker, P. Hanebrink, L. Drude, J. Heymann, R. Haeb-Umbach (360直播吧he online unter https://dx.doi.org/10.1109/ICASSP.2017.7952140) "NARA-WPE: A Python package for weighted prediction error dereverberation in Numpy and Tensorflow for online and offline processing," Speech Communication; 13th ITG-Symposium, 2018, pp. 1-5. ISBN 978-3-8007-4767-2 L. Drude, J. Heymann, C. Boeddeker, R. Haeb-Umbach (2018): Frame-Online DNN-WPE Dereverberation. In: 2018 16th International 360直播吧 on Acoustic Signal Enhancement (IWAENC). 2018. Tokyo, 17.09.2018 - 20.09.2018: IEEE, S. 466–470 J. Heymann, L. Drude, R. Haeb-Umbach, K. Kinoshita, T. Nakatani (360直播吧he online unter https://doi.org/10.1109/IWAENC.2018.8521255)Projektbezogene Publikationen (Auswahl)