Source separation and interference reduction for automatic speech recognition in dynamic acoustic environments (Transfer Project)

Overview

This project is dedicated to a holistic approach for speech enhancement, separation and recognition in an automatic house environment. Financed by the “Deutsche Forschungsgemeinschaft” (DFG) a new system is researched combining the hand-on experience from a third-party company with the recent scientific advances in speech enhancement through deep learning at the Department of Communications Engineering (EIM-E/NT) . As basis for the speech enhancement and separation task a spectral masking beamformer inspired by an approach developed in our department is considered.

Key Facts

Grant Number:
316471544
Project duration:
08/2016 - 12/2021
Funded by:
DFG
Websites:
DFG-Datenbank gepris
Abgeschlossene Projekte des Fachgebietes

More Information

Principal Investigators

contact-box image

Prof. Dr. Reinhold H?b-Umbach

Communications Engineering / Heinz Nixdorf Institute

About the person

Cooperating Institutions

voice INTER connect GmbH

Cooperating Institution

Go to website

Results

Die Verbesserung der Robustheit von automatischen Spracherkennungssystemen in schwierigen akustischen Umgebungen ist eine seit Jahren intensiv untersuchte Fragestellung. Die Problematik hat in den letzten Jahren durch das Aufkommen von sog. digitalen Assistenten (auch intelligente Lautsprecher genannt), die über Sprache aus einer Entfernung bedient werden, an Aktualit?t hinzugewonnen. Die Firma VIC entwickelt Sprachschnittstellen für Smart Home, aber auch für viele andere Anwendungen im industriellen Umfeld und in Nutzfahrzeugen. 360直播吧 setzt dabei auf lokale Verarbeitung statt Verarbeitung in der Cloud, was für viele Firmenkunden sehr attraktiv und für einige der genannten Anwendungsf?lle essentiell ist. Bei diesen Anwendungen befindet sich der Sprecher nicht in unmittelbarer N?he zum Mikrofon, so dass das aufgenommene Signal verhallt und von unabsichtlich aufgenommenen St?rger?uschen überlagert ist. Ausgangspunkt für die Entwicklung einer effektiven Signalverbesserungseinheit war ein in einem DFG-Vorg?ngerprojekt entwickeltes Verfahren zur blinden Quellentrennung. Dieses hatte als Kernkomponente ein r?umliches Mischungsmodell zur Sch?tzung der Sprach- bzw. Sprecherpr?senzwahrscheinlichkeit für jeden einzelnen Zeit-Frequenzpunkt der Kurzzeit-Fourieranalyse des Signals. In diesem Projekt wurde dieses Verfahren weiterentwickelt und unter anderem erfolgreich beim internationalen CHiME-5 Wettbewerb eingesetzt. Der als "Guided Source Separation" bekanntgewordene Algorithmus wurde sogar in das Baselinesystem des Nachfolgewettbewerbs, CHiME-6, im Frühjahr 2020 aufgenommen. Darüber hinaus wurden w?hrend der Projektlaufzeit Entst?rverfahren, die auf neuronalen Netzen beruhen, immer wichtiger. Der am Fachgebiet des Berichters entwickelte akustische Strahlformer mit einer auf einem neuronalen Netz basierenden Sprachaktivit?tssch?tzung wurde in Hinblick auf die Anforderungen beim Projektpartner weiterentwickelt, wobei insbesondere folgende Aspekte zu nennen sind: Das ursprüngliche O ine-Verfahren wurde zu einem Block-online-Verfahren weiterentwickelt, um die Latenz von der Spracheingabe bis zur Ausgabe der erkannten Wortfolge zu verringern und um sich bewegende Sprecher verfolgen zu k?nnen. - War das Verfahren ursprünglich zur St?rger?uschunterdrückung entwickelt worden, konnte es durch Hinzufugen einer sprecherabh?ngigen Netzwerkschicht zur Extraktion eines Zielsprechers aus einem Sprachgemisch verwendet werden. Dieser Ansatz wurde hier weiterentwickelt, indem r?umliche Information zur besseren Trennung von Sprachsignalen von Sprechern gleichen Geschlechts verwendet wurden und indem auch hier eine Block-online Variante entwickelt wurde. - Das Zusammenspiel mit einer vorgeschalteten Enthallungskomponente wurde untersucht, und es wurden ausführliche Tests auf international verbreiteten Datenbasen, aber auch auf vom Projektpartner zur Verfügung gestellten Daten durchgeführt. Beispielimplementierungen wurden dem Projektpartner zur Verfügung gestellt.


Projektbezogene Publikationen (Auswahl)


Benchmarking Neural Network Architectures for Acoustic Sensor Networks, in ITG 2018, Oldenburg, Germany, 2018

J. Ebbers, J. Heitkaemper, J. Schmalenstroeer, R. Haeb-Umbach


Front-End Processing for the CHiME-5 Dinner Party Scenario, in CHiME-5 360直播吧, Hyderabad, India, 2018

C. Boeddeker, J. Heitkaemper, J. Schmalenstroeer, L. Drude, J. Heymann, R. Haeb-Umbach


Smoothing along Frequency in Online Neural Network Supported Acoustic Beamforming, in ITG 2018, Oldenburg, Germany, 2018

J. Heitkaemper, J. Heymann, R. Haeb-Umbach


The RWTH/UPB System Combination for the CHiME 2018 360直播吧, in CHiME-5 360直播吧, Hyderabad, India, 2018

M. Kitza, W. Michel, C. Boeddeker, J. Heitkaemper, T. Menne, R. Schlüter, H. Ney, J. Schmalenstroeer, L. Drude, J. Heymann, R. Haeb-Umbach


A Study on Online Source Extraction in the Presence of Changing Speaker Positions, in International Conference on Statistical Language and Speech Processing 2019, Ljubljana, Slovenia, 2019

J. Heitkaemper, T. Feher, M. Freitag, R. Haeb-Umbach

(360直播吧he online unter https://doi.org/10.1007/978-3-030-31372-2_17)


Guided Source Separation Meets a Strong ASR Backend: Hitachi/Paderborn University Joint Investigation for Dinner Party ASR, in Proc. of Annual Conference of the International Speech Communication Association (Interspeech), Graz, Austria, 2019

N. Kanda, C. Boeddeker, J. Heitkaemper, Y. Fujita, S. Horiguchi, R. Haeb-Umbach

(360直播吧he online unter https://arxiv.org/abs/1905.12230)


Multi-Channel Block-Online Source Extraction based on Utterance Adaptation, in Proc. of Annual Conference of the International Speech Communication Association (Interspeech), Graz, Austria, 2019

J. M. Martin-Donas, J. Heitkaemper, R. Haeb-Umbach, A. M. Gomez, A. M. Peinado


SMS-WSJ: Database, performance measures, and baseline recipe for multi-channel source separation and recognition. 2019

L. Drude, J. Heitkaemper, C. Boeddeker, R. Haeb-Umbach:

(360直播吧he online unter https://arxiv.org/abs/1910.13934)


Demystifying Tasnet: A Dissecting Approach, in Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Barcelona, Spain, 2020

J. Heitkaemper, D. Jakobeit, C. Boeddeker, L. Drude, R. Haeb-Umbach

(360直播吧he online unter https://doi.org/10.1109/ICASSP40776.2020.9052981)