Ein integrierter Ansatz zur St?rger?uschunterdrückung und blinden Trennung von Sprachsignalen

Overview

In diesem Vorhaben sollen die bisher meist getrennt bearbeiteten Probleme der Ger?uschreduktion und der blinden Trennung von Sprachsignalen gemeinsam betrachtet werden. W?hrend in der Literatur meist von einer konstanten und bekannten Anzahl von Sprechern ausgegangen wird, soll hier ein Verfahren entwickelt werden, welches ein entst?rtes und entmischtes Ausgangssignal hoher Qualit?t für wechselnde Gespr?chssituationen liefert, in denen mal einer und ein andermal mehrere Sprecher aktiv sind. Zur L?sung des Problems wird die Dünnbesetztheit von Sprache im Zeit-Frequenzbereich ausgenutzt. Es wird ein neuartiges statistisches Modell entwickelt, in dem die Phasendifferenzen der Mikrofonsignale über ein Gemisch von direktionalen, d.h. auf einer Hyperkugel definierten Verteilungen und die Amplituden über ein Gemisch von Gamma-Verteilungen beschrieben werden, deren Parameter mit Hilfe des Expectation Maximization Algorithmus gesch?tzt werden. Die dabei abfallenden Sprachaktivit?tswahrscheinlichkeiten werden zur L?sung des Permutationspro?blems und zur Rekonstruktion der Quellensignale verwendet. Die zun?chst für eine blockbasierte Verarbeitung entwickelten Sch?tzverfahren sollen anschlie?end in sequentielle Algorithmen überführt werden, um eine Ger?uschreduktion und Quellentrennung mit m?glichst geringer Latenz zu erreichen.

DFG-Verfahren Sachbeihilfen

Key Facts

Grant Number:
193484692
Project duration:
01/2010 - 12/2015
Funded by:
DFG
Websites:
DFG-Datenbank gepris
Abgeschlossene Projekte des Fachgebietes

More Information

Principal Investigators

contact-box image

Prof. Dr. Reinhold H?b-Umbach

Communications Engineering / Heinz Nixdorf Institute

About the person

Results

Trotz der in den letzten Jahren neu entstandenen technischen Kommunikationsm?glichkeiten, wie beispielsweise SMS, Videotelefonie oder sozialer Netzwerke, bleibt die gesprochene Sprache auch über die Entfernung die wichtigste Kommunikationsmodalit?t von Mensch zu Mensch. Aufgrund immer h?herer Anforderungen an die Qualit?t und die Einsatzm?glichkeiten bleibt die Sprachsignalverbesserung, sei es für eine Mensch-zu-Mensch oder eine Mensch-zu-Maschine Kommunikation, ein wiederkehrendes Forschungsthema. In diesem Projekt wurden r?umliche und spektrale Filterverfahren zur Ger?uschreduktion und zur Quellentrennung entwickelt, die hinsichtlich der folgenden Aspekte innovativ sind. Zum einen wurden Quellentrennung und St?rger?uschunterdrückung gemeinsam betrachtet. In der Praxis ist es in der Tat so, dass nicht nur eine Art von St?rung vorhanden ist, sondern dass in der Regel das Signal konkurrierender Sprecher auch noch durch additives Rauschen gest?rt ist. Das entwickelte Verfahren beruht auf der sp?rlichen Besetztheit von Sprache im Kurzzeit-Frequenzbereich. Diese Eigenschaft besagt, dass selbst bei zwei gleichzeitig aktiven Sprechern in jedem einzelnen Zeit-Frequenzpunkt (m,k) das Signal eines Sprechers das des anderen dominiert. Damit bietet sich ein zweistufiges Verfahren zur Signalextraktion an: In der ersten Stufe wird ermittelt, welches Quellensignal in welchem Zeit-Frequenzpunkt dominant ist, um dann in der zweiten Stufe mit dieser Information Filterkoeffizienten eines Strahlformers zu berechnen, um die Signale zu trennen. Die Posteriorwahrscheinlichkeiten der Sprecheraktivit?t wurden zusammen mit den Parametern eines Strahlformers und des Rauschmodells mit Hilfe des EM-Algorithmus gesch?tzt. Ein zweiter innovativer Aspekt dieses Projekts war die Verwendung von sogenannten direktionalen Statistiken zur Beschreibung r?umlicher Information. Wir haben dazu die Watsonverteilung vorgeschlagen, eine Verteilung für komplexwertige Vektoren, die auf die L?nge Eins normiert sind. Die Motivation zur Verwendung der normierten Beobachtungen ist die Tatsache, dass die Vektorl?nge vornehmlich von dem Quellensignal bestimmt wird, w?hrend die Orientierung die r?umliche Information tr?gt, die zur Quellentrennung ausgenutzt werden soll. Für die Parameter des Modells wurden Maximum-Likelihood und Bayes’sche Sch?tzer hergeleitet. Für den letzten Sch?tzer wurde ein quadratischer Erwartungswert eines Bingham-verteilten Zufallsvektors mit komplexwertigen Komponenten in geschlossener Form berechnet. Eine dritte Innovation, die aus dem Projekt hervorgegangen ist, ist ein neuartiges Verfahren zur Modellierung der Korrelationen eines Sprachsignals sowohl entlang der Zeit- als auch entlang der Frequenzachse. Fast alle Verfahren zur Sprachqualit?tsverbesserung nutzen die Korrelationseigenschaften von Sprache aus. Dies geschieht in der Regel durch Gl?ttungsfilter mit heuristisch eingestellten Parametern. Im Gegensatz dazu haben wir die Korrelationen in einem zweidimensionalen Hidden Markov Modell (2D-HMM) beschrieben, deren Parameter aus den Daten gelernt werden. Es wurde ein effizienter Inferenzalgorithmus f?r 2D-HMMs hergeleitet, der als ?bertragung des in der digitalen Kommunikationstechnik so erfolgreichen Turboprinzips in die Sprachsignalverarbeitung interpretiert werden kann. Ein viertes Projektergebnis ist die fortlaufende Sch?tzung der Anzahl der aktiven Sprecher aus den Mikrofonsignalen. Dies wurde wiederum nicht durch eine Heuristik ermoglicht, sondern durch eine Erweiterung der Maximum Likelihood Sch?tzvorschrift für die Parameter der Watsonverteilung zu einer Maximum-a-Posteriori Sch?tzung mit einem variationellen EM Algorithmus. Die Anzahl der aktiven Sprecher ergab sich dann als Nebenprodukt der Parametersch?tzung. Schlie?lich wurde noch ein MAP-Sch?tzer für das zeitvariante Leistungsdichtespektrum der St?rung entwickelt, bei dem, anders als bei den meisten anderen Rauschsch?tzern, das Leistungsdichtespektrum der St?rung als Zufallsvariable und nicht als unbekannter Parameter modelliert wird. Dabei wurde eine skalierte inverse chi-quadrat Verteilung als n?herungsweise konjugierte a priori Verteilung eingesetzt.


Projektbezogene Publikationen (Auswahl)


On Initial Seed Selection for Frequency Domain Blind Speech Separation, in Proc. INTERSPEECH – Conference of the International Speech Communication Association, Florence, Italy, Aug. 2011

D.H. Tran Vu and R. Haeb-Umbach


Exploiting Temporal Correlations in Joint Multichannel Speech Separation and Noise Suppression Using Hidden Markov Models, in Proc. International 360直播吧 on Acoustic Signal Enhancement (IWAENC), Aachen, Germany, Sept. 2012 [Best Student Paper Award]

D.H. Tran Vu and R. Haeb-Umbach


Blind Speech Separation Exploiting Temporal and Spectral Correlations Using Turbo Decoding of 2D-HMMs, in Proc. European Signal Processing Conference (EUSIPCO), Marrakesh, Morocco, Sept. 2013

D. H. Tran Vu and R. Haeb-Umbach


MAP-Based Estimation of the Parameters of a Gaussian Mixture Model in the Presence of Noisy Observations, in Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Vancouver, Canada, May 2013

A. Chinaev and R. Haeb-Umbach


Using the Turbo Principle for Exploiting Temporal and Spectral Correlations in Speech Presence Probability Estimation, in Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Vancouver, Canada, Mai 2013

D. H. Tran Vu and R. Haeb-Umbach


Source Counting in Speech Mixtures Using a Variational EM Approach for Complex Watson Mixture Models, in Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Florence, Italy, Mai 2014

L. Drude, A. Chinaev, D.H. Tran Vu and R. Haeb-Umbach

(360直播吧he online unter https://doi.org/10.1109/ICASSP.2014.6854924)