Blinde adaptive akustische Strahlformung und Quellentrennung für einen sich bewegenden Sprecher in nichtstation?rer akustischer Umgebung
?berblick
In diesem Vorhaben wird ein Szenario betrachtet, bei dem sich ein Sprecher frei in einem verhallten Raum bewegen kann, in dem weitere ebenfalls bewegliche nichtstation?re St?rquellen (z.B. weiterer Sprecher) vorhanden sind. Es sollen mehrkanalige Signalverarbeitungsalgorithmen entworfen werden, die eine m?glichst st?rungsfreie Rekonstruktion des Signals des Zielsprechers erm?glichen. Ausgangspunkt der Untersuchungen ist ein am Fachgebiet entwickeltes Verfahren zur adaptiven Strahlformung, das auf einer für jede Frequenzkomponente durchzuführenden adaptiven Eigenvektorzerlegung beruht. Hiermit konnte ein sich bewegender Sprecher in einer akustisch station?ren Umgebung zuverl?ssig verfolgt werden, und es wurden für verschiedene station?re St?rszenarien sehr gute Signal-zu- Rauschleistungsgewinne erzielt. Dieser Strahlformer wird zu einer Struktur erweitert, die dem bekannten ?Generalized Sidelobe Canceller? (GSC) nachempfunden ist, bei dem jedoch die übliche ?fixed beamformer? Komponente durch die adaptive Eigenvektorzerlegung ersetzt wird. Die Unterdrückung nichtstation?rer St?rungen soll durch ein neuartiges, auf der Messung von Koh?renzfunktionen zwischen GSC-Signalen basierendes Nachfilter weiter verbessert werden. Schlie?lich soll untersucht werden, inwieweit der Strahlformer als Vorverarbeitungsschritt für eine nachgeschaltete blinde Quellentrennung mittels Independent Component Analysis geeignet ist. Die Verfahren sollen soweit entwickelt werden, dass sie unter Echtzeitrandbedingungen demonstriert werden k?nnen.
DFG-Verfahren Sachbeihilfen
Key Facts
- Grant Number:
- 21317402
- Laufzeit:
- 01/2006 - 12/2010
- Gef?rdert durch:
- DFG
- Website:
-
DFG-Datenbank gepris
Detailinformationen
Ergebnisse
Aus Gründen der Benutzerfreundlichkeit ist es wünschenswert, Sprache mit entfernten Mikrophonen aufzunehmen, so dass der Sprecher kein Mikrophon in der Hand halten oder tragen muss. Dieser Bedienvorteil wird jedoch erkauft durch eine deutlich reduzierte Signalqualit?t. Durch die gr??ere Entfernung zwischen der Nutzsignalquelle und dem Sensor ist das aufgenommene Signal st?rker verrauscht und verhallt, und es werden m?glicherweise unerwünschte weitere akustische Signale (z.B. andere Sprecher, Musik) aufgenommen. Mikrophongruppen mit geeigneter nachgeschalteter digitaler Signalverarbeitung sind ein probates Mittel, um die Qualit?t des aufgenommenen Sprachsignals zu verbessern. Dabei haben sich insbesondere adaptive Strahlformungsalgorithmen als vorteilhaft erwiesen, bei denen die Filterkoeffizienten entsprechend eines statistischen Optimalit?tskriteriums fortlaufend an die Mikrophonsignale angepasst werden. Ausgangspunkt der Untersuchungen in diesem Projekt war ein am Fachgebiet entwickeltes Verfahren, das auf der Maximierung des Signal-zu- Rauschleistungsverh?ltnisses (SNR) in jeder Frequenzkomponente beruht. Dieses Optimierungskriterium führt auf ein Eigenwertproblem, das es adaptiv zu l?sen gilt. Ein gro?er Vorteil dieses Ansatzes ist, dass er ?blind“ arbeitet, d.h. es ist keine explizite Bestimmung der Sprecherrichtung notwendig, und die Anordnung der Mikrophone muss nicht bekannt sein. Zu Beginn des Projektes waren am Fachgebiet bereits zwei Varianten dieses Beamformers entwickelt worden, der sog. PCA-Beamformer (PCA: Principal Component Analysis) und der GEV-Beamformer (GEV: Generalized Eigenvalue). Ziel dieses Projektes war, den eigenvektorbasierten Ansatz weiter zu erforschen und in Hinblick auf anspruchsvollere Problemstellungen (nichtstation?re akustische St?rungen, blinde Quellentrennung) weiterzuentwickeln. Im Verlauf dieses Projekts wurden dabei folgende Ergebnisse erzielt: ? Der Strahlformer wurde zu einer Struktur entsprechend dem ?Generalized Sidelobe Canceller“ (GSC) erweitert. Hierzu wurde eine neuartige, auf einer verallgemeinerten Eigenwertzerlegung (Generalized Eigenvalue Decomposition - GEV) beruhende adaptive Blockiermatrix entworfen. Dieser neuartige ?GEV-GSC“ erreicht eine h?here Unterdrückung station?rer St?rungen bei gleichzeitig geringeren Verzerrungen des Nutzsignals als Vergleichsverfahren aus der Literatur. Au?erdem kann eine Adaption trotz Vorhandensein von permanenten station?ren St?rungen (Rauschen) erfolgen. ? Die eigenvektorbasierten akustischen Strahlformer wurden zur Verwendung für eine blinde Quellentrennung erweitert. Der entwickelte Quellentrennungsalgorithmus berücksichtigt dabei explizit, dass neben den zu trennenden Quellen station?res Hintergrundrauschen vorhanden ist und erzielt neben der Quellentrennung damit eine sehr gute Rauschunterdrückung. ? Fasst man die eine Sprachquelle als Nutzsignal und eine andere gleichzeitig aktive Sprachquelle als St?rung auf, kann das blinde Quellentrennungsverfahren derart vereinfacht werden, dass sich ein Strahlformer ergibt, der neben station?ren St?rungen auch nichtstation?re St?rungen (weiterer Sprecher) unterdrücken kann. ? Es wurde ein neuartiges statistisches Modell zur blinden Identifikation des Mischungssystems entwickelt, welches direktionale Statistiken, d.h. Verteilungen, die auf einer Hyperkugel definiert sind, verwendet. Mit Hilfe des Expectation Maximization (EM) Algorithmus konnten Sch?tzformeln für die Modellparameter hergeleitet werden, wobei als Nebenprodukt der Parametersch?tzung eine Zeit-Frequenzbin genaue Quellenaktivit?tswahrscheinlichkeit bestimmt wird, die zur L?sung des Permutationsproblems und zur spektralen Nachfilterung der getrennten Quellensignale verwendet werden kann. Dieses neuartige statistische Modell hat verschiedene Vorteile, unter anderem eine elegante Berücksichtigung von r?umlichem Aliasing, und erlaubt eine einheitliche Behandlung der ansonsten meist getrennt betrachteten Probleme der Rauschunterdrückung und blinden Quellentrennung. Die entwickelten Algorithmen wurden in C/C++ realisiert, so dass sich Strahlformungs- und blinde Quellentrennungsverfahren in Echtzeit demonstrieren lassen. Mit den in diesem Projekt entwickelten Verfahren haben wir an der Signal Separation Evaluation Campaign 2010 teilgenommen, um einen objektiven Vergleich mit Konkurrenzverfahren zu erm?glichen. Wenn auch in der Kategorie ?Source separation in the presence of real-world background noise“ ein direkter Vergleich nur im Strahlformungsfall m?glich war so zeigt ein Vergleich mit den Ergebnissen einer verwandten Aufgabe (spatial image), dass insbesondere die Rauschunterdrückung bei dem hier entwickelten Ansatz besonders gut ist. In diesem Projekt wurde ein einheitliches statistisches Rahmenwerk entwickelt, in das sich blinde Quellentrennung und St?rger?uschunterdrückung bei nur einem Sprecher abbilden lassen und deren Parameter mit dem EM Algorithmus gesch?tzt werden k?nnen. Der gew?hlte Ansatz hat vielf?ltige Vorteile, nicht zuletzt derjenige, dass er aufzeigt, auf welche Weise in Zukunft die Modellierung weiter verbessert werden kann.. Wenn im Prinzip die gleichen Verfahren zur Sprachqualit?tsverbesserung sowohl bei Vorhandensein von nur einer Quelle (Ger?uschreduktion) als auch von mehreren aktiven Quellen (Quellentrennung und Ger?uschreduktion) eingesetzt werden, so bietet sich die M?glichkeit, die in der Literatur zur blinden Quellentrennung meist getroffene und in der Praxis wohl kaum zutreffende Annahme einer konstanten und bekannten Anzahl von aktiven Sprechern zu überwinden. Zukünftige Arbeiten zielen daher darauf, ein Sprachqualit?tsverbesserungssystem zu entwickeln, das für typische Dialogszenarien geeignet ist, bei denen die Anzahl der gleichzeitig aktiven Sprecher nicht nur unbekannt ist sondern auch noch mit der Zeit variiert, wobei zu den meisten Zeiten wohl nur ein Sprecher aktiv ist. Ein Vorteil des in diesem Projekt entwickelten eigenvektorbasierten Ansatzes ist, dass es sich um ein blindes Strahlformungsverfahren handelt, welches wenig a priori Wissen über die akustischen Randbedingungen (Mikrophonanordnung, Sprecherpositionen) ben?tigt. Wir glauben, dass dies für viele zukünftige Anwendungen von Bedeutung ist. M?gliche Anwendungen für Mikrophongruppen zur Verbesserung der Sprachqualit?t sind Telekommunikationsendger?te, Freisprecheinrichtungen, Telekonferenzsysteme und Sprachdialogsysteme. Neben den klassischen Anwendungen akustischer Signalverarbeitung wird es in Zukunft neue geben (ambiente audio-visuelle Telefonie, intelligente Umgebungen, ?berwachungssysteme), in denen Signalverarbeitungsaufgaben um Mustererkennungsfragen erg?nzt werden: Es soll nicht nur die Sprachqualit?t verbessert werden, sondern Sprecherbewegungen sollen verfolgt, die Sprache soll erkannt und andere akustische Ereignisse klassifiziert werden. Hier hoffen wir, durch eine engere Verzahnung des ?speech enhancement“ mit der Mustererkennung bisher noch wenig ausgelotetes Optimierungspotenzial aussch?pfen zu k?nnen. “Blind Adaptive Principal Eigenvector Beamforming for Acoustical Source Separation”, in Proc. Interspeech, Antwerp, Belgium, Sep. 2007 E. Warsitz, R. Haeb-Umbach and D.H. Tran Vu Mehrkanalige Sprachsignalverbesserung durch adaptive L?sung eines Eigenwertproblems im Frequenzbereich, 2008 Ernst Warsitz “Blind Speech Separation in Presence of Correlated Noise with Generalized Eigenvector Beamforming”, in Proc. ITG-Fachtagung Sprachkommunikation, Aachen, 8.-10.10.2008 D.H. Tran Vu and R. Haeb-Umbach “Generalized Eigenvector Blind Speech Separation under Coherent Noise in a GSC Configuration”, in Proc. International 360直播吧 on Acoustic Echo and Noise Control (IWAENC), Seattle, USA, Sept. 14-17, 2008 D.H. Tran Vu and R. Haeb-Umbach “An EM Approach to Multichannel Speech Separation and Noise Suppression”, in Proc. International 360直播吧 on Acoustic Echo and Noise Control (IWAENC), Tel Aviv, Israel, Aug. 2010 D. H. Tran Vu and R. Haeb-Umbach “Blind Speech Separation Employing Directional Statistics in an Expectation Maximization Framework”, in Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing, Dallas, March 2010 D.H. Tran Vu and R. Haeb-UmbachProjektbezogene Publikationen (Auswahl)