HAL 9000 lebt: Sprecherkennung liest von Lippen

Intel hat auf dem IDF in Berlin eine Spracherkennung unter Open-Source-Lizenz vorgestellt, die zur Erhöhung der Trefferrate neben dem akustischen Signal auch die Lippenbewegungen auswertet. Selbst ganz ohne Audiosignal liegt die Trefferrate noch bei 60 Prozent - Stanley Kubrick lässt grüßen.

Bislang funktioniert die Spracherkennung von Computern nur bei einem störungsfreien Audiosignal mit brauchbarer Trefferrate. Zeichnet das Mikrofon etwa in einem Großraumbüro Nebengeräusche mit auf, steigt die Fehlerrate drastisch an. Um die Spracherkennung praxistauglicher zu machen, hat Intel daher zwei neue Konzepte vorgestellt.

Eine Möglichkeit ist die Verwendung von Mikrofon-Arrays. Schaltet man zum Beispiel sechs Mikros, die sich in einer Reihe auf dem TFT-Bildschirm befinden, phasenrichtig zusammen, lässt sich damit ein Richtmikrofon nachbilden. Durch entsprechende Variation der Phasenlagen kann dessen Empfangskeule elektronisch dem Sprecher nachgeführt werden. Die Richtcharakteristik blendet unerwünschte Nebengeräusche aus, die Position des Sprechers bleibt jedoch variabel. Dies erhöht die Qualität des Signals und die Trefferrate der Spracherkennung steigt entsprechend.

Weitaus interessanter ist jedoch Intels zweiter Ansatz, die Korrelation der akustischen Signale mit einer optischen Analyse der Gesichtsmimik. Bei der Audio-Visuellen Spracherkennung (AVSP) soll die Fehlerrate selbst bei Nebengeräuschen und einem Rauschabstand von 20 dB noch unter fünf Prozent liegen.

Allerdings lassen die publizierten Daten auch eine ganz andere Interpretation zu. Bereits jetzt liegt die Fehlerrate (Word Error Rate) der visuellen Spracherkennung ohne jedes akustische Signal bei 40 Prozent. Der von den Lippen lesende Computer ganz im Stil von HAL 9000 aus "2001 - Odyssee im Weltall" ist also nicht mehr fern.

Mehr Details zu AVSP finden sich auf den Forschungs-Webseiten von Intel und beim MIT Artificial Intelligence Laboratory. Den Source-Code von AVSP stellt Intel unter anderem bei Sourceforge unter Open-Source-Lizenz kostenlos zur Verfügung. Ganz uneigennützig ist Intels Forschung jedoch nicht: Während selbst ältere PCs die akustische Spracherkennung locker bewältigen, ist für die visuelle Lösung mit Echtzeit-Bildanalyse schon ein aktueller PC mit richtig schneller CPU nötig. (ala)