Spracherkennung als Vorbild

Empfindsame Computer: Emotionserkennung

Wissenschaftler der Universität Stuttgart arbeiten daran, dass Sprachcomputer auch die Emotionen des Sprechenden auswerten können.

Neben dem direkten Inhalt der gesagten Worte vermittelt die menschliche Sprache dadurch, wie etwas gesagt wird, implizit auch Emotionen. Computersysteme zur automatischen Spracherkennung können bislang aber nur den expliziten Sinninhalt verstehen und somit nicht die gesamte Information verwerten, die das gesprochene Wort transportiert. Doch Wissenschaftler am Lehrstuhl für Systemtheorie und Signalverarbeitung (LSS) der Universität Stuttgart arbeiten daran, Sprachcomputern auch das Erkennen von Gemütsbewegungen beizubringen. Die normale Spracherkennung ist Vorbild bei Algorithmen und Methoden. "Die mathematischen Ansätze sind sehr ähnlich", meint LSS-Leiter Bin Yang im Gespräch mit pressetext.

Während schon seit Jahrzehnten an der Spracherkennung linguistischer Inhalte geforscht wird, arbeitet der LSS auf einem relativ jungen Gebiet. Computer sollen lernen, auch nicht direkt in Worte gefasste Inhalte der Sprache zu erkennen, sogenannte "paralinguistische Eigenschaften". Dazu zählen neben Emotionen wie Angst oder Wut auch Stress, medizinische Auffälligkeiten in der Stimmgebung oder auch Alter und Geschlecht eines Sprechers sowie der Dialekt als Zeichen der regionalen Herkunft. Die Stuttgarter setzen zur Emotionserkennung auf Algorithmen, die jenen aus der Spracherkennung ähneln. Genutzt werden lernende Verfahren unter Verzicht auf festgelegte Regeln, so Yang. Das Erkennungssystem wird mithilfe einer geeigneten Beispieldatenbank trainiert.

Eine Herausforderung ist, dass in der Spracherkennung bewährte Merkmale zur Analyse von Sprachdaten für die Emotionserkennung nach Erkenntnissen der LSS-Forscher nur bedingt geeignet sind. Denn für die Spracherkennung sind phonetische Informationen wichtig, wie beispielsweise die charakteristischen Resonanzfrequenzen von Vokalen. "Wir müssen hingegen praktisch hinter den Vokaltrakt schauen", meint Yang. Denn der emotionale Zustand des Sprechers spiegle sich eher in der Anregung der Stimmlippen wieder. Paralinguistische Informationen verstecken sich somit an anderen Stellen des Sprachsignals als solche, die für die Spracherkennung relevant sind. Dementsprechend intensive Forschungsarbeiten sind daher noch nötig, ehe eine automatische Emotionserkennung wirklich praxistauglich wird.

Das Interesse am Thema ist international groß und das nicht nur an Forschungseinrichtungen. Es gäbe Call Center, die bereits mit Emotionserkennung experimentieren, so Yang. Neben Anwendungen im medizinischen Bereich wären beispielsweise auch Fahrerassistenzsysteme denkbar, die erkennen, ob ein Fahrer im Stress ist. Auch die klassische Spracherkennung könnte profitieren, da beispielsweise Schimpfworte oft mit bestimmten emotionalen Färbungen verbunden sind. Die Erkenntnisse aus der Emotionserkennung sollen aber durch Umkehr auch dazu beitragen, die synthetisierte Spracheausgabe zu verbessern. "Viele Leute beschweren sich, dass beispielsweise Navigationscomputer viel zu trocken sprechen", sagt Yang. Emotionaler gestaltete Computerstimmen könnten diesbezüglich Abhilfe schaffen. (pte/mje)