Surfen per Stimme

Das normale Telefon entwickelt sich zum intelligenten Internet-Client. Mit Hilfe von VoiceXML können sprach- und dialogfähige Webanwendungen dann per Handy und über das drahtgebundene Telefon abgerufen werden. Vor allem Mobil- und Business-Anwender sowie Internet-Einsteiger sind die Zielgruppe der Anbieter.

Von: Klaus Manhart

Das Abhören von E-Mails und Web-Site-Inhalten per Telefon und ihre sprachliche Steuerung soll künftig wesentlicher Bestandteil von E-Business-Anwendungen werden. Durch Fortschritte bei Spracherkennungs- und Sprachsynthesetechniken lassen sich herkömmliche Internetauftritte so ergänzen, dass Informationen auch ohne Computer über Telefon abgerufen werden können. Per menschlicher Stimme kann innerhalb von Internetseiten navigiert werden, die aufgerufenen Inhalte werden vorgelesen.

Der User ruft mit einem beliebigen Telefon - Festnetz oder mobil - den VoiceXML-Server mit Voice-Browser an. Der Voice-Browser wandelt den auf dem Server ruhenden VoiceXML-Content in Sprache um.

Die Möglichkeit, Internetinhalte per Telefon abzurufen, soll alle (Business-)Anwender ansprechen, die gerade keinen Computer zur Verfügung haben, um bestimmte, dringend benötigte Inhalte zuzugreifen. Im Vergleich zu WAP (Wireless Application Protocol)ist die Bedienung per Stimme einfacher und komfortabler. Eine zweite Zielgruppe sind Internet-Interessierte, die über wenig oder gar keine Vorkenntnisse mit dem Medium verfügen. Gerade solche Personen müssen oft große Hemmschwellen überwinden, um das Internet zu nutzen. Last, but not least ist das Voice-gestützte Internet für alle diejenigen geeignet, die unter Sehstörungen leiden oder erblindet sind. Zu der Anbieter-Zielgruppe gehören die Provider von Audiotext oder automatisierten Telefondiensten. Sie können Geld sparen, da Ausgaben für Soft- und Hardware entfallen. Eine reine Webanwendung genügt. Die Betreiber von Call-Centern können Teile ihrer Services automatisieren - beispielsweise in Form von "Frequently asked Questions". In den Firmen mit Intranets/Extranets haben Mitarbeiter von unterwegs Zugang auf das Firmen-Intranet und können - auch ohne PC, Notebook oder WAP-Handy - auf interne Daten zugreifen.

Dabei beschränkt sich der elektronische V-Commerce (V =Voice) aber nicht nur auf die Möglichkeit, Inhalte von WWW-Seiten oder Mails abzurufen. Auch die Benutzung von Kreditkarten und Transaktionen über Telefon und Internet sollen Voice-basierte Techniken erleichtern. Die Funktionalität könnte auch die letzten Schranken zum Internet-Massenmarkt beseitigen und das Web all denen zugänglich machen, die nur ein normales Telefon haben. Und schließlich würde das stimmbasierte Internet Schwung in die WAP-Philosophie bringen. Denn das kleine Display und die winzige Tastatur gestalten die Internetbenutzung über das Handy sehr schwierig. Die Navigation über Sprache ist natürlicher und vertrauter als die Bedienung per Tastatur.

Mit den neuen V-Techniken lassen sich ganze Portale sprachfähig machen und sind damit flexibel einsetzbar. Nach einer Studie von Frost & Sullivan soll der Markt für solche Sprachportaldienste in den nächsten Jahren massiv wachsen. Während im vergangenen Jahr der weltweite Umsatz gerade 11,6 Millionen Dollar betrug, prognostizieren die Marktforscher für 2007 einen Umsatz von knapp 40 Milliarden Dollar. Datacomm Research schätzt, dass im Jahre 2006 bereits mehr als zwei Milliarden Voice Portal User diese Form der Kommunikation zwischen Mensch und Maschine nutzen werden.

Sich Internetinhalte am Telefon vorlesen zu lassen ist nicht neu. Schon eine ganze Weile können Kunden von E-Mail- und Unified-Messaging-Diensten Mails am Telefon anhören. Dabei werden die Texte in eine wav-Datei umgewandelt und über entsprechende Server bei Anruf des Kunden abgespielt. Beispielsweise offerieren Excite (http://anruf.excite.de/de/ueber.htm) und Web.de (www.freemail.de) im Rahmen ihres E-Mail-Service einen solchen Voicemail-Dienst sowie die Unified Messages Services 3Box (www.3box.de), Direktbox (www.direktbox.com) und Smartvia (www.smartvia.de).

Doch E-Mail ist nur ein Bruchstück der Internet-Kommunikation. Der Boom kommt erst dann , wenn auch Webinhalte problemlos am Telefon abgehört und bedient werden können. Die dahinter stehende Technik ist anders, der Ablauf ähnlich wie beim Abhören von Mails: Nach Anwahl einer Servicenummer kann per Spracheingabe durch entsprechend aufbereitete Web-Informationsangebote gesurft und die Inhalte abgehört werden. Anders als bei den bekannten WAP-Diensten für Handys sind Voice-basierte Webinhalte von jedem handelsüblichen Telefon aus nutzbar und auch nicht auf bestimmte Netze beschränkt.

Kernstück des sprachgestützten Webs sind so genannte Speech- oder Voice-Browser, die den gewohnten Web-Browser ersetzen und Internetseiten auf Basis des http-Protokolls in Sprache umsetzen. Voice-Browser sind auf dem Server eines Providers installiert, der Benutzer kann über sie per Stimme navigieren und sich die Informationen mittels Sprachausgabe vorlesen lassen. Der Voice-Browser führt den Anrufer anhand bestimmter Schlüsselbegriffe zu den gesuchten Textinhalten im Web. Diese werden wiederum vom Stimm-Browser in gesprochene Worte umgewandelt und dem Anrufer akustisch präsentiert.