Surfen per Stimme

22.06.2001
Das normale Telefon entwickelt sich zum intelligenten Internet-Client. Mit Hilfe von VoiceXML können sprach- und dialogfähige Webanwendungen dann per Handy und über das drahtgebundene Telefon abgerufen werden. Vor allem Mobil- und Business-Anwender sowie Internet-Einsteiger sind die Zielgruppe der Anbieter.

Von: Klaus Manhart

Das Abhören von E-Mails und Web-Site-Inhalten per Telefon und ihre sprachliche Steuerung soll künftig wesentlicher Bestandteil von E-Business-Anwendungen werden. Durch Fortschritte bei Spracherkennungs- und Sprachsynthesetechniken lassen sich herkömmliche Internetauftritte so ergänzen, dass Informationen auch ohne Computer über Telefon abgerufen werden können. Per menschlicher Stimme kann innerhalb von Internetseiten navigiert werden, die aufgerufenen Inhalte werden vorgelesen.

Die Möglichkeit, Internetinhalte per Telefon abzurufen, soll alle (Business-)Anwender ansprechen, die gerade keinen Computer zur Verfügung haben, um bestimmte, dringend benötigte Inhalte zuzugreifen. Im Vergleich zu WAP (Wireless Application Protocol)ist die Bedienung per Stimme einfacher und komfortabler. Eine zweite Zielgruppe sind Internet-Interessierte, die über wenig oder gar keine Vorkenntnisse mit dem Medium verfügen. Gerade solche Personen müssen oft große Hemmschwellen überwinden, um das Internet zu nutzen. Last, but not least ist das Voice-gestützte Internet für alle diejenigen geeignet, die unter Sehstörungen leiden oder erblindet sind. Zu der Anbieter-Zielgruppe gehören die Provider von Audiotext oder automatisierten Telefondiensten. Sie können Geld sparen, da Ausgaben für Soft- und Hardware entfallen. Eine reine Webanwendung genügt. Die Betreiber von Call-Centern können Teile ihrer Services automatisieren - beispielsweise in Form von "Frequently asked Questions". In den Firmen mit Intranets/Extranets haben Mitarbeiter von unterwegs Zugang auf das Firmen-Intranet und können - auch ohne PC, Notebook oder WAP-Handy - auf interne Daten zugreifen.

Dabei beschränkt sich der elektronische V-Commerce (V =Voice) aber nicht nur auf die Möglichkeit, Inhalte von WWW-Seiten oder Mails abzurufen. Auch die Benutzung von Kreditkarten und Transaktionen über Telefon und Internet sollen Voice-basierte Techniken erleichtern. Die Funktionalität könnte auch die letzten Schranken zum Internet-Massenmarkt beseitigen und das Web all denen zugänglich machen, die nur ein normales Telefon haben. Und schließlich würde das stimmbasierte Internet Schwung in die WAP-Philosophie bringen. Denn das kleine Display und die winzige Tastatur gestalten die Internetbenutzung über das Handy sehr schwierig. Die Navigation über Sprache ist natürlicher und vertrauter als die Bedienung per Tastatur.

Mit den neuen V-Techniken lassen sich ganze Portale sprachfähig machen und sind damit flexibel einsetzbar. Nach einer Studie von Frost & Sullivan soll der Markt für solche Sprachportaldienste in den nächsten Jahren massiv wachsen. Während im vergangenen Jahr der weltweite Umsatz gerade 11,6 Millionen Dollar betrug, prognostizieren die Marktforscher für 2007 einen Umsatz von knapp 40 Milliarden Dollar. Datacomm Research schätzt, dass im Jahre 2006 bereits mehr als zwei Milliarden Voice Portal User diese Form der Kommunikation zwischen Mensch und Maschine nutzen werden.

Sich Internetinhalte am Telefon vorlesen zu lassen ist nicht neu. Schon eine ganze Weile können Kunden von E-Mail- und Unified-Messaging-Diensten Mails am Telefon anhören. Dabei werden die Texte in eine wav-Datei umgewandelt und über entsprechende Server bei Anruf des Kunden abgespielt. Beispielsweise offerieren Excite (http://anruf.excite.de/de/ueber.htm) und Web.de (www.freemail.de) im Rahmen ihres E-Mail-Service einen solchen Voicemail-Dienst sowie die Unified Messages Services 3Box (www.3box.de), Direktbox (www.direktbox.com) und Smartvia (www.smartvia.de).

Doch E-Mail ist nur ein Bruchstück der Internet-Kommunikation. Der Boom kommt erst dann , wenn auch Webinhalte problemlos am Telefon abgehört und bedient werden können. Die dahinter stehende Technik ist anders, der Ablauf ähnlich wie beim Abhören von Mails: Nach Anwahl einer Servicenummer kann per Spracheingabe durch entsprechend aufbereitete Web-Informationsangebote gesurft und die Inhalte abgehört werden. Anders als bei den bekannten WAP-Diensten für Handys sind Voice-basierte Webinhalte von jedem handelsüblichen Telefon aus nutzbar und auch nicht auf bestimmte Netze beschränkt.

Kernstück des sprachgestützten Webs sind so genannte Speech- oder Voice-Browser, die den gewohnten Web-Browser ersetzen und Internetseiten auf Basis des http-Protokolls in Sprache umsetzen. Voice-Browser sind auf dem Server eines Providers installiert, der Benutzer kann über sie per Stimme navigieren und sich die Informationen mittels Sprachausgabe vorlesen lassen. Der Voice-Browser führt den Anrufer anhand bestimmter Schlüsselbegriffe zu den gesuchten Textinhalten im Web. Diese werden wiederum vom Stimm-Browser in gesprochene Worte umgewandelt und dem Anrufer akustisch präsentiert.

VoiceXML - der Standard

Grundlage für die sprachgesteuerte Internetnutzung ist VoiceXML, ein XML-Dialekt, der im Mai letzten Jahres in der Version 1.0 vom World Wide Web Consortiums (W3C) als Standard verabschiedet wurde. Er stellt Entwicklern, Service Providern und Geräteherstellern eine Programmierschnittstelle zu Sprach- und Telefonie-Ressourcen zur Verfügung. Die Spezifikation basiert auf jahrelanger Forschung bei AT&T, IBM, Lucent Technologies und Motorola. Die an der Entwicklung beteiligten Unternehmen haben sich im VoiceXML-Forum zusammengeschlossen (http://www.voicexml.org), das inzwischen auf 460 Mitglieder angewachsen ist.

chige Websites via Telefon zugegriffen werden.

Folgende Aufgabengebiete deckt VoiceXML ab:

- Synthetische Sprachausgabe (Text to Speech),

- Ausgabe von Audiodateien,

- Spracherkennung,

- Erkennung von Tonwahl-Impulsen,

- Aufnahme von gesprochenen Benutzereingaben und

- Telefondienste wie Anrufweiterleitung und Verbindungsabbruch

Der Grundgedanke der Voice- XML-Philosophie ist, alle Vorzüge von traditioneller Webentwicklung und inhaltlicher Zulieferung auf Voice-Response-Anwendungen zu übertragen und dabei Autoren von Low-Level-Programmierung zu befreien. Für eine funktionierende sprachgesteuerte Web-Applikation ist ein VoiceXML-Interpreter erforderlich, der den Code ausführt. Dieser steht zusammen mit den notwendigen Systemen zur Sprachein- und -ausgabe auf dem Voice XML-Server (Gateway) zur Verfügung, der zwischen Telefonnetz und Internet steht.

Der Interpreter führt interaktive Dialoge aus, die von einem Voice-XML-Dokument beschrieben werden. Die Dialogführung ist mit dem Handhaben von Formularen in Webseiten (HTML und CGI) vergleichbar: Statt die Felder per Tastatur wie in HTML auszufüllen, wird ein Dialog mit dem Benutzer geführt. Die Ausgaben des Systems und die möglichen Benutzereingaben sind in VoiceXML festgelegt. Zur genauen Spezifikation der möglichen gesprochenen Benutzereingaben wird das Java Speech Grammar Format (JSFG) verwendet. Nachdem der Benutzer alle Eingaben gemacht hat, werden diese an einen Server geschickt, der ein VoiceXML-Dokument zurückliefert, das den nächsten Dialogschritt spezifiziert.

Die Dialoge werden von Dokument-Servern zur Verfügung gestellt, die außerhalb der Implementierungsplattform liegen können. Der Dokument-Server kann auch mit einem anderen VoiceXML-Dokument antworten, um die Nutzer-Session mit einem anderen Dialog fortzusetzen (siehe Beispiele im Kasten).

Wolfgang Karbstein, Manager des Geschäftssegmentes Spracherkennung bei IBM Deutschland, ist überzeugt, dass VoiceXML den mobilen E-Commerce belebt: "Voice-XML wird dazu beitragen, dass sich Telefone zu intelligenten Internet-/Intranet-Clients entwickeln und damit den PC als jederzeit verfügbares mobiles Zugangsmedium ergänzen."

Entsprechend engagiert zeigt sich der Großkonzern in diesem Marktsegment. Mit der Spracherkennungssoftware "Via Voice" hat IBM die technische Basis für seine Voice-Produkte gelegt und ermöglicht den Zugriff auf Webseiten über einen Speech-Browser (http://www-4.ibm.com/software/speech/de/). Dazu ist der IBM "WebSphere Voice Server" mit Via-Voice-Technik nötig. Die auf VoiceXML beruhende Software soll Unternehmen dabei unterstützen, ihre Investitionen in Web- und Call-Center-Techniken zu schützen. Das Unternehmen bietet damit eine der ersten kompletten Plattformen an, die E-Business auch für das mobile Internet per Sprache zugänglich machen.

Auf der CeBIT demonstrierten IBM und Intrix ein Messe-Informations- und Organizer-System, auf das Besucher gleichermaßen über Sprache, Web-Browser, WAP oder SMS zugreifen konnten. Eine Text-to-Speech-Komponente wandelte dabei den auf einem Server ruhenden VoiceXML-Content in Sprache um. Die Sprachein- und -ausgabe war dabei eine Ergänzung zum visuellen Browser und stellte lediglich eine andere Präsentationsform dar. Die zugrunde liegende Business-Logik war für alle Zugriffsmöglichkeiten gleich.

Noch sind die Angebote der Dienste rar. Im März hat Motorola sein Portal "Mya Voice" angekündigt (http://www.motorola.com/MIMS/ISG/voice/home/default.htm). Damit sollen Interessenten in verschiedenen Sprachen auf stimmbasierte Web-Sites zugreifen können. In Deutschland haben Mannesmann Arcor und die Cyberlab GmbH, eine Tochter der Hubert Burda Media, ihren sprachgestützten Internetdienst "Talkingweb" eingeführt (www.talkingweb.de). Mit dem bundesweit verfügbaren Voice-Service kann prinzipiell jede Web-Site aufgerufen werden, allerdings mit zwei Einschränkungen: Sie muss dem HTML-4-Standard genügen und in Deutsch abgefasst sein, denn das Sprachsynthesesystem kann derzeit nur deutschsprachige Seiten bearbeiten.

Abrufen lassen sich die Web-Sites über eine 0180-Nummer (24 Pfennig pro Minute). Registrierte Nutzer werden am Telefon begrüßt und aufgefordert die gewünschte Rubrik zu nennen, die sie hören wollen, wie beispielsweise Nachrichten. Die Stimme sagt, was zu tun ist, um an die Informationen zu gelangen. Mit Sprachbefehlen wie "Browser zurück" oder "Browser stopp" lässt sich navigieren. Auch E-Mails können von jedem beliebigen POP3-Postfach per Stimme abgerufen werden. (sf)

Zur Person

Klaus Manhart

ist freier Journalist in München. Seine Schwerpunkte sind unter anderem mobile Kommunikation und E-Business.