Surfen per Stimme

VoiceXML - der Standard

Grundlage für die sprachgesteuerte Internetnutzung ist VoiceXML, ein XML-Dialekt, der im Mai letzten Jahres in der Version 1.0 vom World Wide Web Consortiums (W3C) als Standard verabschiedet wurde. Er stellt Entwicklern, Service Providern und Geräteherstellern eine Programmierschnittstelle zu Sprach- und Telefonie-Ressourcen zur Verfügung. Die Spezifikation basiert auf jahrelanger Forschung bei AT&T, IBM, Lucent Technologies und Motorola. Die an der Entwicklung beteiligten Unternehmen haben sich im VoiceXML-Forum zusammengeschlossen (http://www.voicexml.org), das inzwischen auf 460 Mitglieder angewachsen ist.

chige Websites via Telefon zugegriffen werden.

Folgende Aufgabengebiete deckt VoiceXML ab:

- Synthetische Sprachausgabe (Text to Speech),

- Ausgabe von Audiodateien,

- Spracherkennung,

- Erkennung von Tonwahl-Impulsen,

- Aufnahme von gesprochenen Benutzereingaben und

- Telefondienste wie Anrufweiterleitung und Verbindungsabbruch

Der Grundgedanke der Voice- XML-Philosophie ist, alle Vorzüge von traditioneller Webentwicklung und inhaltlicher Zulieferung auf Voice-Response-Anwendungen zu übertragen und dabei Autoren von Low-Level-Programmierung zu befreien. Für eine funktionierende sprachgesteuerte Web-Applikation ist ein VoiceXML-Interpreter erforderlich, der den Code ausführt. Dieser steht zusammen mit den notwendigen Systemen zur Sprachein- und -ausgabe auf dem Voice XML-Server (Gateway) zur Verfügung, der zwischen Telefonnetz und Internet steht.

Der Interpreter führt interaktive Dialoge aus, die von einem Voice-XML-Dokument beschrieben werden. Die Dialogführung ist mit dem Handhaben von Formularen in Webseiten (HTML und CGI) vergleichbar: Statt die Felder per Tastatur wie in HTML auszufüllen, wird ein Dialog mit dem Benutzer geführt. Die Ausgaben des Systems und die möglichen Benutzereingaben sind in VoiceXML festgelegt. Zur genauen Spezifikation der möglichen gesprochenen Benutzereingaben wird das Java Speech Grammar Format (JSFG) verwendet. Nachdem der Benutzer alle Eingaben gemacht hat, werden diese an einen Server geschickt, der ein VoiceXML-Dokument zurückliefert, das den nächsten Dialogschritt spezifiziert.

Die Dialoge werden von Dokument-Servern zur Verfügung gestellt, die außerhalb der Implementierungsplattform liegen können. Der Dokument-Server kann auch mit einem anderen VoiceXML-Dokument antworten, um die Nutzer-Session mit einem anderen Dialog fortzusetzen (siehe Beispiele im Kasten).

Wolfgang Karbstein, Manager des Geschäftssegmentes Spracherkennung bei IBM Deutschland, ist überzeugt, dass VoiceXML den mobilen E-Commerce belebt: "Voice-XML wird dazu beitragen, dass sich Telefone zu intelligenten Internet-/Intranet-Clients entwickeln und damit den PC als jederzeit verfügbares mobiles Zugangsmedium ergänzen."

Entsprechend engagiert zeigt sich der Großkonzern in diesem Marktsegment. Mit der Spracherkennungssoftware "Via Voice" hat IBM die technische Basis für seine Voice-Produkte gelegt und ermöglicht den Zugriff auf Webseiten über einen Speech-Browser (http://www-4.ibm.com/software/speech/de/). Dazu ist der IBM "WebSphere Voice Server" mit Via-Voice-Technik nötig. Die auf VoiceXML beruhende Software soll Unternehmen dabei unterstützen, ihre Investitionen in Web- und Call-Center-Techniken zu schützen. Das Unternehmen bietet damit eine der ersten kompletten Plattformen an, die E-Business auch für das mobile Internet per Sprache zugänglich machen.

Auf der CeBIT demonstrierten IBM und Intrix ein Messe-Informations- und Organizer-System, auf das Besucher gleichermaßen über Sprache, Web-Browser, WAP oder SMS zugreifen konnten. Eine Text-to-Speech-Komponente wandelte dabei den auf einem Server ruhenden VoiceXML-Content in Sprache um. Die Sprachein- und -ausgabe war dabei eine Ergänzung zum visuellen Browser und stellte lediglich eine andere Präsentationsform dar. Die zugrunde liegende Business-Logik war für alle Zugriffsmöglichkeiten gleich.

Noch sind die Angebote der Dienste rar. Im März hat Motorola sein Portal "Mya Voice" angekündigt (http://www.motorola.com/MIMS/ISG/voice/home/default.htm). Damit sollen Interessenten in verschiedenen Sprachen auf stimmbasierte Web-Sites zugreifen können. In Deutschland haben Mannesmann Arcor und die Cyberlab GmbH, eine Tochter der Hubert Burda Media, ihren sprachgestützten Internetdienst "Talkingweb" eingeführt (www.talkingweb.de). Mit dem bundesweit verfügbaren Voice-Service kann prinzipiell jede Web-Site aufgerufen werden, allerdings mit zwei Einschränkungen: Sie muss dem HTML-4-Standard genügen und in Deutsch abgefasst sein, denn das Sprachsynthesesystem kann derzeit nur deutschsprachige Seiten bearbeiten.

Abrufen lassen sich die Web-Sites über eine 0180-Nummer (24 Pfennig pro Minute). Registrierte Nutzer werden am Telefon begrüßt und aufgefordert die gewünschte Rubrik zu nennen, die sie hören wollen, wie beispielsweise Nachrichten. Die Stimme sagt, was zu tun ist, um an die Informationen zu gelangen. Mit Sprachbefehlen wie "Browser zurück" oder "Browser stopp" lässt sich navigieren. Auch E-Mails können von jedem beliebigen POP3-Postfach per Stimme abgerufen werden. (sf)

Zur Person

Klaus Manhart

ist freier Journalist in München. Seine Schwerpunkte sind unter anderem mobile Kommunikation und E-Business.