Zwischen den Welten

30.06.2000
Sprache über IP-Netze steckt noch in den Kinderschuhen. Die Definition ist schwierig: Eine reine IP-Lösung existiert nicht, weil das Netzwerkprotokoll IP entweder auf LAN- oder WAN-Protokolle wie Ethernet, Frame Relay oder ATM aufsetzt. Welche Möglichkeiten bestehen für die Telefonie über das LAN?

Von: Gerhard Kafka

Lange Zeit wurden Daten über die existierenden Sprachnetze transportiert. Mit der explosionsartigen Zunahme des Datenverkehrs insbesondere über das Internet lässt sich dieses Informationsvolumen heute nicht mehr wirtschaftlich über das Telefonnetz übertragen. Und weil die Datenkommunikation heute bereits mehr Kapazität beansprucht als die Sprachkommunikation, liegt der Gedanke nahe, künftig die Sprache ebenfalls über die immer leistungsfähigeren Datennetze zu übertragen. Denn schon innerhalb der nächsten fünf bis zehn Jahre wird das Datenvolumen bis zu 90 Prozent der Netze belegen und nur mehr die restlichen zehn Prozent für die Sprache benötigt werden. Als Transportplattform für die Datenkommunikation hat sich der Markt eindeutig für die IP-Technologie entschieden.

Die Herausforderung besteht da-rin, den leitungsvermittelten und verbindungsorientierten Sprachdienst mit der gewohnten Qualität und den vertrauten Leistungsmerkmalen über paketvermittelte IP-Netze bereitzustellen. Insbesondere deshalb, weil das IP-Transportprotokoll verbindungslos arbeitet. Ferner sind für die kommerzielle Telefonie über IP die vertrauten Leistungsmerkmale bereitzustellen. Schließlich muss noch dafür gesorgt werden, dass ein problemloser Übergang für die Sprachkommunikation aus dem IP-Netz in das öffentliche Fernsprechnetz möglich ist. Keine leichten Aufgaben, insbesondere, weil IP selbst keine Signalisierungsmechanismen bereitstellt. Dennoch besteht Anlass zur Hoffnung, weil sich die für die Standardisierung in der Telekommunikation zuständigen Gremien ETSI und ITU schon seit geraumer Zeit mit der Harmonisierung von Internet und Sprachnetzen intensiv beschäftigen.

Besondere Eigenschaften der Sprache

Sprache ist eine interaktive Form der Kommunikation, die in Echtzeit stattfindet. Die herkömmliche Telefonie nutzt leitungsvermittelte Netzwerke, bei welchen die beiden Teilnehmer quasi physikalisch miteinander verbunden sind und dadurch eine hohe Qualität erreicht wird. Der Transport von Sprache über paketvermittelte Netze wie X.25, Frame Relay, ATM oder IP erfordert die Lösung einiger technischer Probleme, weil hier die Endgeräte nur mehr auf logischer Ebene miteinander verbunden sind und die dazwischen liegenden Übertragungswege mehrfach genutzt werden. Für eine hohe Qualität der Sprache sind insbesondere die folgenden Parameter verantwortlich: geringe Laufzeit von Endgerät zu Endgerät in Verbindung mit dem störenden Echo, die Signalisierung zur Steuerung der Sprachkommunikation und die Synchronisierung der beiden angeschlossenen Terminals.

Für die Laufzeit gibt es zwei Grenzwerte, die für die Praxis besonders bedeutsam sind: 30 und 150 Millisekunden. Der erste Grenzwert basiert auf der Tatsache, dass Telefonendgeräte vierdrähtig an das Telefonnetz angeschlossen sind. Innerhalb des Weitverkehrsnetzes werden jedoch nur zwei Drähte für eine Gesprächsverbindung benutzt. Die Anpassung von zwei auf vier Drähte erfolgt an beiden Enden des Netzwerks mit Hilfe einer Gabelschaltung, die auch Hybrid genannt wird. An diesem Hybrid werden die Sprachsignale reflektiert, so dass ein selbst ins Mikrofon gesprochene Wort nach einiger Zeit auch im eigenen Hörer vernommen wird. Ab einer Laufzeit von 30 Millisekunden wirkt sich dieses Echo störend auf die Konversation aus und muss deshalb mit komplexen Echokompensierern unterdrückt werden. Das funktioniert recht gut bis zu einer Laufzeit von 150 Millisekunden , ab der sich eine Konversation schwierig gestalten kann, insbesondere, wenn beide Teilnehmer versuchen, gleichzeitig zu sprechen. Für das klassische Telefonnetz wurden deshalb die Ende-zu-Ende Laufzeiten im nationalen Bereich mit 25 Millisekunden und im internationalen Bereich mit 100 Millisekunden festgelegt.

Dazu kommen noch die durch ein IP-Netz bedingten Verzögerungen für das Sprachsignal in den folgenden drei Bereichen: Paketierung im Sender, Speicherung im Netzwerk und Decodierung im Empfänger. So erklärt sich (siehe oben), dass die Ende-zu-Ende-Verzögerungen zwischen 140 und 1720 Millisekunden liegen können.

Die Verzögerungen im Sender sind abhängig von dem verwendeten Codierverfahren für die Sprache. Neben der klassischen PCM-Codierung nach dem ITU-Standard G.711 mit 64 kBit/s werden heute in der Regel unterschiedliche Kompressionsverfahren eingesetzt, die je nach Algorithmus Datenraten zwischen 5,3 und 32 kBit/s liefern. Das "Einpacken" der Sprachmuster in IP-Pakete erfolgt in einem Zwischenspeicher, der typisch 20 Oktetts zu einem Paket zusammenfasst. Um die Laufzeiten innerhalb des Netzes gering zu halten, wird für Ethernet LANs unbedingt empfohlen, Switches und Priorisierung von Datenströmen einzusetzen. Diese Geräte sollen zudem nach dem "Cut-through"-Verfahren arbeiten; das häufig verwendete "Store-and-forward"-Verfahren ist ungeeignet. Auf der Empfangsseite lässt sich die Verzögerungszeit des Synchronisierungsspeichers etwa mit geeigneten Messgeräten optimieren, welche die Laufzeitunterschiede der einzelnen Pakete erfassen können.

Wichtig für die hohe Qualität ist schließlich die effiziente Übertragung von Steuer- und Signalisierungsinformationen. Diese werden bei ISDN in einem separaten Steuerkanal übertragen. Werden die Gespräche am anderen Ende jedoch nicht am gleichen Ort terminiert, so hilft es leider nicht, die Steuerkanalsignale ebenfalls zu paketieren und von dem einen Endpunkt zum anderen zu transportieren. Dazu wird vielmehr ein geeignetes Signalisierungsprotokoll benötigt, wie es beispielsweise der ITU-Standard für Videokonferenzen im LAN H.323 bereitstellt. Da dieses Protokoll jedoch nur für die Durchführung von Videokonferenzen entwickelt wurde, fehlen die spezifischen Verfahren für die Telefonie. Diese sollen künftig mit SIP (Session Initiation Protocol), einem Vorschlag für die Signalisierung von IETF, besser bedient werden können.

Sprache über IP

Mit der Verabschiedung des H.323-Standards im Jahre 1996 wurde gleichzeitig die Basis für die Sprachkommunikation über IP-Netze geschaffen. Allerdings ist diese Norm nur als Rahmenstandard für die multimediale Kommunikation zu sehen, unter welchem eine Reihe von neuen allgemein einsetzbaren und spezifischen Protokollen harmonisch zusammenarbeiten. Aus nachfolgendem Bild sind die grundsätzlichen Zusammenhänge ersichtlich.

Betrachten wir die Sprache im LAN als Verfahren einmal genauer, wird sofort erkennbar, dass die Konvergenz mit dem Datennetz nur mit einem riesigen Overhead zu realisieren ist. Die reine Sprachinformation von 20 Oktetts wird um weitere 64 Oktetts aufgebläht:

-2 Oktetts für die Kennzeichnung von Beginn und Ende des Ethernet-Rahmens

-14 Oktetts Ethernet-Header

-20 Oktetts IP-Header

-8 Oktetts UDP-Header

-16 Oktetts RTP-Header (RTP = Real Time Transport Protocol). Dieses versieht die Sprachpakete mit einer fortlaufenden Sequenznummer, wodurch der Verlust einzelner Pakete erkannt wird. Ferner fügt RTP einen Zeitstempel hinzu, der es ermöglicht, dass Sprachpakete, die zu lange im Netz unterwegs waren, beim Empfänger unterdrückt werden)

-4 Oktetts Ethernet-Rahmensicherung (FCS)

Für den beschriebenen Fall besteht ein Sprachpaket somit zu über 76 Prozent aus Overhead, nur 24 Prozent stellen die "Nutzlast" dar. Wird die Sprache zur Übertragung nicht komprimiert, dann werden für einen 64-kBit/s-Datenstrom bis zu 270 kBit/s Bandbreite benötigt. Dieses krasse Missverhältnis lässt sich durch eine Komprimierung um den Faktor 4 beheben. Außerdem kann die Länge der Sprachinformation in Abhängigkeit von der Netzwerkqualität auf Werte zwischen 100 und 200 Oktetts erhöht werden, wodurch sich auch der Wirkungsgrad verbessert.

Die für das Telefonieren im LAN erforderlichen Netzwerkkomponenten sind im obenstehenden Bild zusammengestellt. Das Gateway wird nur benötigt, um die Kommunikation aus dem LAN in das herkömmliche Fernsprechnetz zu bewerkstelligen beziehungsweise um unterschiedliche Telekommunikationssysteme miteinander zu verbinden. Die beiden Hauptaufgaben des Gateways bestehen in der Konvertierung von Signalisierungsinformationen sowie die Übersetzung der Medieninformationen. Auch die MCU (Multipoint Control Unit) ist nur dann erforderlich, wenn mehr als ein Teilnehmer mit Informationen versorgt werden soll. Ein typisches Beispiel dafür sind Konferenzschaltungen, die über eine zentrale oder dezentral positionierte MCU gesteuert werden.

Als H.323-Terminal kommen verschiedene Endgeräte zum Einsatz: gruppenfähige Video- oder Audiosysteme, PC- oder Videotelefone, dedizierte LAN-Telefone und Set-top-Boxen mit Videotelefon. Die wichtigste Komponente ist der Gatekeeper, eine für die LAN-Telefonie unbedingt erforderliche Software für das Management von so genannten Zonen und Rufdiensten.

Erst der Gatekeeper bringt H.323 praktisch zum Laufen. Er stellt drei grundsätzliche sowie fünf optionale Funktionen bereit. Die drei grundsätzlichen Funktionen umfassen:

-die Übersetzung von Adressen: IP-Adresse in Telefonnummer und umgekehrt,

-die Zugangssteuerung unter Berücksichtigung der momentanen Netzauslastung (Erlang),

-die effiziente Verwaltung der verfügbaren Bandbreite im LAN.

Die fünf optionalen Funktionen ermöglichen darüber hinaus:

-die Autorisierung der Verbindungen durch Definition von Regeln für den Verbindungsaufbau,

-Bandbreitenmanagement,

-die Realisierung von spezifischen Leistungsmerkmalen durch zusätzliche Dienste,

-die Bereitstellung von Verzeichnisdiensten,

-Besondere Dienste für das Call Management.

Eine IP-basierte TK-Anlage muss demnach die Funktionen eines Gatekeepers erfüllen. Dafür existieren heute ausschließlich herstellerspezifische Implementierungen, weil durch H.323 zahlreiche Funktionen noch nicht definiert sind. Dazu zählen beispielsweise die Kommunikation von Gatekeeper zu Gatekeeper und zwischen Gatekeeper und Gateway. Die heute verfügbaren IP-Telefonanlagen sind für Teilnehmerzahlen zwischen 100 und 200 konzipiert. Das schließt derzeit einen Einsatz in größerem Umfang aus.

Hersteller sind optimistisch

Unbeirrt von der technischen Komplexität von Voice-over-IP, den nicht vollständig definierten Standards, den hohen Terminalpreisen (ein LAN-Telefon kostet rund 1000 Mark) und den eingeschränkten Teilnehmerzahlen preisen die Hersteller VoIP als Zukunftslösung an. Die bisherigen Markterfolge nehmen sich jedoch sehr bescheiden aus: Bisher hat sich noch kaum ein Anwender dafür entschieden, seine vertrauten TK-Anlagen durch eine reine IP-Lösung zu ersetzen. Die Empfehlung kann deshalb heute nur lauten: IP-Telefonie ja - aber man sollte sie zunächst in einem geschlossenen Bereich erproben, wo an die Verfügbarkeit und Qualität keine allzu großen Ansprüche gestellt werden.

Die Hersteller dieser Anlagen setzen unbeirrt darauf, dass VoIP auch im innerbetrieblichen Einsatz ein kommerzieller Erfolg wird, und investieren in großem Stil in Entwicklung, Herstellung und Vermarktung entsprechender Anlagen. So hat die 3Com Corporation erst kürzlich zehn Millionen Dollar für den Ausbau ihres Forschungs- und Entwicklungs-Zentrums im schottischen Edinburgh ausgegeben. Das neue "European Voice Integration Design Centre" ist für die Entwicklung von 3Coms VoIP-Kommunikationssystem "NBX 100" und die entsprechenden mehrsprachigen europäischen Versionen des Business-Telefonie-Systems der nächsten Generation zuständig.

Cisco bietet mit dem "Callmanager" eine zentrale Komponente für die integrierte Telefonielösung an, mit welcher sich Router der 2600-Familie um die Sprachfunktionalität erweitern lassen. Außerdem hat der Hersteller unter dem Namen "AVVID" (Architecture for Voice, Video and Integrated Data) eine umfassende Architektur für die Sprach-/ Datenkonvergenz definiert.

Alcatel hat das Sprachsystem "Omnioffice" für kleine und mittelständische Anwenderbetriebe auf den Markt gebracht. Dieses unterstützt die Konvergenz von Sprache und Daten. Omnioffice ist Bestandteil der neu eingeführten Sprach-, Daten- und Anwendungspakete "Omnisolutions for Enterprise". Es basiert auf der Nebenstellenanlage "Alcatel Office PBX" und wird jetzt um die Call-Center- und zwei IP-Telefonie-Funktionen erweitert: "Reflexes" und "IP Link VoIP". Mit "Omni PCX 4400" steht Geschäftskunden eine IP-gestützte Sprachkommunikationsplattform zur Verfügung, mit der sich bestehende Systeme stufenlos erweitern lassen.

Siemens bündelt die Multimedia-Kommunikationslösungen für Endkunden in dem IP-Kommunikationssystem "Hinet". Mit der neuen Version 2.1 ist die Hinet-Kommunikationsplattform erstmals mit offenen Programmierschnittstellen ausgestattet, die in weiteren Entwicklungsschritten zur Offenlegung von Schnittstellen wie TAPI, JTAPI und CSTA führt. Die Hinet RC 3000 bietet neben der nahtlosen Integration in Datennetze bereits wesentliche Sprachleistungsmerkmale, wie sie aus der vertrauten Telefonwelt bekannt sind. Siemens setzt auf die H.323-Technik des israelischen Herstellers Radvision und hat im Rahmen dieser strategischen Allianz auch 1,6 Millionen Radvision-Aktien erworben. Die Aussichten für eine kurzfristige Konvergenzlösung basierend auf internationalen Standards stehen gut. Die mit H.323 begonnene Integration von Sprache in IP-Netze wird nämlich jetzt durch eine massive Unterstützung der Standardisierungsgremien ETSI und ITU-T zügig vorangetrieben. Ziel ist die Harmonisierung von H.323 und SIP. Im Rahmen des ETSI Projektes "Tiphon" (Telecommunications and Internet Protocol Harmonization over Networks) wurden jetzt gemeinsam mit der IMTC (International Multimedia Teleconferencing Association) die Aktivitäten "Inow" (Interoperability Now) und "Ahit" (Applications on Harmonized Interoperable IP Telephony) gestartet. Anfang Juni haben in Rolling Meadows bei Chicago 36 führende Hard- und Softwarehersteller die Interoperabilität ihrer SIP-Produkte und Lösungen getestet. Zum ersten Mal kam dabei ein komplett auf diesem Verfahren basierendes Telefonsystem zum Einsatz. Mit dem neuen ITU-T Standard G.799.1 entsteht ein VoIP-Gateway zur nahtlosen Verbindung von IP-Netzen und dem öffentlichen Telefonnetz. Die ITU-T-Norm SIP/H.323 Interworking Initiative wird von Radvision geleitet.

ETSI und ITU haben erst vor kurzem eine noch intensivere Zusammenarbeit bei der Standardisierung von Kommunikationsanwendungen bekannt gegeben. Es steht zu erwarten, dass daraus eine Vereinheitlichung der Leistungsmerkmale für IP-Anlagen und klassische Nebenstellenanlagen folgen wird. (ch)

Zur Person

Gerhard Kafka

arbeitet als freier Journalist und Berater für Telekommunikation in Egling bei München.