Grundlagen VoIP

Voice over IP (Teil 1)

01.08.2002 von Prof. Dr. Axel Sikora
Die IP-Telefonie muss sich an ihrer Vorgängertechnologie messen lassen, die über hundert Jahre kontinuierlich weiter entwickelt wurde. Im ersten Teil unseres Background-Artikels beschreiben wir die entsprechenden Rahmenbedingungen.

In heutigen Netzen verwendet man zwei grundlegend unterschiedliche Vermittlungsarten: die Leitungs- und die Paketvermittlung. Bislang kommt die Leitungsvermittlung fast ausschließlich bei der Telefonie zum Einsatz, die Paketvermittlung dagegen in Datennetzen. Diese Zweiteilung ist historisch begründet und im heutigen Netzwerkbetrieb kaum noch gerechtfertigt.

Bei der zunehmenden Nutzung von WANs - also dem Einsatz von Sprachnetzen zur Datenübertragung - hat sich herausgestellt, dass leitungsvermittelnde Netze für typische Datenanwendungen nicht flexibel genug sind. So tritt Datenverkehr meist gebündelt auf: Zeitabschnitte mit hohen Transferraten wechseln mit langen Perioden, in denen keine Daten übertragen werden. Der Nutzanteil beansprucht beim Datenverkehr im Gegensatz zur Telefonie nur wenige Prozent oder Promille der Verbindungszeit.

Die Always-on-Connectivity, wie insbesondere Serveranwendungen sie erfordern, wird bei Leitungsvermittlung mit einer entsprechend schlechten Auslastung der Verbindung erkauft. Zudem schränkt die statische Architektur leitungsvermittelter Netze die Möglichkeit, Mehrwertdienste bereitzustellen, deutlich ein.

Dieser Beitrag führt in die Grundlagen von VoIP ein. Mehr zur technischen Umsetzung und den benutzten Protokollen lesen Sie im Beitrag Voice over IP (Teil 2).

Sprache über Datennetze

Die geschilderten Nachteile ließen recht schnell die Idee aufkommen, den gemeinsamen Transport von Sprache und Daten über paketvermittelnde Netze abzuwickeln. Die dabei eingesetzten Technologien wollen wir im Folgenden genauer unter die Lupe nehmen.

Der Schwerpunkt liegt dabei auf den Verfahren zur Echtzeitübertragung von Sprache über IP-basierte Netze, dem so genannten Voice over IP (VoIP). Als Synonym für diese Technik hat sich inzwischen auch der Begriff IP-Telefonie etabliert. Diese Bezeichnung subsummiert sowohl die firmeninternen Anwendungen (Enterprise-Telefonie) als auch die IP-Telefonie im öffentlichen Internet (Internet-Telefonie).

Dabei darf man jedoch nicht außer Acht lassen, dass VoIP nur als Teil einer Gesamtentwicklung von getrennten Daten- und Telefonie-Netzen hin zu einer einheitlichen Netzstruktur verstanden werden kann. Das Zusammenfließen der Netztechnologien für den Transport von Sprache, Multimedia-Strömen und Daten umschreibt man mit dem Ausdruck "converging networks" oder kurz Konvergenz.

Druck auf die Carrier

Mehrere Entwicklungen haben in den letzten Jahren den Druck auf die Telekommunikationsanbieter erhöht, verstärkt VoIP-Architekturen einzusetzen:

Leitungsvermittelnde Telekommunikationsnetze

In den öffentlichen Telefonnetzen - neuhochdeutsch: Public Switched Telephone Networks (PSTN) - kommt seit mehr als hundert Jahren die klassische Sprachtelephonie zum Einsatz. Sie basiert auf der so genannten Leitungsvermittlung.

Von Anfang an waren dabei für ein Telefongespräch zwischen zwei Kommunikationspartnern Kupferkabel exklusiv für diese Verbindung zu reservieren. Dies ist prinzipiell auch heute noch der Fall, und zwar zwischen der Telefon-Anschluss-Einheit (TAE) im Gebäude und der Ortsvermittlungsstelle (OVSt, heute auch als Vermittlungs-Switch, bzw. Class-5-Switch bezeichnet). Diesen Abschnitt des Telekommunikationsnetzes bezeichnet man auch als Local Loop.

Hinter der Ortsvermittlungsstelle befindet sich statt menschlichen Vermittlungspersonals mittlerweile ein hierarchisches Netzwerk. Es dient zur Bündelung der jeweiligen Gespräche auf höheren Geschwindigkeitsstufen mittels Frequenz- oder Zeitmultiplexing. Nach wie vor besitzt aber jeder Kanal eine bestimmte reservierte Bandbreite zwischen den beiden Kommunikationspartnern (Ende-zu-Ende). So genannte Tandem- oder Class-4-Switches koppeln dabei die Bündelleitungen (Trunks) miteinander.

Analoge Telefonie

Die Sprachübertragung erfolgte ursprünglich analog, also mittels zeit- und wertekontinuierlicher Signale. Beim Analoganschluss im Rahmen des so genannten Plain Old Telephone System (POTS) ist das zwischen TAE und OVSt nach wie vor der Fall. Im Zuge der Digitalisierung der Netze findet jedoch in den OVSt inzwischen eine Analog-Digital-Umsetzung statt, so dass im Carrier-Netz selbst nur digitale Signale transportiert werden.

Neben den eigentlichen Nutzsignalen sind zusätzlich noch Steuerungsinformationen zu übertragen. Dazu zählen insbesondere die Zustände "frei" und "besetzt" sowie die gewählte Rufnummer. In analogen Telefonnetzen laufen die entsprechenden Signale hörbar ("In-Band") über die normale Leitung. So überträgt das Dual-Tone-Multi-Frequency-Verfahren (DTMF) mittels zweier Frequenzen vor und während eines Gesprächs die Wahlnummernfolge sowie weitere Informationen.

Digitale Telefonie (ISDN)

Die Einführung eines digitalen Netzwerks zur Erbringung integrierter Dienste (Integrated Services Digital Network - ISDN) brachte drei wesentliche Neuerungen mit sich:

ISDN-Signalisierung

Die Benutzer-/Netzwerk-Schnittstelle des ISDN folgt mit den Layer-2- (L2) und Layer-3-Spezifikationen (L3) dem so genannten Digital Subscriber Signaling System 1 (DSSS1).

Das L2-Protokoll für ISDN entspricht dabei den ITU-T-Empfehlungen Q.920 und 921. Es ermöglicht die zuverlässige Übertragung von Frames zwischen lokalem Switch und dem Endgerät (Terminal Equipment - TE). Daher wird es oft auch als Link-Access-Prozeduren auf dem D-Kanal (LAPD) bezeichnet.

Das L3-Protokoll für ISDN folgt den ITU T Recommendations Q.930 sowie 931. Es liefert die Mechanismen für Gesprächsaufbau, Verbindungskontrolle sowie Dienstezugang und definiert insbesondere die Meldungen, die der lokale Switch und das TE austauschen.

Q.931-Meldungen

Die wesentlichsten Q.931-Meldungen zeigt die Tabelle unten. Man unterscheidet dabei zwischen Meldungen, die der Benutzer ans Netzwerk sendet, und den Meldungen, die vom Netzwerk an den Benutzer geschickt werden. Je nach Typ sind bestimmte Informationselemente unbedingt erforderlich (M - Mandatory) oder optional (O).

Meldungstypen nach Q.931

Kürzel

Bedeutung

Wert

Aufbau

SETUP

setup

0000 0101

Aufbau bestätigen

SETACK

setup acknowledge

0000 1101

Anruf weiterführen

CALPRC

proceed call

0000 0010

Progress

PROG

progress

0000 1111

Alarm

ALERT

alert

0000 0011

Verbindung

CONN

connection

0000 0101

Verbindung bestätigen

CONACK

connection acknowledge

0000 0111

Trennung

DISC

disconnect

0100 0101

Freigabe

RLSE

release

0100 1101

Freigabe abgeschlossen

RLCOM

release completed

0101 1010

Information

INFO

information

0111 1011

Ablauf einer ISDN-Verbindung

Die unten stehende Abbildung zeigt einen einfachen ISDN-Anruf unter Verwendung eines lokalen ISDN-Switches.

Signalisierungssystem 7 (SS7)

Die ISDN-Signalisierung ist kompatibel zum paketorientierten Signalisierungssystem 7 (SS7) des eigentlichen Transportnetzes.

Das in Europa auch als C7 bezeichnete SS7 übernimmt im PSTN die Übernahme der Anrufeinrichtung, den Austausch von Steuerinformationen, das Routing, die Gebührenberechnung, die Realisierung von Mehrwertdiensten (Custom Local Area Signaling Services - CLASS) und die Ankopplung an Intelligente Netze (IN).

Da das SS7-Protokoll für die Zusammenarbeit mit Voice over IP eine zentrale Bedeutung einnimmt, stellen wir im Folgenden einige charakteristische Eigenschaften des sehr umfangreichen und komplexen SS7 kurz vor.

SS7-Elemente

Bei SS7 handelt es sich um ein hierarchisches, an das ISO/OSI-Referenzmodell angepasste System. Die wesentlichen Schichten und ihre Funktion zeigt die unten stehende Abbildung.

SS7-Netzwerke umfassen drei grundlegende Signalisierungselemente:

Ablauf einer SS7-Verbindung

Das Bild unten zeigt den grundsätzlichen Gesprächsauf- und abbau von zwei analogen Teilnehmern TE-A und TE-B unter Verwendung eines SS7-Netzwerks. In diesem Beispiel kontaktiert der analoge Teilnehmer am SSP1 den analogen Teilnehmer an SSP2.

Paketvermittelnde Datennetze

In einigen zentralen Eigenschaften unterscheiden sich paketvermittelnde Netze von ihren bisher besprochenen leitungsvermittelnden Geschwistern.

Sie teilen die zu übertragenden Informationen in einzelne Pakete (packets), Zellen (cells) oder Rahmen (frames) auf und verschicken diese einzeln an den Empfänger. Ähnlich wie bei der Gelben Post benötigt dazu jeder "Brief" einen "Umschlag". Auf jedem "Umschlag" stehen Ziel- und Quell-Adresse. Bei leitungsvermittelnden Netzen kann eine solche Adressierung pro Datenpaket entfallen, da ein reservierter Kanal zwischen den beiden Kommunikationsteilnehmern zur Verfügung steht.

Weil die Kommunikation im paketvermittelnden Netz keinen reservierten Kanal erfordert, können auch mehrere Gesprächsteilnehmer gemeinsam auf eine Leitung zugreifen und sich die Bandbreite teilen (Shared Medium). Der Vorteil der kostengünstigeren Lösung birgt den Nachteil, dass im Rahmen der Arbitrierung möglichst gerecht festgelegt werden muss, wer wann senden darf.

Bei einer leitungsvermittelnden Verbindung wird auch "Schweigen" mit übertragen. Wenn dagegen ein Sender in einem paketvermittelnden Netz nichts überträgt, stellt er weder Pakete zusammen, noch benötigt er Bandbreite.

Qualitätsaspekte im Sprachnetz

Die Qualität einer digitalen Sprachübertragung hängt im Wesentlichen von drei Aspekten ab: der Dienstgüte, dem Digitalisierungsverfahren sowie der Ausschaltung von Störeffekten.

Auf Netzwerkebene beruht die Dienstgüte des Netzwerks (Quality of Service - QoS) auf den nachfolgend näher erläuterten Parametern Datenrate, Verzögerung (Latency), Jitter, Fehlerrate und Verfügbarkeit.

Die Qualität der Digitalisierung des analogen Tonsignals hängt eng mit dem eingesetzten Verfahren zusammen. Die diversen Umsetzungen unterscheiden sich vor allem hinsichtlich der Abtastrate, der Auflösung sowie der Kodierung.

Als mögliche Störungsquellen gilt es verschiedene parasitäre Effekte, wie beispielsweise Echo-Effekte, in die Qualitätsbetrachtung mit einzubeziehen.

Datenübertragungsrate

Die Datenübertragungsrate (Bandbreite) gibt an, wie viele Daten in einer Zeiteinheit übertragen werden können. Dabei gilt es zwischen Brutto- und Nettodatenrate zu unterscheiden, da sich in der Praxis oft erhebliche Unterschiede zwischen beiden ergeben. Dafür zeichnen die verschiedensten Effekte verantwortlich.

So nutzen die Stationen oft mangels Daten die zur Verfügung stehenden Zeitschlitze nicht. Umgekehrt können im Rahmen eines Mutliple-Access-Protokolls Kollisionen zwischen den Sendungen zweier Stationen auftreten, die eine Retransmission erfordern.

Generell müssen die Stationen zusätzlich zu den reinen Nutzdaten auch Protokollinformationen versenden. Besonders in paketvermittelnden Netzen fallen umfangreiche Adress- und Steuerinformationen an, mit deren Hilfe die Pakete durch das Netz geleitet werden. Diesen Effekt bezeichnet man als Protokoll-Overhead. Zudem tauschen die Stationen in regelmäßigen Abständen Konfigurationsdaten aus. Diese Kommunikation findet über den normalen Übertragungskanal statt ("In-Channel Administration") und blockiert diesen zeitweilig für den Nutzdatenverkehr.

Vor diesem Hintergrund sind speziell bei paketvermittelnden Netzen statistische Betrachtungsgrößen wie minimale, mittlere oder maximale Bandbreite zu berücksichtigen.

Delay und Latency

Bei der Sprachtelephonie versteht man unter der Verzögerung (Delay) oder Latenz (Latency) die Zeitdauer zwischen der Erzeugung des Signals beim Sprechen und dem Eintreffen im Ohr der Empfängers. In heutigen Kommunikationsnetzen muss man hier diverse Verzögerungszeiten unterscheiden, von denen allerdings nur ein Teil für paketvermittelnde Netze Relevanz besitzt.

Die Ausbreitungsverzögerung (Propagation Delay) ergibt sich durch die endliche Ausbreitungsgeschwindigkeit der Signale. Als Wire Speed für Glasfasermedien setzt man rund 200.000 km/s an, so dass sich bei der halben Umrundung des Globus (20.000 km) eine Verzögerung von 100 ms ergibt. Für die satellitengestützte Übertragung lässt sich zwar von der Vakuumgeschwindigkeit der elektromagnetischen Wellen (300.000 km/s) ausgehen. Hier fallen je rund 250 ms Verzögerung bei der Transmission vom Boden zum Satellit und retour an. Für eine Verbindung zur anderen Seite auf dem Globus sind jedoch mindestens zwei Satelliten-Hops nötig, so dass sich dabei eine Verzögerung von 500 ms ergibt.

Die Aufreihungsverzögerung (Serialization Delay) beschreibt die Zeitspanne, die anfällt, um die zu übertragenden Daten auf die Leitung zu übergeben. Sie umfasst in der Regel nur einen minimalen Anteil der Gesamtverzögerung.

Handling Delay

Die Verarbeitungsgeschwindigkeit (Handling Delay) setzt sich ihrerseits aus verschiedenen Bestandteilen zusammen. Dazu zählt die Paketverzögerungszeit (Packet Delay). Sie beschreibt die benötigte Zeit, um die anfallenden Sprachdaten in Paketen zusammenzufassen. Für ein typisches Sprachprotokoll wie G.729 ergibt sich eine Paketverzögerungszeit von 25 ms.

Als Verarbeitungsgeschwindigkeit (Processing Delay) bezeichnet man die Zeitspanne, welche die aktiven Vermittlungskomponenten benötigen, um den richtigen Ausgangsport für die Weiterleitung der Pakete zu identifizieren. Die so genannte Warteschlangenverzögerung (Queueing Delay) tritt dann auf, wenn an den Ein- oder Ausgängen der Netzwerkkomponenten bereits mehrere Pakete auf ihre Übertragung warten.

Die G.114-Empfehlung der ITU-T besagt, dass für eine gute Sprachqualität maximal 150 ms als einseitige Verzögerung auftreten dürfen. Kalkuliert man alle genannten Verzögerungs- und Latenzzeiten ein, ist diese Anforderung unter Umständen nur schwer zu erfüllen.

Jitter

Unter Jitter (engl. flattern, zittern) versteht man die Varianz der Verzögerungszeit. In leitungsvermittelnden Netzen kann man auf Grund der festen Reservierung von Verbindungen davon ausgehen, dass kein Jitter auftritt. In paketvermittelnden Netzwerken dagegen müssen deutliche Jitter-Effekte einkalkuliert werden.

Zwar handelt es sich bei Jitter und Verzögerung um primär unabhängige Größen. Allerdings besteht die Möglichkeit, Jitter durch eine größere Verzögerung auszugleichen. Dazu puffert man an die empfangenen Pakete in einem FIFO-Speicher und entnimmt sie anschließend in regelmäßigen Zeitabständen.

Verfügbarkeit

Zur Fehlerrate tragen zwei ganz unterschiedliche Quellen bei. Zum einen können Fehler bei der Übertragung die Signale verfälschen, zum anderen gehen manche Datenpakete verloren. Dafür können sowohl elektrische Vorgänge als auch protokollbezogene Zusammenhänge verantwortlich sein. So dürfen speziell IP-Knoten einzelne Pakete unter bestimmten Umständen verwerfen.

Die Verfügbarkeit spielt bei der Qualitätsbetrachtung ebenfalls eine wichtige Rolle. Bislang gelten für leitungsvermittelnde und paketvermittelnde Netze typischerweise noch zweierlei Maße. Steht das Datennetz, weil ein Server "unten" ist, bringt der Anwender dafür - zwar oft grummelnd - durchaus Verständnis auf. Für Ausfälle des Telefonnetzes gilt diese Toleranz nicht.

Ausblick

Im vorliegenden ersten Teil des Grundlagenartikels zu Voice over IP haben wir einen umfassenden Blick auf die herkömmlichen Transportverfahren in sprachbasierten Netzen geworfen, deren Konkurrenz VoIP sich stellen muss. Des Weiteren sind jetzt die technischen Rahmenparameter geklärt, die eine Sprachübertragung qualitativ kennzeichnen.

Im zweiten Teil des Artikels zeigen wir die Kodierungsverfahren, die der Sprachkommunikation zu Grunde liegen und ihre subjektive Qualität entscheidend beeinflussen. Davon ausgehend beschreiben wir die Transportprotokolle und Steuerungsverfahren in VoIP-Netzen sowie deren Implementation im LAN. Ein Ausblick auf typische Endgeräte und Lösungen sowie deren Einbindung in existierende Systeme rundet den Umfang unseres VoIP-Backgrounders ab. (jlu)