Hohe Qualität bei weniger Bandbreite

25.05.2001
Bei der Sprachübertragung über IP-Netze (Voice over IP) müssen analoge Audiosignale in digitale Informationen umgewandelt werden. Dieser Vorgang kostet Zeit und kann die Verzögerungszeiten erheblich erhöhen. Das wiederum geht zu Lasten der Sprachqualität. Codierungs- und Komprimierungsverfahren sollen dem entgegenwirken.

Von: Kai-Oliver Detken, Bernd Reder

Alle Sprachcodierungs-Verfahren haben das gleiche Problem: Sie müssen die Informationen, die in einem Sprachsignal stecken, so effizient wie möglich übertragen. Dazu ist es notwendig, redundante Informationen zu eliminieren, ohne die Verständlichkeit und Spracherkennung zu beeinträchtigen. Gleichzeitig soll das Codierungsverfahren robust gegen Fehler sein, die auf der Übertragungsstrecke auftreten - etwa verfälschte oder verschobene Bits. Außerdem muss der Codiervorgang mit hoher Geschwindigkeit erfolgen. Verzögerungen von 200 bis 500 Millisekunden im Halbduplex-Betrieb sind gerade noch akzeptabel. Bei Vollduplex-Verbindungen darf der Wert 200 Millisekunden nicht übersteigen.

Neben der Codierung spielt die Datenkomprimierung eine entscheidende Rolle. Durch sie lässt sich die zur Verfügung stehende Bandbreite besser ausnutzen. Zudem kann die eingesparte Bandbreite dazu verwendet werden, um die Sprachqualität zu verbessern oder Daten zu verschlüsseln. Gegenwärtig dominieren bei der Codierung und Komprimierung von Sprachdaten drei Ansätze:

- die Signalformcodierung und deren Komprimierung,

- die parametrischen Verfahren und

- die Hybridcodierer, eine Verbindung der beiden erstgenannten Verfahren.

Signalformcodierung auf Grundlage von PCM

Die Basis der Signalformcodierung ist die Pulse Code Modulation (PCM). Die älteste, aber auch einfachste Form der Sprachdigitalisierung ist im Standard ITU-T G.711 festgelegt. PCM ist ein Modulationsverfahren, das auf Zeitselektion beruht. Das zu digitalisierende Signal wird in äquidistanten Zeitintervallen abgetastet und die Abtastprobe anschließend durch einen Analog/Digitalwandler (A/D-Wandler) digitalisiert. Das PCM-Verfahren erreicht einen fast optimalen "Mean-Opinion-Score"-Wert (MOS) von 4,3. MOS ist ein Maßstab für die von einem Gesprächsteilnehmer wahrgenommene Sprachqualität.

Komprimieren von PCM-Signalen

Bei der Nachrichtenübermittlung zwischen Quelle (Sender) und Senke (Empfänger) durchlaufen die Daten mehrere Abschnitte. Die Kommunikation läuft in beiden Richtungen, daher ist eine symmetrische Umwandlung der Signale erforderlich. Codierer und Decodierer werden in einer elektronischen Baugruppe zusammengefasst: dem Codec (Codierer/Decodierer). Viele Halbleiterhersteller bieten Analog/Digital- beziehungsweise Digital/Analog-Wandler für PCM an. Einer der Hauptvorteile von PCM ist, dass sich mit ihm unterschiedliche Signale codieren lassen, etwa Sprachinformationen, aber auch Musik oder Videos. Hinzu kommt, dass die Abweichung zwischen empfangenen und gesendeten Signalen sehr gering ist. Ein Nachteil ist der große Bandbreitenbedarf. Hier setzen Kompressionsverfahren an. Denn ein großer Teil der Informationen, die mit Hilfe von PCM übertragen werden, ist redundant. Häufig weisen die aufeinander folgenden Signalproben Werte auf, die nur minimal voneinander abweichen.

Die Difference Pulse Code Modulation (DPCM) beispielsweise trifft "Vorhersagen" (Prediction) über die zu erwartenden Werte von Signalproben. Aus dem aktuellen Abtastwertes lässt sich ein Vorhersagewert für die nächste Signalprobe ermitteln. Dieser wird von der tatsächlich anliegenden Signalprobe abgezogen. Die Differenz wird quantisiert, das heißt, ihr wird ein digitaler Wert zugewiesen, der dem Amplitudenwert entspricht (siehe dazu die Online-Version des Beitrages). Der Differenzwert ist erheblich kleiner als die ursprüngliche Signalprobe und kommt mit einem kleineren Codewort aus.

Das Codewort ist umso kleiner, je gröber die Abstufungen des Quantisierers sind. Bei zu großen Quantisierungsstufen treten jedoch Probleme mit Eingangssignalen auf, die eine hohe Dynamik aufweisen. Dann kann DPCM schnellen Spannungsänderungen nicht folgen und es kommt zu Verzerrungen des Signals.

Adaptive Difference Pulse Code Modulation (ADPCM)

Noch einen Schritt weiter geht die Adaptive Difference Pulse Code Modulation (ADPCM). "Adaptive" bedeutet, dass ein System die internen Parameter anpasst, wenn sich ein Eingangssignal ändert. Der Vorteil ist, dass sich das codierte Signal auf diese Weise genauer mit dem ursprünglichen Sprachsignal abgleichen lässt. Details zu ADPCM legte die ITU-T in der Norm G.726 fest. Sie sieht Datenraten von 40, 32, 24 und 16 kBit/s vor.

ADPCM mit 32 kBit/s benötigt als Eingangssignal ein PCM-Signal nach der so genannten A-Law-Kennlinie, die aus 13 linearen Teilsegmenten besteht. Die Ausgangssignale bilden einen Datenstrom. Dabei ist eine Differenz zwischen Probe und Vorhersagewert mit vier Bit codiert. Im Datenstrom sind in einem Byte zwei Differenzen enthalten. Ein 32-kBit/s-ADPCM-Strom erreicht bereits einen MOS-Wert von 4,1.

Linear Predictive Coding (LPC)

Das Linear-Predictive-Coding-Verfahren (LPC) gehört zu den parametrischen Verfahren. Die wichtigsten Systeme sind Vocoder (Voice plus Codierer). Ein Vocoder analysiert die Sprachinformationen, die ein Sender übermittelt, anhand der Grundfrequenz und Lautbildung. Anschließend setzt er sie in Parameter um und überträgt diese zum Empfänger, der aus ihnen die Sprachsignale rekonstruiert.

Das Resultat ist sehr unterschiedlich: Bei einem Phonem-Synthesizer hat die Sprache einen unnatürlichen Klang ("Roboterstimme"), während ein LPC-Vocoder eine große "Natürlichkeit" der Sprachwiedergabe gewährleistet. LPC-Systeme sind seit geraumer Zeit im Einsatz. So ist beispielsweise LPC-10 seit 1984 standardisiert und erlaubt die Übertragung von Sprache mit 2400 Bit/s. Es werden Wandlungszeiten in der Größenordnung 20 Millisekunden erreicht. Die Sprachqualität liegt bei einem MOS-Wert von 2,0.

Codebook Excited Linear Predictive Coding (Celp)

Codebook Excited Linear Predictive Coding (Celp) ist ein hybrides Codierungsverfahren, das die Vorteile der Signalformcodierung und der parametrischen Verfahren vereint. Das Ergebnis ist eine gute Sprachqualität, die in etwa der von PCM entspricht. Die Grundlage für die meisten Hybridverfahren ist LPC. Unterschiede gibt es lediglich bei der Codierung des verbleibenden Restsignals. Übermittelt werden sowohl das Fehlersignal als auch die LPC-Parameter. Die Sprachqualität ist gut, auch bei niedrigen Datenraten von 4 bis 16 kBit/s.

Hybride Systeme sind wegen der doppelten Codierung komplex. Aber dieser Punkt spielt nur noch eine untergeordnete Rolle, weil die entsprechenden Baugruppen heute auf einem einzigen Chip untergebracht werden. Ein guter Celp-Codec erzeugt eine Sprachqualität, die kaum von einer 64-kBit/s-PCM-Übertragung zu unterscheiden ist.

Zum Abschluss noch ein Blick auf Verfahren, die für die Breitband-Codierung entwickelt wurden. "Breitband" bedeutet, dass ein Bereich zwischen 50 und 7000 Hz verwendet wird. Dabei bewegt sich die Sprachgrundfrequenz zwischen 80 und 350 Hz. Die ITU-T hat in der Norm G.722 einen Breitbandcodierer standardisiert. Die Abtastfrequenz liegt bei 16 kHz. Für die Bitraten ergeben sich folgende MOS-Werte:

- 64 kBit/s: MOS-Wert 4,1

- 56 kBit/s: MOS-Wert 4,0

- 48 kBit/s: MOS-Wert 3,7

Um die Bitraten weiter zu verringern, ohne die Qualität zu schmälern, werden Celp-Codierer eingesetzt. Diese Ansätze liefern bereits bei Bitraten von 16 kBit/s eine gute Sprachqualität. Weitere Qualitätsgewinne sollen modifizierte Celp-Codierer bringen. Die Forscher konzentrieren sich dabei in erster Linie auf die Anregungssignale, um die Probleme bei den Übergängen zwischen stimmhafter- und stimmloser Sprache zu lösen.

Bandbreite bleibt ein Problem

Insgesamt ist festzustellen, dass die Übermittlung von Sprache über das Internet ein "Bandbreitenfresser" ist. Denn um ein analoges Sprachsignal zu digitalisieren, muss es 8000-mal pro Sekunde abgetastet werden. Bei 8 Bit pro Abtastung ergibt das eine typische Datenrate von 64 kBit/s. Komprimierungsalgorithmen wie G.723.112, G.728.13 und G.729.14 komprimieren Sprache bereits um den Faktor 10. Zusätzlich lässt sich zur Unterdrückung der Sprachpausen Silence Suppression einsetzen. Dadurch kann man bis zu 60 Prozent eines Gesprächs unterdrücken, weil die Pausen nicht mehr übertragen werden.

Das bedeutet aber nicht, dass 60 Prozent der Bandbreite eingespart werden, weil sich nicht alle Pausen, die während eines Gesprächs auftreten, ausfiltern lassen. In der kommenden Ausgabe gehen wir auf Standards von ITU und IETF für die Übertragung von Sprache und Videoströmen über IP-Netze ein. (re)

Zur Person

Kai-Oliver Detken

studierte an der Universität Bremen Informationstechnik. Gegenwärtig leitet er die Beratungsfirma Decoit und ist als Autor und Referent im IT-Umfeld tätig.