MP3 Grundlagen: Psychoakustik

07.12.1999 von NICO HARTMANN 
Zehn Stunden Musik auf einer CD. Und das ohne hörbaren Qualitätsverlust. MP3 macht's möglich. Doch wie funktioniert es?

Der Kernpunkt bei MP3 ist ein Kompressionsverfahren, das überflüssige Informationen herausfiltert. Überflüssige Informationen filtern bedeutet bei MPEG-Audio, diejenigen Daten zu reduzieren, die das menschliche Gehör nicht, oder kaum wahrnimmt. Die Grundlage dafür bildet die Psychoakustik. Diese Wissenschaft beschäftigt sich mit der Wahrnehmung des Schalls durch das menschliche Ohr, und ist der Schlüssel zur MP3-Technologie.

Stellen Sie sich vor, Sie sind in der Disco. Aus riesigen Boxen dröhnt Musik. Für das Gehör bedeutet das Schwerstarbeit, da Schallpegel von 110 dB und mehr erreicht werden. Auf Grund der extremen Lautstärke, ist es nahezu unmöglich, sich zu unterhalten, es sei denn man schreit sich geradezu an. In der Akustik spricht man dabei von Maskierung. Um die Maskierung aufzuheben, muss der Sprachschallpegel so weit angehoben werden, dass das Störsignal (in diesem Falle laute Musik) ihn nicht mehr verdeckt.

Die Psychoakustik ist lediglich ein Teil der MP3-Codierung. Das Audiosignal durchläuft weit mehr Stationen. In Bild 2 sehen Sie den prinzipiellen Aufbau eines MP3-Encoders.

Ein Audiosignal passiert eine Filterbank, die das Signal in einzelne Bereiche (Subbands) aufteilt. Zeitgleich durchläuft das Audiosignal das Psychoakustische Modell. Hier wird die Maskierungsschwelle mit Hilfe der Diskreten-Fourier-Transformation (DFT) für jede Komponente ermittelt. Das Psychoakustische Modell gibt unter anderem die maximal erlaubten Quantisierungsfehler an, mit der noch kodiert werden darf, ohne dass diese das menschliche Gehör wahrnimmt. Dazu werden die Anzahl der Codierungs-Bits festgelegt, die erforderlich sind, das Quantisierungsrauschen so weit zu mindern, dass es (nahezu) unhörbar wird. Im letzten Schritt werden die Daten - die ehemals unterteilten Subbands - so aufbereitet (formatiert), dass sich ein Bitstream ergibt, den ein Decoder entschlüsseln kann.

Maskierung in der Theorie

Im täglichen Leben spielt Maskierung eine wichtige Rolle. Stellen Sie sich vor, Sie reden mit einem Partner und alles um Sie herum ist ruhig. Sie sprechen in einer "normalen" Lautstärke mit ihm. Fliegt nun ein Flugzeug in der Nähe vorbei, ändert sich die Situation für das Gehör. Reden Sie mit gleicher Lautstärke weiter, kann Sie der Partner nicht mehr verstehen. Das Störgeräusch überdeckt den Sprachschall. Dieses Phänomen nennt man Maskierung (Überdeckung). Es gibt nun zwei Möglichkeiten, dem entgegenzuwirken: Entweder Sie warten, bis der Flugzeuglärm vorbei ist, oder Sie sprechen lauter. Der Gesprächspartner kann Sie dann wieder hören.

Ähnliche Effekte treten bei Musik auf. Ein Instrument kann ein anderes maskieren, wenn sein Energieniveau höher als des anderen ist. Setzt das laute Instrument aus, kann das leisere wieder wahrgenommen werden. Beides sind typische Beispiele für simultane Maskierung.

In diesem Zusammenhang sind folgende Größen wichtig. Die Ruhehörschwelle - sie ist die untere Begrenzung, die gerade noch hörbare Töne von unhörbaren trennt. Bei einem Gespräch in absolut ruhiger Umgebung (es ist kein Störschall vorhanden) stellt der Sprachschall die Ruhehörschwelle dar.

Ein plötzlich auftretendes Störgeräusch (z.B. Flugzeug) verlangt, dass wir den Sprachschallpegel anheben, damit wir die Sprache neben dem Störgeräusch mithören. Die Kurve, die diesen Vorgang beschreibt, nennt man Mithörschwelle. Bild 3 verdeutlicht den Effekt der simultanen Maskierung.

Überlagerungen und MP3

Bei MP3 macht man sich dieses Wissen folgendermaßen zu Nutze: Angenommen Sie haben einen Ton mit 1 kHz. Ein weiterer Ton liegt bei 1,1 kHz und ist um zirka 18 dB leiser. Der Ton bei 1,1 kHz ist vollkommen vom ersten Ton verdeckt, da er unterhalb der Mithörschwelle liegt. Folglich wären auch andere schwächere Töne in unmittelbarer Nähe des ersten Tones maskiert. Kommt ein dritter Ton mit 2 kHz hinzu, und ist dieser ebenfalls 18 dB leiser als der Erste, wäre er jedoch hörbar, da er in einem anderen Frequenzband liegt. Für MPEG-Audio-Encoder bedeutet dies: Töne, die überdeckt sind, können weggelassen werden, da sie nicht hörbar sind und somit Redundanz bedeuten.

In der Psychoakustik spielt aber auch die Art des Schalls eine wichtige Rolle. Ein kurzes, lautes Signal (tonal) ist stärker verdeckend als geräuschhafte, breitbandige Signale (non-tonal). In Bild 4 sehen Sie das Spektrum eines Sinussignals und die sich daraus ergebende Verdeckungskurve.

Hilfreiches Rauschen

Für MP3 bedeutet das, dass man beispielsweise das Rauschen "um" den Ton herum anheben kann, weil es sowieso maskiert wird. Den Rauschpegel anzuheben, bedeutet das Gleiche, als wenn man mit geringerer Auflösung digitalisiert.

Beim Digitalisieren entsteht immer ein Quantisierungsrauschen. Dabei werden analoge Signale in wert- und zeitdiskrete (bestimmte) Signale zerlegt.

Die gewonnenen Zahlenwerte stellen die numerischen Amplitudenwerte der Sinuswelle dar. Die Abtastfrequenz (Sampling Rate) bestimmt dabei die Länge der Abtastintervalle. Dabei kann sowohl die Messung der Amplitudenhöhe als auch die Größe der Abtastintervalle nicht unendlich genau sein. Der Grund ist, dass in der Digitaltechnik nur diskrete Werte zur Verfügung stehen.

Bei der analog/digital-Wandlung wird daher ein Wert, der zwischen zwei Abtastpunkten liegt, auf- oder abgerundet, sodass er dem nächstgelegenen Wert zugeordnet wird. Durch diese Zuordnung entstehen Rundungsfehler, da die Werte nicht mehr mit dem originalen Skalenwert identisch sind. Dieses wird als Quantisierungsfehler bezeichnet und macht sich als Rauschen bemerkbar. Das Quantisierungsrauschen lässt sich durch eine hohe Auflösung begrenzen.

Die Sampling-Rate bestimmt die obere Grenzfrequenz des Systems. Die Messgenauigkeit, also die Anzahl der in diesem Quantisierungsprozess möglichen Mittelwerte, bezeichnet man auch als Auflösung, die sich in der Bit-Breite, z.B. 8-Bit, oder 16-Bit, widerspiegeln. Bei einer Auflösung von 8 Bit können maximal 256 Stufen dargestellt werden. Bei 12 Bit sind es immerhin schon 4096 und bei 16 Bit 65.536 Einzelschritte.

Für den Wandlungsprozess formulierten die Mathematiker Shannon und Nyquist wichtige Theoreme:

Reduzieren = Komprimieren

Wird gegen das Abtasttheorem verstoßen, kommt es zu Aliasing-Fehlern. Um diese zu verhindern, wird das Signal in der Praxis mit einem vielfachen der eigentlichen Abtastfrequenz digitalisiert.

Da wegen der Maskierung die maximale Sampling-Rate in bestimmten Teilbereichen reduziert werden kann, kommt es zu einer Datenreduktion. Das folgende Beispiel soll dies verdeutlichen. Bei MPEG-Audio wird der hörbare Frequenzbereich in 32 Subbands unterteilt. Jedes Subband steht für einen bestimmten Ausschnitt des Frequenzspektrums.

Im achten Subband befindet sich zum Beispiel ein Ton mit 1 kHz und 60 dB. Der MPEG-Audio-Encoder berechnet nun den Maskierungseffekt und erkennt, dass die Maskierungsschwelle 36 dB weiter unterhalb liegt. Der Encoder berechnet nun den akzeptablen Signalrauschabstand. In diesem Fall 60 dB - 36 dB, also 24 dB. 24 dB entsprechen einer Auflösung von 4 Bit. Der Grund dafür ist, dass Quantisierungsrauschen in direktem Zusammenhang zur Auflösung steht. Für jedes Bit, das man in der Auflösung weglässt, entstehen 6 dB mehr Rauschen. Umgekehrt bedeutet es, dass sich für jedes zusätzliche Bit auch das Rauschen um 6 dB vermindert. Bei einer Audio-CD beispielsweise sind die Lieder meist mit 16 Bit digitalisiert. Dies entspricht einer Dynamik von 96 dB (16 * 6 dB). Wobei man noch auf Grund von wahrscheinlichen Fehlern zirka 2 dB hinzurechnet. Analog dazu entsprechen zirka 24 dB 4 Bit.

Zeitliche Maskierung

Einen weiteren Vorgang der Psychoakustik nimmt die so genannte Vor- und Nachmaskierung ein, die man auch als Pre- and Postmasking oder Backward- and Forwardmasking bezeichnet. Bild 6 verdeutlicht diesen Effekt.

Das Gehör benötigt sowohl bei lauten als auch bei leisen Geräuschen eine so genannte "Recovery Time" bis es wieder voll funktionstüchtig ist. Besonders auffallend ist dieser Effekt, wenn so genannte Gauß-Impulse auf das Ohr treffen. Einen solchen kurzen, nahezu sprunghaft ansteigenden Impuls empfindet das Gehör als Knackser. Bild 6 zeigt einen Gauß-Impuls. Dabei fällt das Spektrum eines Sinustones beiderseits gaußförmig ab. Dieses Signal stellt ein Optimum zwischen geringer Bandbreite und kurzer Impulsdauer dar. Der Effekt: Ein vor dem Impuls liegendes, leises Rauschen ist ebenso unhörbar wie eines danach. Die psychoakustische Nachmaskierung ist relativ leicht nachvollziehbar. Schuld ist die Trägheit unseres Gehörs. Nach zirka 5-ms-Verzögerung sinkt die Hörschwelle bei der Nachmaskierung wieder ab und erreicht nach etwa insgesamt 200 ms die Ruhehörschwelle.

Dem Effekt der Vormaskierung (Premasking) kommt mit 20 ms nicht so viel Bedeutung zu wie der Nachmaskierung. Premasking kann man sich ungefähr so vorstellen: Der laute Impuls wird vom Hirn schneller verarbeitet, als das leise Hintergrundsrauschen. Medizinische Tests an der Hirnhautrinde sollen dies ergeben haben. Der kurze, laute Impuls "überholt" quasi die schwächeren Signale.

Audio-Demos

Damit Sie die Effekte jeweils selbst nachvollziehen und Ihr Gehör testen können, stellen wir Ihnen drei Testdateien zur Verfügung. (Mit freundlicher Genehmigung von Dipl.-Ing. Thomas Sporer des Fraunhofer Instituts für integrierte Schaltungen.) Detaillierte Informationen erhalten Sie auf der Webseite von Thomas Sporer.

Audio-Demo 1: Rauschen verdeckt einzelne Töne

Audio-Demo 2: Forward Masking

Maskierer: Gauß-Impuls bei 0 dBFS

Audio-Demo 3: Backward Masking

Maskierer: Gauß-Impuls bei 0 dBFS

Reduzierung der Stereo-Informationen

Die bisher gezeigten Verfahren erlauben eine Komprimierung um Faktor fünf bis sechs. Will man noch höhere Kompressionsraten erzielen, kann man zum Beispiel die Stereo-Informationen reduzieren. Der Kompressions-Algorithmus bei MPEG-Audio bietet dazu zwei Möglichkeiten: das so genannte "intensity stereo coding" und "Middle/Site (MS) stereo coding". Beide Verfahren sind unter dem Oberbegriff "Joint Stereo" zusammengefasst. Alle MPEG-Layer unterstützen "intensity stereo coding". Layer 3 beherrscht zudem noch "Middle/Site (MS) stereo coding". Bei beiden Codierverfahren ist der Ausgangspunkt wiederum die Psychoakustik. Messungen ergaben, dass das menschliche Gehör oberhalb von 2 kHz mehr auf einen zeitlichen Wechsel, als auf eine zeitlich hohe Auflösung eines Audiosignals achtet. Unkomprimiertes Stereo-Material verarbeitet das menschliche Gehör, in dem es zwischen dem linken und rechten Kanal Phasen- und Pegelunterschiede auswertet. Weiterhin bestimmt der Mensch die Richtung eines Schallereignisses in Abhängigkeit von der Frequenz. Tiefe Töne (bis etwa 80/100 Hz) sind zum Beispiel nicht zu orten. Dieses Phänomen ist uns als Subwoofer-Prinzip bekannt und kommt in Kinos zum Einsatz. Hier steht der Subwoofer meist hinter der Leinwand.

Die Wahrnehmung mittlerer Töne erfolgt auf zwei Wegen: Zum einen wertet das Nervensystem den Zeitpunkt des Eintreffens der Schallwellen am linken und rechten Ohr aus, und zum anderen bestimmt es den Lautstärkeunterschied. Hohe Frequenzen nehmen wir nur durch den Lautstärkeunterschied war. Wer sich für weiterführende Informationen interessiert, findet auf der folgende Seite der Wuppertaler Universität fundierte und ausführliche Informationen über das Hören.

"Intensity stereo" macht sich dieses Wissen folgendermaßen zu nutze: Ein Stereosignal lässt sich als ein Mittensignal (Rechts + Links) und ein Seitensignal (Links-Rechts + Rechts-Links) darstellen. MPEG-Audio-Encoder trennen nun die Stereodaten und übertragen nur noch das Seitensignal, welches weit weniger Informationen enthält.

"Middle/Site (MS) stereo coding" geht noch einen Schritt weiter. Es ist für Datenraten von weniger als 64 kbps gedacht. Der Audio-Coder kodiert einige hochfrequente Subbands zu einem Summenkanal, anstatt für alle 32 Subbands jeweils einen rechten und linken Kanal auszugeben. Zusätzlich werden noch Richtungsinformationen übertragen.

Diese Art von Codierung geschieht eigentlich nur in den sehr hohen Frequenzen, die unser Ohr kaum noch wahrnehmen kann. Dennoch: Von CD-Qualität kann nicht mehr die Rede sein. (nha)