MP3 Grundlagen: Psychoakustik

Zehn Stunden Musik auf einer CD. Und das ohne hörbaren Qualitätsverlust. MP3 macht's möglich. Doch wie funktioniert es?

Der Kernpunkt bei MP3 ist ein Kompressionsverfahren, das überflüssige Informationen herausfiltert. Überflüssige Informationen filtern bedeutet bei MPEG-Audio, diejenigen Daten zu reduzieren, die das menschliche Gehör nicht, oder kaum wahrnimmt. Die Grundlage dafür bildet die Psychoakustik. Diese Wissenschaft beschäftigt sich mit der Wahrnehmung des Schalls durch das menschliche Ohr, und ist der Schlüssel zur MP3-Technologie.

Stellen Sie sich vor, Sie sind in der Disco. Aus riesigen Boxen dröhnt Musik. Für das Gehör bedeutet das Schwerstarbeit, da Schallpegel von 110 dB und mehr erreicht werden. Auf Grund der extremen Lautstärke, ist es nahezu unmöglich, sich zu unterhalten, es sei denn man schreit sich geradezu an. In der Akustik spricht man dabei von Maskierung. Um die Maskierung aufzuheben, muss der Sprachschallpegel so weit angehoben werden, dass das Störsignal (in diesem Falle laute Musik) ihn nicht mehr verdeckt.

Bild 1: In diesem Bereich 'arbeitet' das menschliche Gehör. Unterhalb der Ruhehörschwelle und oberhalb der Schmerzgrenze nehmen wir nichts wahr.
Bild 1: In diesem Bereich 'arbeitet' das menschliche Gehör. Unterhalb der Ruhehörschwelle und oberhalb der Schmerzgrenze nehmen wir nichts wahr.

Die Psychoakustik ist lediglich ein Teil der MP3-Codierung. Das Audiosignal durchläuft weit mehr Stationen. In Bild 2 sehen Sie den prinzipiellen Aufbau eines MP3-Encoders.

Ein Audiosignal passiert eine Filterbank, die das Signal in einzelne Bereiche (Subbands) aufteilt. Zeitgleich durchläuft das Audiosignal das Psychoakustische Modell. Hier wird die Maskierungsschwelle mit Hilfe der Diskreten-Fourier-Transformation (DFT) für jede Komponente ermittelt. Das Psychoakustische Modell gibt unter anderem die maximal erlaubten Quantisierungsfehler an, mit der noch kodiert werden darf, ohne dass diese das menschliche Gehör wahrnimmt. Dazu werden die Anzahl der Codierungs-Bits festgelegt, die erforderlich sind, das Quantisierungsrauschen so weit zu mindern, dass es (nahezu) unhörbar wird. Im letzten Schritt werden die Daten - die ehemals unterteilten Subbands - so aufbereitet (formatiert), dass sich ein Bitstream ergibt, den ein Decoder entschlüsseln kann.

Bild 2: Blockdiagramm eines MPEG-Audio-Encoders.
Bild 2: Blockdiagramm eines MPEG-Audio-Encoders.