Informationstheorie und Datenkompression

Texte aus der Sicht der Informationstheorie

Die Informationseinheit Bit

Shannon hat den Begriff des mittleren Informationsgehaltes von Nachrichtenquellen geprägt, von denen Texte hier lediglich als Beispiel dienen. Dabei ist Information nach Shannon nur im statistischen Sinn aufzufassen; die Semantik oder gar die Ästhetik eines Textes interessiert ihn zunächst nicht. Auch dem „dummen“ Computer gilt ja das Geschreibsel eines Erstklässers gleich viel wie ein Goethegedicht. Texte sind demnach Buchstabenfolgen, die durch ihre Statistik, also durch die Wahrscheinlichkeit oder die relativen Häufigkeiten von Buchstaben, beschrieben werden.

Was ist also dieser statistische Informationsgehalt? Shannon hat ihn über den Logarithmus des Kehrwertes der Auftrittswahrscheinlichkeit definiert. Seltene Ereignisse haben also einen hohen Informationsgehalt. Nimmt man den Logarithmus zu Basis 2, so ist die dadurch definierte Informationseinheit das berühmte Bit, und den Umfang unserer Texte messen wir dann beispielsweise in Megabit. Hätte man einen Text einer Sprache, bei der 32 statistisch unabhängige Buchstaben bzw. Zeichen mit gleicher Häufigkeit vorliegen, so wäre der Informationsgehalt nach Shannon – er nennt es Entropie – 5 bit pro Buchstabe. Das wäre zugegebenermaßen ein ziemlich langweiliger Text. Texte einer Sprache sind strukturiert und Buchstaben wie Buchstabengruppen (Wörter) kommen mit unterschiedlicher Häufigkeit vor. Bei deutschen Texten sind die häufigsten Buchstaben (über 5 %):

Tabelle 1: Die häufigsten Buchstaben in deutschen Texten

E

17,61 %

N

10,44 %

D

7,49 %

R

7,40 %

S

6,59 %

I

6,48 %

T

6,12 %

Im Vergleich dazu sind die häufigsten Wörter in deutschen Texten: der, die, und, in, den, von, zu, das, mit, sich …