Informationstheorie und Datenkompression

Texte aus der Sicht der Informationstheorie

Entropie von Texten

Kennt man die Statistik von Buchstabengruppen, so kann man sogar einen statistischen – natürlich sinnlosen – Text synthetisch erzeugen. Am Lehrstuhl für Nachrichtentechnik haben wir (Günter Söder) so z. B. die Häufigkeit ermittelt, mit der ein bestimmter Buchstabe nach einer Zweierkombination von Buchstaben in der Lutherbibel und der King-James-Bibel vorkommt.

Abb. 2: Beispiele synthetisch erzeugter Texte.
Abb. 2: Beispiele synthetisch erzeugter Texte.

Erzeugt man nun nach dieser Wahrscheinlichkeitstabelle einen pseudozufälligen Text, der mit der Zweierkombination „go“ beginnt, so erhält man beispielsweise die folgenden Texte (Abb. 2), die einem in manchen Abschnitten fast sinnvoll vorkommen können, so z. B. in der ersten Zeile „und so wie weinet“ und am Textende „thy drend of life me thee“.

Texte enthalten Redundanz und ihr Informationsgehalt (die Entropie) ist weit weniger als die oben bestimmten 5 bit pro Buchstabe. Was ist nun aber diese wahre Entropie von Texten und wie bestimmt man sie? Die Frage ist für die eingangs erwähnten Textkompressionsverfahren wichtig, denn das berühmte Kompressions-Theorem von Shannon besagt, dass man Texte bis auf ihre Entropie komprimieren und dann fehlerfrei wiedergewinnen kann. Allerdings ist es selbst für heutige Höchstleistungsrechner ein zu schwieriges Unterfangen, alle statistischen Bindungen in einem Kanon von Texten zu ermitteln, um dann daraus die Entropie zu berechnen.

Shannon hat bereits 1951 in einem genial einfachen Verfahren, dargestellt in seinem Aufsatz „The entropy of printed English“, eine gute Näherung gefunden. Er ließ Studenten den nächsten Buchstaben in einem abgedeckten Text schätzen und zählte die Zahl der Rateversuche, bis der (verdeckte) richtige Buchstabe gefunden wurde. Aus der Statistik dieser Zahlen konnte er einen Schätzwert von etwa 1.5 bit pro Buchstabe ermitteln, den der große deutsche Nachrichtentechniker Karl Küpfmüller 1954 für die deutsche Sprache in etwa bestätigte. Demnach müsste es also einen Kompressionsalgorithmus geben, der Texte um einen Faktor 5/1.5, also etwa um das Vierfache, komprimieren kann.