Informationstheorie und Datenkompression
Texte aus der Sicht der Informationstheorie
Entropie von Texten
Kennt man die Statistik von Buchstabengruppen, so kann man sogar einen statistischen – natürlich sinnlosen – Text synthetisch erzeugen. Am Lehrstuhl für Nachrichtentechnik haben wir (Günter Söder) so z. B. die Häufigkeit ermittelt, mit der ein bestimmter Buchstabe nach einer Zweierkombination von Buchstaben in der Lutherbibel und der King-James-Bibel vorkommt.
Erzeugt man nun nach dieser Wahrscheinlichkeitstabelle einen pseudozufälligen Text, der mit der Zweierkombination „go“ beginnt, so erhält man beispielsweise die folgenden Texte (Abb. 2), die einem in manchen Abschnitten fast sinnvoll vorkommen können, so z. B. in der ersten Zeile „und so wie weinet“ und am Textende „thy drend of life me thee“.
Texte enthalten Redundanz und ihr Informationsgehalt (die Entropie) ist weit weniger als die oben bestimmten 5 bit pro Buchstabe. Was ist nun aber diese wahre Entropie von Texten und wie bestimmt man sie? Die Frage ist für die eingangs erwähnten Textkompressionsverfahren wichtig, denn das berühmte Kompressions-Theorem von Shannon besagt, dass man Texte bis auf ihre Entropie komprimieren und dann fehlerfrei wiedergewinnen kann. Allerdings ist es selbst für heutige Höchstleistungsrechner ein zu schwieriges Unterfangen, alle statistischen Bindungen in einem Kanon von Texten zu ermitteln, um dann daraus die Entropie zu berechnen.
Shannon hat bereits 1951 in einem genial einfachen Verfahren, dargestellt in seinem Aufsatz „The entropy of printed English“, eine gute Näherung gefunden. Er ließ Studenten den nächsten Buchstaben in einem abgedeckten Text schätzen und zählte die Zahl der Rateversuche, bis der (verdeckte) richtige Buchstabe gefunden wurde. Aus der Statistik dieser Zahlen konnte er einen Schätzwert von etwa 1.5 bit pro Buchstabe ermitteln, den der große deutsche Nachrichtentechniker Karl Küpfmüller 1954 für die deutsche Sprache in etwa bestätigte. Demnach müsste es also einen Kompressionsalgorithmus geben, der Texte um einen Faktor 5/1.5, also etwa um das Vierfache, komprimieren kann.