Informationstheorie und Datenkompression

Texte aus der Sicht der Informationstheorie

Die Kompressionsrate von Texten etwa mit dem „ZIP-Algorithmus“ liefert einen Hinweise über deren Informationsgehalt. Doch die von Claude Shannon begründete Informationstheorie erklärt nicht nur die maximale Kompressionsrate, sie ermittelt auch die Verwandtschaft von Texten und kann so deren Autor erkennen.

Wer heute Texte mit einem Textverarbeitungsprogramm bearbeitet, archiviert oder über das Internet überträgt, benutzt möglicherweise eines der beim Textverarbeitungssystem vorhandenen Kompressionsprogramme, um Speicherplatz oder Übertragungszeit zu sparen. Solche Programme sind etwa unter dem Namen „zip“ bekannt. Man kann nun danach fragen, wie groß der minimale Speicherplatzbedarf nach solch einer Komprimierung ist. Dies ist eine Frage von immenser Bedeutung, wenn man daran denkt, dass etwa die Firma Google daran arbeitet, alle Texte unserer Geistes- und Wissenschaftsgeschichte zu speichern, zu verteilen und so rasch zugänglich zu machen.

Der mittlere Informationsgehalt von Nachrichtenquellen

Diese Frage wurde lange vor der Einführung der modernen Speicher- und Rechnertechnologie bereits 1948 durch den Mathematiker und Ingenieur Claude Elwood Shannon (1919–2001) grundsätzlich beantwortet.

Klassiker: Claude E. Shannon klärte bereits 1948 die grundlegenden mathematischen Hintergründe der Kommunikation. Das 1949 veröffentlichte Grundlagenwerk ist auch heute noch in der Auflage von 1998 im Buchhandel erhältlich.
Klassiker: Claude E. Shannon klärte bereits 1948 die grundlegenden mathematischen Hintergründe der Kommunikation. Das 1949 veröffentlichte Grundlagenwerk ist auch heute noch in der Auflage von 1998 im Buchhandel erhältlich.

Shannon ist der Begründer einer ganzen Wissenschaftsdisziplin – der „Informationstheorie“ –, und sein Kompressionstheorem für Texte, das so genannte Quellencodiertheorem, ist nur ein kleiner Teil seines immensen Werkes. Die Aktualität seiner Arbeiten spiegelt sich darin wider, dass sein grundlegender Aufsatz von 1948 bei Scholar Google mit über 14.000 meist neueren Zitaten aufgelistet wird.