Informationstheorie und Datenkompression

Texte aus der Sicht der Informationstheorie

Der LZ-Algorithmus

Shannons Theorie ist nicht konstruktiv, so dass man aufgrund seiner Ergebnisse allein keinen solchen Textprozessor bauen kann. Seit 50 Jahren bemühen sich Ingenieure und Informatiker, das Shannonsche Versprechen einzulösen. In Textverarbeitungsprogrammen taucht manchmal das Kürzel LZ auf. Dies weist auf einen Kompressionsalgorithmus der israelischen Wissenschaftler Abraham Lempel und Jacob Ziv hin, der sogar komprimieren kann, ohne die Statistik zu kennen.

Die Statistik der Buchstabenfolgen lernt der LZ-Algorithmus so zusagen intern, während er die Texte bearbeitet. Nun weiß man, dass die Shannonsche Theorie nur asymptotisch, also für sehr lange Texte gilt und somit der „Kompressor“ nur dann gute Kompressionsergebnisse liefert, wenn man statt einer Seite das ganze Buch oder noch besser eine ganze Bibliothek komprimiert.

Kompression langer Texte

Man kann das Experiment leicht am häuslichen Computer machen, indem man die Größe des originalen Textes, bzw. von Teilen desselben, jeweils mit denen der „zip-Files“ vergleicht. Statt des Kompressionsfaktors 4 erreicht man wohl nur Werte von 2 bis 2.5.

Rechenaufwändigere Verfahren, wie das „Context Tree Weighting“-Verfahren erreichen eine bessere Kompression; der Algorithmus untersucht hierbei den Kontext, indem er einen Kontextbaum aufbaut, aber immer nur auf „dummer“ statistischer Basis. Die Feinheiten der Semantik und Grammatik bleiben außen vor, ganz zu schweigen von der Weisheit oder der ästhetischen Schönheit, die in einem Text stecken mag.