Automatisierte Rekonstruktion von Stasiakten

In einer Nacht- und Nebelaktion wurden im Herbst 1989 heikle Stasiakten vernichtet. Das Ergebnis: In 16.250 Säcken lagern bis heute schätzungsweise 45 Millionen der damals zerrissenen Dokumente. Nun soll das Fraunhofer IPK dieses gigantische Puzzle rechnergestützt zusammensetzen.

Geschätzte 45 Millionen DIN-A4-Seiten wurden damals in je acht bis 30 Teile zerlegt. Bisher gelang es nur, einen geringen Teil dieser Dokumente zu rekonstruieren, denn das manuelle Zusammensetzen ist sehr zeitintensiv. Um die etwa 600 Millionen Papierschnipsel von Hand zusammenzufügen, würden 30 Personen 600 bis 800 Jahre benötigen.

Forscher des Fraunhofer IPK können das eigenen Angaben zufolge weitaus schneller: Sie entwickelten ein computergestütztes Verfahren, um das Schnipselpuzzle zu automatisieren und somit eine zeitnahe Auswertung der Unterlagen zu ermöglichen. Bereits 2003 wurde die Machbarkeit dieses virtuellen Puzzelns demonstriert. Nun startet das Pilotprojekt für die rechnerbasierte Rekonstruktion.

Alle Hände voll zu tun haben die Forscher vom Fraunhofer IPK, um die rund 600 Millionen Schnipsel richtig zusammenzusetzen. Foto: Fraunhofer/Caro/Jandke
Alle Hände voll zu tun haben die Forscher vom Fraunhofer IPK, um die rund 600 Millionen Schnipsel richtig zusammenzusetzen. Foto: Fraunhofer/Caro/Jandke
Foto:

Bevor das virtuelle Puzzeln losgehen kann, müssen die Schnipsel beidseitig digitalisiert werden. Den Scanprozess übernimmt die arvato direct services GmbH, die seit 2005 mit dem IPK zusammenarbeitet. In der Kooperation geht es vor allem um die Digitalisierung von unterschiedlichen Dokumenten für Anwendungen im Behördenmarkt und in der Finanzbranche. Im Verlauf der Zusammenarbeit entstanden neuartige Scankonzepte, die nun bei der Digitalisierung der Schnipsel zum Einsatz kommen.

Die Puzzle-Software setzt die zerrissenen Akten zusammen. Foto: Fraunhofer/Caro/Jandke
Die Puzzle-Software setzt die zerrissenen Akten zusammen. Foto: Fraunhofer/Caro/Jandke
Foto:

„Das virtuelle Puzzeln folgt der Logik des manuellen Puzzelns“, sagt Dr. Bertram Nickolay, Abteilungsleiter am IPK. Der Mensch verwendet für die Lösung dieses Geduldspiels eine Vielzahl von Merkmalen, anhand derer er entscheidet, ob zwei Teile zueinander passen oder nicht. Dazu zählen die Form der Teile und welche Farbe oder Schrift auf den Puzzlestücken zu erkennen ist. Diese Vorauswahl macht das Suchen und Finden passender Puzzlestücke leichter.

„Auch der virtuelle Puzzleprozess beginnt so“, erklärt Nickolay. „Das System berechnet verschiedene beschreibende Merkmale wie Form oder Textur, um den Suchraum zu reduzieren. Innerhalb dieser kleineren Menge erfolgt die eigentliche Rekonstruktion.“ Dafür werden Schnipsel entlang ihrer Konturen auf Übereinstimmungen hin verglichen. Sind passende Teile gefunden, werden sie zu einem größeren Dokument zusammengefasst. Dann beginnt der Vorgang von vorn. Schnipsel für Schnipsel entsteht so wieder Seite für Seite der Stasiakten.

Die Algorithmen des IPK können inzwischen nicht nur von Hand zerrissene Unterlagen, sondern sogar geschredderte Papiere wieder zusammensetzen. Das ist besonders kompliziert, da bei maschinell zerkleinerten Dokumenten ein wesentliches Merkmal des Puzzelns – die Form – nicht zur Verfügung steht. Stattdessen müssen Buchstabenteile als Merkmale herangezogen werden. So konnte beispielsweise für eine Steuerfahndungsbehörde ein Sack mit geschredderten Dokumenten vollständig rekonstruiert werden. (dsc)