Speichersysteme, Archivierungsdauer, Organisation

Ratgeber Langzeitarchivierung: Dateiformate und Speichermedien

Dateiformate für die Langzeitarchivierung

Laut dem IT-Grundschutzkatalog (M 4.170) des Bundesamts für Sicherheit in der Informationstechnik (BSI) müssen Dateiformate, die bei der elektronischen Langzeitarchivierung eingesetzt werden, folgende Kriterien erfüllen:

  • Das Datenformat sollte möglichst langfristige Relevanz haben.

  • Die Dokumentstruktur sollte eindeutig interpretiert werden können.

  • Der Dokumentinhalt sollte elektronisch weiterverarbeitet werden können.

  • Gesetzliche Vorschriften müssen berücksichtigt werden.

  • Grammatik und Semantik des Datenformates sollten ausführlich dokumentiert sein, sodass eine spätere Migration zu anderen Formaten problemlos möglich ist.

  • Merkmale des Originaldokuments (elektronisch oder in Papierform) sollen später eindeutig nachweisbar sein, auch wenn das Originaldokument nicht mehr vorhanden ist.

Diese Voraussetzungen erfüllen jedoch nur wenige Dateitypen und Dokumentenbeschreibungssprachen:

SGML (Standard Generalized Markup Language) ist eine Dokumentenbeschreibungssprache, die die logische Struktur und den Inhalt von elektronischen Dokumenten beschreibt. Sie kann als Format für die Langzeitarchivierung von elektronischen Dokumenten verwendet werden. Allerdings muss auch die Semantikspezifikation (DTD, Document Type Definitions) mit archiviert werden. Das BSI empfiehlt zudem, zusätzlich eine grafische Repräsentation des Ursprungsdokuments zu archivieren, etwa als TIFF-Bilddatei, weil SGML keinerlei Layout-Informationen enthält.

HTML (Hyper Text Markup Language) ist eine Strukturbeschreibungssprache für elektronische Dokumente, wird jedoch nicht als Format für die Langzeitarchivierung empfohlen. Der Grund: Es ist schwierig, das Gesamtdokument inklusive der verlinkten Bilder, Subdokumente und Querverweise zu archivieren.

XML kann als Format für die Langzeitarchivierung genutzt werden. Bei der Archivierung sind jedoch auch die Semantikspezifikationen (Document Type Definitions) und gegebenenfalls auch die Layout-Daten zu speichern.

PDF (Portable Document Format) speichert neben den Strukturinformation von elektronischen Dokumenten auch Layout-Informationen. Speziell für Langzeitarchivierung wurde die Version PDF/A (A wie Archivierung) entwickelt. Damit lassen sich Dokumente vollständig, eindeutig, zugänglich und erschließbar beschreiben.

TIFF (Tagged Image File Format) wird zur Speicherung gerasterter Bilder verwendet. Eine TIFF-Datei besteht aus einem Datei-Header und der Bildinformation. Der Header enthält Daten zum Bild, beispielsweise über die Auflösung oder das eingesetzte Kompressionsverfahren. TIFF ist in komprimierter Form als Format für die Langzeitarchivierung von Bildern und Bildrepräsentationen von Dokumenten tauglich.

GIF (Graphics Interchange Format) wird nur für die kurz- und mittelfristige Archivierung empfohlen, weil bei der Konvertierung in GIF Bildinformationen verloren gehen.

JPEG (Joint Photographic Experts Group) eignet sich besonders für Farb- und Grauwertbilder. Auch dieses Format kommt für die Langzeitarchivierung von Bildern und Bildrepräsentationen von Dokumenten in Betracht. Für eine revisionssichere Archivierung empfiehlt das BSI, bei der Auswahl der Kompressionsstufe eine verlustfreie Kompression zu wählen.

ASCII: Dieses Format führt das BSI nicht auf. Plain-Text-Dokumente (.txt) haben den Vorteil, dass sie bereits seit Jahrzehnten im Einsatz sind und von unterschiedlichen Systemen (etwa Unix, Linux, Windows oder MacOS) gelesen werden können. Allerdings vermisst das BSI im Vergleich zu XML oder SGML bei ASCII eine "langfristige Stabilität hinsichtlich der Syntax und Semantik der Daten".