Speichersysteme, Archivierungsdauer, Organisation

Ratgeber Langzeitarchivierung: Dateiformate und Speichermedien

21.01.2013 von Bernd  Reder
Die gesetzeskonforme und revisionssichere Langzeitarchivierung von Dokumenten ist eine Wissenschaft für sich. Bei elektronischen Daten müssen spezielle Vorkehrungen getroffen werden, damit sie nach zehn Jahren oder später noch lesbar sind. Eine Schlüsselrolle spielt die Wahl der Archivierungsmedien und der Dateiformate.

Papier ist nicht nur geduldig, es eignet sich auch hervorragend als Träger für Informationen, die rechtskonform und revisionssicher archiviert werden müssen. Wird es richtig gelagert, kann ein Dokument aus säurefreiem Papier mehrere hundert Jahre überdauern.

Differenzen: Je nach Branche gelten in Deutschland unterschiedliche Vorgaben in Bezug auf die Langzeitarchivierung von Unterlagen. Besonders lange müssen Dokumente im medizinischen Bereich aufbewahrt werden.
Foto: BMWi

Doch mittlerweile liegen immer mehr Daten nur noch in elektronischer Form vor: Steuerdokumente, Verträge, Entwicklungsunterlagen oder Umsatzstatistiken. Und an die Stelle des Briefs oder des Fax-Dokuments treten E-Mails und Instant Messages.

Viele dieser Unterlagen müssen Jahre, teilweise Jahrzehnte aufbewahrt werden. Bei Geschäftsunterlagen beträgt der vom Gesetzgeber vorgegebene Archivierungszeitraum bis zu zehn Jahre, bei Patientendaten sind es bis zu 30 Jahre. Für Gebäudepläne, Katastereinträge und Unterlagen für medizinische Geräte gilt, dass sie über den gesamten Lebenszeitraum hinweg aufbewahrt werden müssen. Das Bundesministerium für Wirtschaft und Technologie hat hierzu den Handlungsleitfaden zur Aufbewahrung elektronischer und elektronisch signierter Dokumente erstellt.

Differenzierung Archivierung und Backup

Häufig werden die Begriffe "Backup" und "Archivierung" fälschlicherweise in einen Topf geworfen. Beide Verfahren unterscheiden sich jedoch in wesentlichen Punkten:

Backup: Es wird eine Kopie von Produktionsdaten für den Fall erstellt, dass diese durch Benutzerfehler oder einen Hardwaredefekt verloren gehen und wiederhergestellt werden müssen. Als Speichermedium für Backup-Daten dienen Festplatten beziehungsweise Storage-Systeme, Bänder (Tapes) und Cloud-basierte Online-Speicher. Backups decken in der Regel ein schmales Zeitfenster ab, je nach Branche und Geschäftsfeld reicht es von wenigen Stunden bis hin zu mehreren Monaten. Wichtig ist das möglichst schnelle Wiederherstellen (Retention) von verloren gegangenen Datenbeständen.

Archivierung: Hierunter versteht man das systematische und langfristige Verlagern von Daten von Produktivsystemen auf spezielle Datenträger wie Magnetbänder, optische Speichermedien oder Festplatten. Die Daten müssen in einer Form archiviert werden, die nachträgliche Änderungen unterbindet. Bei der Langzeitarchivierung ist eine Aufbewahrung über einen Zeitraum von zehn Jahren und länger gefordert.

Warum Langzeitarchivierung wichtig ist

Für Unternehmen ist das Langzeitarchivieren von Unterlagen aus mehreren Gründen unverzichtbar. Zum einen erfordern gesetzliche Vorgaben wie das Handelsgesetzbuch, die Abgabenordnung (AO) und die Grundsätze zum Datenzugriff und zur Prüfbarkeit digitaler Unterlagen (GDPdU), dass Firmen Geschäftsdaten bis zu zehn Jahre lang aufbewahren. Diese Daten müssen Firmen Behörden, etwa dem Finanzamt, bei Bedarf umgehend und in einem maschinenlesbaren Format zur Verfügung stellen.

Der zweite Punkt ist die Beweissicherung, beispielsweise im Rahmen eines Schadenersatzprozesses wegen eines angeblichen Konstruktionsfehlers eines Produkts. Dann muss ein Unternehmen auch noch nach Jahrzehnten die Originalunterlagen vorlegen können. Damit ein archiviertes elektronisches Dokument als Beweismittel zugelassen wird, ist es allerdings erforderlich, kryptografisch signierte Dokumente in ihrem Beweiswert zu sichern und sie nötigenfalls zusammen mit den Metadaten, Signaturen und Beweissicherungen (Evidence Records) zu exportieren.

Geprüft: Die beweiswerterhaltende Archivierung gewinnt an Bedeutung. Sie erfordert jedoch eine qualifizierte digitale Signatur und weitere Maßnahmen, die die Integrität und Authentizität eines Dokuments sicherstellen. Dies wird mithilfe einer Middleware erreicht, die auf der Technischen Richtlinie 03125 "TR-ESOR" des BSI basiert.
Foto: BSI

Das erfolgt mithilfe einer Middleware. Details dazu hat das Bundesamt für Sicherheit in der Informationstechnik (BSI) in der Technischen Richtlinie (TR) 03125 fixiert. Eine vom BSI zertifizierte beweiswerterhaltende Langzeitarchivierungslösung ist beispielsweise SecDocs von Fujitsu.

Eine Langzeitarchivierung von Daten bietet weiterhin die Möglichkeit, auf vorhandenes Know-how zurückzugreifen oder dieses bei Bedarf an Interessenten zu verkaufen (Verwertung von Patenten). Für öffentliche Einrichtungen wie Bibliotheken oder staatliche Archive ist die Langzeitarchivierung von Dokumenten die Grundlage ihrer Tätigkeit.

Verfügbarkeit von Datenträgern und Laufwerken berücksichtigen

Wenn Daten zehn Jahre oder länger aufbewahrt werden sollen, spielen die Archivierungsmedien und die entsprechenden Schreib-/Lesesysteme eine zentrale Rolle.

Speichermedien: Bezogen auf die gespeicherten Datenmengen dominieren im Bereich Archivierung laut der Marktforschungsgesellschaft ESG weltweit drei Speichermedien: externe und interne Festplatten sowie Tapes. Cloud-basierte Archivierungsangebote gewinnen jedoch Boden.
Foto: ESG

Eines der größten Probleme ist, dass zu wenige gesicherte Daten über die Haltbarkeit von Speichermedien wie Magnetbänder, Festplatten, DVDs oder Flash-Speicher verfügbar sind. Bei optischen Medien gilt eine Lebensdauer von 10 bis 30 Jahren als realistisch, bei Festplatten sind es etwa fünf Jahre. Magnetbänder können 30 Jahre oder mehr überstehen.

Anwender sind allerdings gut beraten, wichtige Daten rechtzeitig auf neue Medien umzukopieren. Als Faustregel gilt, dass dies bei optischen Medien und Bändern alle fünf Jahre erfolgen sollte. Flash-Speicher wie Solid State Drives werden derzeit so gut wie gar nicht als Archivierungsmedien eingesetzt. Dazu sind sie schlichtweg zu teuer.

Eignung von Medien für Langzeitarchivierung (Quelle: NESTOR-Handbuch Version 2.3)

Anforderung

Festplatte

Tape

Optische Medien

Für häufige Zugriffe ausgelegt

ja

nein

nein

Kurze Zugriffszeiten

ja

nein

je nach Medium

Kurze Archivierungsdauer (< 1 Jahr)

ja

ja

ja

Mittlere Archivierungsdauer (< 10 Jahre)

nein

ja

ja

Lange Archivierungsdauer (10 - 20 Jahre)

nein

ja

ja

Auslagerung des Mediums möglich

nein

ja

ja

Daten nicht veränderbar

nein

mit WORM-Tape

mit WORM-Disk

Zu berücksichtigen ist zudem, wie lange die Hard- und Software zur Verfügung steht, mit der sich archivierte Daten auslesen lassen. Zwei Beispiele: Die US-Weltraumbehörde NASA kann nicht mehr auf Magnetbänder mit Daten der Mars-Sonden Pioneer und Viking zugreifen, weil die entsprechenden Bandlaufwerke vom Markt verschwunden sind. Ein vergleichbares Problem ist bei Archivdaten der ehemaligen DDR aufgetreten.

Langzeitarchivierung: Organisation der Daten und Dateiformate berücksichtigen

Eine Voraussetzung für eine effiziente Langzeitarchivierung ist ein funktionierendes Datenmanagement. Dies ist in vielen Unternehmen nur in unzureichendem Maße vorhanden, weil einzelne Abteilungen unterschiedliche Datentypen verwenden: Forschungsergebnisse oder Marktinformationen liegen als Rohdaten vor, die in "Working Data" (Arbeitsdaten) umgesetzt werden, etwa Berichte. Diese Datentypen werden wiederum in unterschiedlichen Systemen gespeichert: Rohdaten beispielsweise in einer Projektdatenbank in der Forschungs- und Entwicklungsabteilung, Dokumente in einem EDRMS (Electronic Document and Records Management System). Für die Archivierung müssen alle diese Daten zusammengeführt, konsolidiert, in Standardformate wie PDF/A, TIFF oder XML überführt und archiviert werden.

Eine der größten Herausforderung besteht im Umgang mit unterschiedlichen Dateiformaten. Es ist wenig hilfreich, wenn ein Dokument beispielsweise in einem proprietären Format vorliegt, das Jahrzehnte später nicht mehr lesbar ist. Gleiches gilt für komprimierte Files (ZIP, RAR), Datenbankformate und spezielle E-Mail-Dateiformate wie PST von Outlook. Das BSI empfiehlt daher als Standardformate für die Langzeitarchivierung von Dokumenten und Bildern die Formate PDF/A, SGML, XML, JPEG und TIFF, gegebenenfalls ASCII.

Generell muss ein digitales Archivierungssystem verschiedene Anforderungen erfüllen. Es muss

Dateiformate für die Langzeitarchivierung

Laut dem IT-Grundschutzkatalog (M 4.170) des Bundesamts für Sicherheit in der Informationstechnik (BSI) müssen Dateiformate, die bei der elektronischen Langzeitarchivierung eingesetzt werden, folgende Kriterien erfüllen:

Diese Voraussetzungen erfüllen jedoch nur wenige Dateitypen und Dokumentenbeschreibungssprachen:

SGML (Standard Generalized Markup Language) ist eine Dokumentenbeschreibungssprache, die die logische Struktur und den Inhalt von elektronischen Dokumenten beschreibt. Sie kann als Format für die Langzeitarchivierung von elektronischen Dokumenten verwendet werden. Allerdings muss auch die Semantikspezifikation (DTD, Document Type Definitions) mit archiviert werden. Das BSI empfiehlt zudem, zusätzlich eine grafische Repräsentation des Ursprungsdokuments zu archivieren, etwa als TIFF-Bilddatei, weil SGML keinerlei Layout-Informationen enthält.

HTML (Hyper Text Markup Language) ist eine Strukturbeschreibungssprache für elektronische Dokumente, wird jedoch nicht als Format für die Langzeitarchivierung empfohlen. Der Grund: Es ist schwierig, das Gesamtdokument inklusive der verlinkten Bilder, Subdokumente und Querverweise zu archivieren.

XML kann als Format für die Langzeitarchivierung genutzt werden. Bei der Archivierung sind jedoch auch die Semantikspezifikationen (Document Type Definitions) und gegebenenfalls auch die Layout-Daten zu speichern.

PDF (Portable Document Format) speichert neben den Strukturinformation von elektronischen Dokumenten auch Layout-Informationen. Speziell für Langzeitarchivierung wurde die Version PDF/A (A wie Archivierung) entwickelt. Damit lassen sich Dokumente vollständig, eindeutig, zugänglich und erschließbar beschreiben.

TIFF (Tagged Image File Format) wird zur Speicherung gerasterter Bilder verwendet. Eine TIFF-Datei besteht aus einem Datei-Header und der Bildinformation. Der Header enthält Daten zum Bild, beispielsweise über die Auflösung oder das eingesetzte Kompressionsverfahren. TIFF ist in komprimierter Form als Format für die Langzeitarchivierung von Bildern und Bildrepräsentationen von Dokumenten tauglich.

GIF (Graphics Interchange Format) wird nur für die kurz- und mittelfristige Archivierung empfohlen, weil bei der Konvertierung in GIF Bildinformationen verloren gehen.

JPEG (Joint Photographic Experts Group) eignet sich besonders für Farb- und Grauwertbilder. Auch dieses Format kommt für die Langzeitarchivierung von Bildern und Bildrepräsentationen von Dokumenten in Betracht. Für eine revisionssichere Archivierung empfiehlt das BSI, bei der Auswahl der Kompressionsstufe eine verlustfreie Kompression zu wählen.

ASCII: Dieses Format führt das BSI nicht auf. Plain-Text-Dokumente (.txt) haben den Vorteil, dass sie bereits seit Jahrzehnten im Einsatz sind und von unterschiedlichen Systemen (etwa Unix, Linux, Windows oder MacOS) gelesen werden können. Allerdings vermisst das BSI im Vergleich zu XML oder SGML bei ASCII eine "langfristige Stabilität hinsichtlich der Syntax und Semantik der Daten".

Zentrales Archivierungssystem aufbauen

Ein Fehler, den Unternehmen und öffentliche Einrichtungen häufig begehen, ist der Einsatz mehrerer Archivierungssysteme, etwa für einzelne Unternehmensbereiche oder für unterschiedliche Dokumententypen wie E-Mails und Office-Dokumente. Dies erhöht die Komplexität der Archivierungsinfrastruktur und damit die Gefahr, dass Medienbrüche und Fehler auftreten. Zudem ist ein solches Vorgehen kostspielig.

Alle Dokumente und die entsprechenden Meta-Daten (Informationen, die Dokumente beschreiben) sollten digital erzeugt beziehungsweise übernommen werden. Dies stellt sicher, dass Dokumente dieselben Datenformate aufweisen und nach einheitlichen Kriterien indiziert werden. Nur in Ausnahmefällen sollten Unterlagen von Hand gescannt und indiziert werden. Dies wird sich jedoch nie ganz ausschließen lassen.

Die Dokumente sollten zusammen mit den Meta-Daten in einem Container abgelegt werden. Das macht es einfacher, ein digitales Archiv auf ein anderes Archivierungssystem zu übertragen, etwa wenn der Anbieter gewechselt wird.

Meta-Daten für schnellen Zugriff und Rechteverwaltung

Das Ablegen von Daten in einem Archiv ist jedoch nur die halbe Miete. Ebenso wichtig ist es, bei Bedarf schnell auf Informationen zugreifen zu können. Eine Schlüsselrolle spielen dabei die angesprochenen Meta-Daten. Nicht jedes Dateiformat kann im Header die entsprechenden Informationen ablegen. Im Abschnitt "Dateiformate für die Langzeitarchivierung" unten ist aufgeführt, welche Dateiformate für das langfristige Archivieren von Informationsbeständen infrage kommen. Die Meta-Daten (Deskriptoren) geben nicht nur Hinweise auf den Datentyp, sondern auch den Inhalt eines Dokuments. Das ist die Voraussetzung für eine erfolgreiche Suche nach einem bestimmten Dokument.

Meta-Daten bilden zudem die Grundlage für die Indizierung des Datenbestandes. Anwender sollten bei der Wahl eines Langzeitarchivierungsprodukts diesem Punkt besondere Aufmerksamkeit schenken. Eine stringente Indizierung wiederum ist die Voraussetzung für die Vergabe von Zugriffsrechten und das automatische Verteilen von Dokumenten. Zudem verhindert eine Indizierung, dass Dokumente mehrfach abgelegt werden.

Speichersysteme und Medien: von NAS bis CAS

Nach einer Studie der amerikanischen Marktforschungsgesellschaft Enterprise Strategy Group (ESG) dominieren derzeit im Bereich Langzeitarchivierung drei Medientypen: interne Festplatten, externe Storage-Systeme mit Harddisks, etwa NAS-Geräte (Network-Attached Storage) und Speichersysteme, die in ein Storage Area Network (SAN) eingebunden sind, sowie Bandlaufwerke. Optische Medien wie DVDs spielen dagegen nur eine untergeordnete Rolle.

Eine klassische "Speicher-Pyramide" in einem Unternehmensnetz: Produktivdaten werden auf schnellen RAID-Systemen und SSD-Speichern vorgehalten. Im Lauf ihres Lebenszyklus werden Informationen sukzessive auf langsamere, dafür preisgünstigere Archivierungsmedien wie Tapes oder optische Speicher wie Utra Density Optical Discs (UDO) verlagert.
Foto: Point Software & Systems

Bis 2015 wird laut ESG das Archivieren von Daten in Cloud-basierten Storage-Umgebungen an Bedeutung gewinnen. In ihnen werden 2015 etwa 12 Prozent der Daten archiviert. Anbieter von Cloud-Archivierungslösungen in Deutschland sind Artec, EMC, Fujitsu, Informatica, myOXSEED und Symantec, um nur einige zu nennen.

Viele Unternehmen integrieren Langzeitarchivierung in ihr Storage-Konzept. Dabei werden Daten abhängig davon, wie oft auf sie zugegriffen wird, auf einzelne Speicherebenen und die entsprechenden Systeme verlagert. Für das Archivieren sind langsamere, dafür preisgünstigere Speichermedien vorgesehen. Eine solche Infrastruktur könnte folgendermaßen aussehen:

Lebensdauer von Archivierungsmedien

Lebensdauer diverser Speichermedien: Die Werte basieren auf Schätzungen, weil in vielen Fällen gesicherte Erfahrungswerte aus der Praxis noch fehlen, etwa bei optischen Datenträgern.

Was die Langzeitarchivierung betrifft, haben die Sumerer die Nase vorn. Die ältesten Palastarchive dieses Volkes, das im heutigen Irak heimisch war, wurden auf Tontafeln angelegt und stammen aus dem Jahr 3000 vor Christus. Damit können es elektronische Archivierungsmedien nicht aufnehmen, auch wenn für etliche von ihnen noch Resultate von Langzeitmessungen ausstehen.

Filme aus Zelluloid: Sie können 100 Jahre halten, vermutlich sogar noch länger. Dieses Medium kommt nur in Ausnahmefällen in Unternehmen zum Einsatz. Typische Anwender sind Bibliotheken und Staatsarchive wie das Bundesarchiv in Koblenz.

Optische Speichermedien wie CD-ROMs, DVDs, DVD-RAMs und Blu-ray-Discs (BD): Hier liegen bislang nur unzureichende Praxiserfahrungen vor. Etliche Werte basieren auf Tests in Klimakammern, in denen Alterungsprozesse simuliert werden. Bei wiederbeschreibbaren (gebrannten) Medien wie CD-RW und DVD-RW wird eine Haltbarkeit von deutlich weniger als 30 Jahren vermutet. Bei DVD-RAMs sind es bis zu 30 Jahre, bei BD-Discs etwa 50 Jahre.

Gepresste optische Medien weisen eine höhere Haltbarkeit auf: CDs kommen nach Angaben von Herstellern auf bis zu 80 Jahre, DVDs auf 100 Jahre. Bei Blu-ray-Discs werden etwa 80 Jahre vermutet. Gesichert sind diese Angaben jedoch nicht. Wichtig ist die richtige Lagerung: Optische Datenträger sollten bei Temperaturen von weniger als 25 Grad Celsius und einer Luftfeuchtigkeit von unter 80 Prozent aufbewahrt werden.

Festplatten (SATA, iSCSI) in Rechnern oder Storage-Systemen: Bei Platten, die in Produktivsystemen wie Rechnern eingesetzt werden, liegt die Lebensdauer bei etwa fünf Jahren. So lange geben die meisten Hersteller auch Garantie auf ihre Harddisks. Bei Festplatten, die nur als Backup-Medium dienen, beträgt die Haltbarkeit etwa zehn Jahre.

Magnetbänder: Tapes sind im Großrechnerbereich bereits seit Jahrzehnten im Einsatz. Daher liegen Praxiserfahrungen vor. Die Lebensdauer von Bändern beträgt bei entsprechender Lagerung mindestens 30 Jahre. Schätzungen gehen von einer Haltbarkeit von 50 Jahren aus.

Flash-Speicher (USB-Sticks, Solid State Drives / SSD): Je nach der Zahl der Schreib-/Lesezyklen nimmt bei Flash-Speichern die Zahl der zur Verfügung stehenden Speicherzellen mit der Zeit ab. Hersteller wie Intel, Sandisk und Samsung geben für eine SSD, die in einem Rechner als Festplattenersatz verwendet wird, eine Haltbarkeitsdauer von mindestens fünf Jahren an, bei preisgünstigeren Modellen mit Multi Level Cells drei Jahre. Als Archivierungsmedium kann ein Flash-Speicher Schätzungen zufolge etwa zehn Jahre überdauern.

Holografische Speicher: Diese Technik hat bislang keine Akzeptanz gefunden. Produkte mit 500 GByte und 1 TByte Speicherkapazität wurden zwar von diversen Firmen wie Inphase, NTT, Tesa Scribos oder General Electric angekündigt. Jedoch konnte sich keines auf dem Markt durchsetzen. Holografische Speicher sollen mindestens 50 Jahre lang verwendbar sein.

Bits on Film: Noch ein Blick in die Zukunft: Das Fraunhofer-Institut für Physikalische Messtechnik (IPM) arbeitet an einem Verfahren, das mithilfe eines Belichtungssystems digitale Daten auf einen Polymerfilm überträgt. Das Auslesen des Films ist mit handelsüblichen optischen Scannern möglich. Dank der hohen Lebensdauer des Datenfilms sollen die Originaldaten auch nach Jahrhunderten zuverlässig rekonstruierbar sein. Die Lebensdauer des Polymerfilms beträgt laut Fraunhofer IPM 500 Jahre.

Langzeitarchivierung als Dienstleistung

Eine fundierte Langzeitarchivierung in Eigenregie zu etablieren ist mit einem relativ hohen Aufwand verbunden: Der Anwender muss die entsprechende Hard- und Software anschaffen und auf dem neuesten Stand halten, dafür Sorge tragen, dass Compliance-Regeln und rechtliche Vorgaben eingehalten werden, und die (Hoch-)Verfügbarkeit der Datenbestände sicherstellen. Deshalb gehen Anbieter von Archivierungslösungen dazu über, ihre Produkte als Software-as-a-Service (SaaS) über eine Cloud-Computing-Umgebung bereitzustellen. Zudem besteht die Möglichkeit, die Datenarchivierung komplett an einen Dienstleister auszulagern.

Dies ist auch bei der beweiserhaltenden Langzeitarchivierung möglich. Der Service Provider hält in diesem Fall in seinem Rechenzentrum die Infrastruktur vor, also die Speichersysteme, die Software und Middleware, wie etwa SecDocs von Fujitsu. Die Abrechnung erfolgt in diesem Fall abhängig von der Nutzung. Das heißt, der Anwender zahlt nur für die Services, die er tatsächlich in Anspruch nimmt.

Bei der Nutzung von Cloud-Services ist allerdings zu prüfen, ob der Anbieter über Sicherheitszertifikate wie ISO 27001 verfügt und wo die Daten physisch gelagert werden. Vorzuziehen sind Provider, die Rechenzentren in Deutschland oder in der EU betreiben und den Vorgaben des EU-Datenschutzrechts - noch besser den strengeren deutschen Datenschutzregeln - unterliegen. Der Grund: Das deutsche Datenschutzrecht verlangt, dass personenbezogen Informationen wie Personalunterlagen nur in Rechenzentren gespeichert und bearbeitet werden dürfen, die in einem EU-Land liegen.

Ein weiterer Trend: Die Langzeitarchivierung findet nach wie vor im Unternehmen statt. Den Betrieb der Lösung und der entsprechenden Infrastruktur übernehmen jedoch externe Fachleute. Dieses Modell ist bereits aus anderen Bereichen bekannt, etwa bei der Verwaltung von Druckern und Kopierern (Managed Print Services). Dank eines abgestuften Zugriffs- und Sicherheitskonzepts haben in diesem Fall nur die dazu berechtigen Mitarbeiter des Unternehmens Zugang zu den elektronischen Daten. Auch dieses Konzept senkt die Betriebskosten und schont die hauseigenen IT-Ressourcen. (mje)

Dieser Artikel basiert auf einem Beitrag unserer Schwesterpublikation Computerwoche.