Die nestor-Ratgeber

Kostenlose Ratgeber: Digitale Langzeitarchivierung

16.06.2008 von Kai Hamann
Digitale Langzeitarchivierung ist ein erfolgskritisches Thema für Unternehmen, Bibliotheken, Archive und Museen. Das Kompetenznetzwerk nestor liefert ausführliche Informationen und Tipps zur digitalen Langzeitarchivierung und -verfügbarkeit. Das Beste: nestor stellt das Wissen mit kostenlosen Ratgebern bereit.

Langzeitarchivierung klingt komplex, und das ist es auch. Dabei gilt es zahlreiche Fallstricke zu beachten. Als Beispiel seien nur Faktoren wie Dateiformate oder die verwendeten Datenträger angeführt. Das klingt nach exotischen Dateiformaten, aber bereits eine rund zehn Jahre alte PDF-Datei ist mit einem Reader ab Version 7 unter Umständen nicht mehr richtig darstellbar. Abhilfe kann bei entsprechenden Problemen Datenträgermigration auf weiterhin unterstützte Datenträger oder Datenmigration in ein aktuelles Dateiformat schaffen.

Die Informationen zum Thema Langzeitarchivierung kommen häufig von Herstellern, die ihre Lösungen oft mit einem Marketing-geprägten Ansatz präsentieren, der wenig Raum für Kritik oder Hinweise auf Alternativen, beziehungsweise besser geeignete Möglichkeiten lässt. Aus diesem Grund ist es sinnvoll, sich unabhängigen Rat zu holen, der allerdings fast immer bezahlt werden muss. Dieser Aufwand lohnt sich für Unternehmen mit sehr großen Datenbeständen. Kleine und mittlere Unternehmen, und erst recht Privatanwender werden in Bezug auf ihren Archivierungsbedarf vor allem die mit offen sichtbaren Kosten verbundene Hardwareseite berücksichtigen und sich nur wenig um andere Aspekte kümmern.

Dadurch entsteht aber die Gefahr, dass Daten nur grob strukturiert gespeichert und vielleicht als Backup-Kopie gesichert werden. Ein Langzeitarchiv soll aber auch Langzeitverfügbarkeit gewährleisten, sodass Daten nicht nur sicher verfügbar bleiben, sondern auch einfach wiedergefunden und genutzt werden können. Das betrifft nicht nur Textdokumente, sondern heute zum Beispiel bereits auch Fotoarchive, in denen mit speziellen Verfahren nach ähnlichen Bildern oder bestimmten Personen gesucht werden kann. Ein Programm, das solche Funktionen bietet, ist der Magix Digital Foto Maker 8, in den Fraunhofer PhotoID- und FaceID-Technologien implementiert sind.

Auch für andere Medien wie Filme, Musikstücke, CAD-Daten oder medizinische Bilddaten werden zukünftig immer leistungsfähigere Suchmöglichkeiten verfügbar sein. Erst dadurch wird aus den gespeicherten Daten ein Archiv, das Arbeitsabläufe beschleunigt und die TCO senkt.

Das Kompetenznetzwerk nestor

Digitale Langzeitarchivierung wurde in Deutschland zum ersten Mal 1995 in einem Positionspapier „Elektronische Publikationen“ der Deutschen Forschungsgemeinschaft thematisiert. Danach wurde in einem Projekt des Bundesministeriums für Wissenschaft und Forschung daran gearbeitet, Grundlagen für eine bundesweite Langzeitarchivierungsstrategie zu erarbeiten. Daraus entstand 2003 das vom Bundesministerium für Bildung und Forschung geförderte Kompetenznetzwerk Langzeitarchivierung „nestor“ (Network of Expertise in long-term Storage of digital Resources). Partner an den nestor-Projekten sind heute, neben anderen, die Deutsche Nationalbibliothek, das Bundesarchiv, die Bayerische Staatsbibliothek, die Niedersächsische Staats- und Universitätsbibliothek Göttingen sowie die Fernuniversität in Hagen.

Die Ziele von nestor sind unter anderem:

Anders als bei vielen anderen staatlich geförderten Projekten stellt nestor allen Interessierten kostenlos in verschiedenen Dokumenten zusammengefasstes Wissen von Spezialisten aus der Praxis zur Verfügung. Neben Vortragsskripten, Präsentationen und Artikeln zu speziellen Themen sind zehn Publikationen besonders interessant, die im PDF-Format heruntergeladen und zum größten Teil auch über einen Print-on-Demand-Service bestellt werden können: die nestor-Materialien, das nestor-Handbuch und der nestor-Ratgeber. Auf den folgenden Seiten stellen wir diese Dokumente im Einzelnen vor.

Die Informationen in diesen Publikationen sind teilweise sehr kompakt und mit Anregungen und praktischen Tipps ergänzt. Dabei ist besonders hervorzuheben, dass viele Ratschläge kostenneutral in der Praxis umgesetzt werden können. Es handelt sich um Strategien und Hinweise, die die Verfügbarkeit der Daten, etwa durch geeignete Dateiformate, verbessern sollen, ohne ein Budget zusätzlich zu belasten. Hintergrund dürfte dabei sein, dass die vor allem adressierten Interessenten wie Bibliotheken und Archive zwar sehr große Datenbestände vorhalten und verfügbar machen müssen, aber unter chronischem Geldmangel leiden. Gerade dadurch empfehlen sich die Veröffentlichungen von nestor auch für kleine Unternehmen und Privatanwender.

Von Dateiformaten und Speichermedien

Der nur etwas mehr als 50 Seiten starke nestor-Ratgeber 1 ist Dateiformaten und Speichermedien gewidmet. Die wichtigsten Dateiformate für Bilder, Texte, Videos, Audio-Aufzeichnungen und Datenbanken werden einzeln beschrieben und bewertet. Dabei ist hilfreich, dass angegeben wird, wer die Rechte an dem Format hat und es kontrolliert. In einer Abwägung gibt es jeweils Angaben, welche Vor- und Nachteile ein Dateiformat bei der Langzeitarchivierung hat.

So wird darauf hingewiesen, dass bei Microsoft doc-Dateien schon heute die Lesbarkeit nicht sichergestellt werden kann, da es unterschiedliche Programmversionen gibt, deren Speicherformate untereinander nicht kompatibel sind. Aus diesem Grund werden auch andere beschriebene Textdokument-Dateiformate kritisch bewertet, und nur das TXT-Format wird, trotz des Nachteils, keine Layouts speichern zu können, wegen seiner plattformübergreifenden Nutzbarkeit für die Archivierung von Texten empfohlen. Als bedingt geeignet wird das PDF-Format bewertet, obwohl eine Rekonstruktion in Zukunft Probleme bereiten könnte.

nestor-Ratgeber 1: Nicht von Dauer: Kleiner Ratgeber für die Bewahrung digitaler Daten in Museen.

Ähnlich pragmatische Tipps werden auch für die anderen Dateitypen gegeben. Deswegen sollte man den nestor-Ratgeber 1 unbedingt zurate ziehen, wenn geplant wird, Daten langfristig zu archivieren. Weiterführende Links helfen dann die endgültige Entscheidung zu treffen, in welchen Formaten gespeichert werden soll. Hilfreich ist auch der Rat, ein Programm, mit dem eine Datei geöffnet werden kann, gleich mit auf den zur Archivierung verwendeten Datenträgern zu speichern.

Ähnlich praxisorientiert werden die gebräuchlichsten Speichermedien – Diskette, ZIP-Diskette, Magnetband, Festplatte, CD und DVD – besprochen und bewertet. Durch zusätzliche Texte, die sich unter anderem mit Migrationsstrategien beschäftigen, ist der nestor-Ratgeber 1 ein Dokument, das jeder Anwender kennen sollte, der Daten über lange Zeit speichern und verfügbar halten muss.

Enzyklopädie der digitalen Langzeitarchivierung

Das nestor-Handbuch soll nach Fertigstellung einen umfassenden Überblick über alle Aspekte der Langzeitarchivierung geben. In der aktuellen Version 0.1, die zirka 130 Seiten umfasst, sind große Teile noch nicht realisiert und nur im Inhaltsverzeichnis aufgeführt. Trotzdem ist das nestor-Handbuch lesenswert, denn es werden alle Teilbereiche aufgeführt, die eine Langzeitarchiverungs-Strategie beeinflussen. Eine Vielzahl Links, etwa zu Seiten mit Dateiformat-Beschreibungen oder Tools zur Formaterkennung, ersparen eigene Recherchezeit.

Aber auch, wenn man nicht kontinuierlich mit Archivierung zu tun hat, ist das nestor-Handbuch eine interessante Lektüre. So gibt es einen Abschnitt über Betriebssystem- und Hardware-Emulation, in dem man erfährt, wie nicht mehr vorhandene Computer und Anwendungen nachgebildet werden können. Interessant ist etwa der Ansatz des Universal Virtual Computers (UVC) von IBM. Er basiert auf einer umfassenden Dokumentation, durch die Programmierer einen virtuellen Rechner programmieren können, auf dem Programme auch in ferner Zukunft noch ablauffähig sind.

nestor-Handbuch: Eine kleine Enzyklopädie der digitalen Langzeitarchivierung.

Auf diese Weise soll es möglich sein, etwa nicht mehr unterstützte PDF-Dateiformate öffnen zu können. Das kann schon nach überraschend kurzer Zeit erforderlich sein. So werden PDF-Dateien, die mit Adobe Acrobat 1.2 von 1998 geschrieben wurden, mit einem Acrobat Reader ab Version 7 nicht mehr richtig dargestellt. Noch drastischer kann es sein, wenn Datenbestände genutzt werden sollen, die in einem proprietären Dateiformat gespeichert wurden oder auf nicht mehr nutzbaren Datenträger vorliegen. So musste die NASA feststellen, dass sie etwa 20 Prozent der Daten der Viking-Sonde nicht mehr auswerten kann. Auch die Daten der US-Volkszählung von 1960 sind nicht mehr vollständig im Zugriff. Abhilfe kann Datenträgermigration auf weiterhin unterstützte Datenträger oder Datenmigration in ein aktuelles Dateiformat sein.

Diese und andere Themen im Bereich Langzeitarchivierung werden im nestor-Handbuch kompakt und mit striktem Praxisbezug so dargestellt, dass auch Anwender mit geringem Archivierungsbedarf davon profitieren. Sogar Spielen ist ein recht umfangreiches Kapitel gewidmet, in dem nicht nur verschiedene Strategien gezeigt werden, mit denen Spiele langfristig nutzbar bleiben, sondern auch Links auf frei nutzbare Spielearchive vorhanden sind.

Rechtliche Aspekte

Die nestor-materialien 1 beschäftigen sich mit den rechtlichen Aspekten bei Langzeitarchivierung. Das Dokument gibt den Stand von 2004 wieder, basiert also nicht auf der aktuellen Fassung des Urheberrechtsgesetzes (UrhG). Trotzdem ist es wichtig den Text zu kennen, um einen Überblick zu bekommen, wie Daten beschafft, verarbeitet und genutzt werden dürfen. Das gilt vor allem, wenn sie in einem Intranet bereitgestellt werden sollen oder man eine legale Außer-Haus-Nutzung sicher stellen will. Andere besprochene Komplexe sind Persönlichkeitsrecht und Wettbewerbsrecht.

nestor-materialien 1: Digitale Langzeitarchivierung und Recht.

Insgesamt gesehen ist es schwierig, eine wirklich umfassende Rechtssicherheit bei der Archivierung zu gewährleisten. So wird darauf hingewiesen, dass oftmals Pflichtexemplare von Musik-CDs in speziellen Versionen ohne Kopierschutz an die zuständigen Gedächtnisorganisationen übergeben werden. Dadurch sind die CDs nicht identisch mit den im Handel erhältlichen Datenträgern, wodurch sie sich genau genommen als Pflichtexemplare disqualifizieren. Gleiches gilt für eBooks, die ohne normalerweise vorhandenen Kopierschutz übergeben werden.

Die rechtlichen Aspekte der Langzeitarchivierung sind so umfangreich, dass sie nur mit einem hohen Aufwand zweifellos fehlerfrei umgesetzt werden können. Trotzdem ist es ratsam, sich darüber zu informieren, um zumindest die gröbsten Missgeschicke zu vermeiden. Vor allem wer Dokumente auch öffentlich zur Verfügung stellen möchte, etwa im Rahmen eines Web-Auftrittes, sollte die nestor-materialien 1 lesen, um ein Gespür für die Thematik zu bekommen.

Problembewusstsein Langzeitbewahrung

Die nestor-materialien 2 basieren auf einer 2004 durchgeführten Umfrage von etwa 1200 deutschen Museen. Die dabei erfassten Daten dokumentieren den Stand der Digitalisierung und sollen Hinweise auf das vorhandene Problembewusstsein hinsichtlich der Langzeitverfügbarkeit und -bewahrung geben.

Obwohl die Studie nicht mehr brandaktuell ist, zeigt sie typische Probleme, die auch in Unternehmen vorkommen. So geben etwa 19 Prozent der antwortenden Museen an, keine regelmäßige Datensicherung vorzunehmen. Das ist bedenklich, weil knapp 13 Prozent bereits einen größeren Datenverlust erlitten haben. Nur etwa ein Fünftel der Museen lagert Sicherungskopien außer Haus, und etwas mehr als ein Drittel betreibt mehrfache Datenhaltung.

nestor-materialien 2: Digitalisierung und Erhalt von Digitalisaten in deutschen Museen.

Das vorrangig eingesetzte alleinige Sicherungsmedium sind CD/DVD in knapp 40 Prozent der Fälle, weitere etwa 10 Prozent kombinieren CD/DVD mit Festplatten, Tape, Disketten. Zum Problem könnte zukünftig werden, dass fast 90 Prozent der Institutionen keine plattformunabhängigen Formate einsetzen und es auch nicht planen. Auch haben knapp 95 Prozent der antwortenden Museen keine schriftlichen Regeln zur Digitalisierung und Langzeitarchivierung. Das vorrangig eingesetzte Betriebssystem ist Windows, wobei ein hoher Anteil älterer Versionen auffällt.

Insgesamt zeigt die umfangreiche Studie, dass es in Museen ähnliche Probleme gibt wie in vielen Unternehmen. Ihnen, aber auch Privatanwendern, können die nestor-materialien 2 Anregungen für die Planung des eigenen Archivbedarfs geben.

Archivierungssysteme im Vergleich

Einen Überblick über kommerzielle und nicht-kommerzielle Archivierungssysteme bieten die nestor-materialien 3. In der Expertise werden zunächst die grundlegenden Probleme bei der Entscheidung für ein Archivierungssystem erläutert.

Darauf folgen eine umfassende Marktübersicht mit mehr als 70 Anwendungen, für die es in einem Anhang Kurzbeschreibungen gibt, und die Erläuterung des Vorgehens bei der Produktanalyse. Anhand eines umfangreichen Bewertungsschemas werden die Eigenschaften von sechs Archivierungssystemen in Tabellenform beschrieben:

Sie wenden sich an Archive, Bibliotheken und andere Organisationen, die Daten strukturiert speichern, archivieren und über Webbrowser verfügbar machen wollen. Die Leistungsfähigkeit und unterstützte Objektarten und Metadaten unterscheiden sich teilweise deutlich, sodass es bei der Nutzung zu Einschränkungen kommen kann. Über Links zu Referenzanwendungen lässt sich aber einfach ausprobieren, welches System für einen bestimmten Zweck, wie Computer Aided Publishing, geeignet erscheint.

nestor-materialien 3: Vergleich bestehender Archivierungssysteme.

Alle vorgestellten Applikationen sind für den professionellen Einsatz und Datenmengen von bis zu mehreren TByte geeignet. Dadurch und durch den Aufwand bei Installation, Einrichtung – etwa die Entwicklung von Stylesheets – und Betrieb sind diese Archivierungssysteme nur bei hohen Anforderungen zu empfehlen.

Eine weitere Publikation, „Open Source Software in der Archivierung“, die nicht von nestor stammt, kann zusätzliche Hilfe bei der Suche nach einem Archivierungssystem geben. In ihr werden die Open-Source-Systeme Fedora, DSpace, CDSware und EPrints behandelt.

Wichtige Standards und Abläufe

Speziell um das Archiving elektronischer Zeitschriften geht es in den nestor-materialien 4. Damit will man Hilfestellung bei der Speicherung und Bereitstellung der immer populäreren elektronisch publizierten Zeitschriften (E-Journals) geben.

Das Dokument beschäftigt sich dabei nicht nur mit technischen Aspekten, sondern enthält auch umfangreiche Informationen zu Datenformaten (etwa XML, HTML, TIFF, GIF, JPEG, JPEG 2000, PDF und Multimediadaten) mit Links zu Originalquellen. Dabei ist vor allem zu begrüßen, dass die Vor- und Nachteile bestimmter Formate klar genannt werden, was eine Entscheidungsfindung vereinfacht.

nestor-materialien 4: Langzeiterhaltung digitaler Publikationen – Archivierung elektronischer Zeitschriften (E-Journals).

Im zweiten Teil werden das OAIS (Open Archival Information System, Offenes Archiv-Informations-System), und weitere für die Langzeitarchivierung wichtige Standards vorgestellt. Das von der NASA initiierte OAIS ist als ISO-Standard 14721:2003 internationale Norm und beschreibt alle archivarischen und technischen Abläufe während der Lebensdauer in sieben Bereichen:

Eine vorgestellte Open-Source-OAIS-Implementierung für E-Journals ist LOCKSS, mit dem automatisch aktualisierte Inhalte aus dem Web heruntergeladen, archiviert und innerhalb der eigenen Organisation bereitgestellt werden. Der dritte Teil der nestor-materialien 4 ist die Auswertung einer Umfrage von 2005 unter wissenschaftlichen Verlagen und Universitäten zu verschiedenen Aspekten der Archivierung. Dort zeigt sich, dass E-Journal-Produzenten in Bezug auf Langzeitarchivierung deutlich sensibler sind, als die für die nestor-materialien 2 befragten Museen.

Grundlegende Probleme

Anders als der Titel der nestor-materialien 5 („Perspektiven der Langzeitarchivierung multimedialer Objekte verspricht“), geht es in dem etwa 80 Seiten langen Dokument vor allem um grundlegende Probleme bei der Archivierung. Schwerpunkte sind unter anderem die Forderungen an eine digitale Bibliothek, Authentizität, Backup, Speichermedien, Dateiformate, Emulation und Migration.

Im Kontext zeigt sich, dass es noch viele Unwägbarkeiten im Zusammenhang mit der Langzeitverfügbarkeit digitaler Daten gibt. In einer zusammenfassenden Einleitung heißt es wörtlich: „Es gibt aus heutiger Sicht keine gesicherten Technologien, die bereits jetzt einsetzfähig wären, um die volle Originalität und Funktionalität eines digitalen Objekts auch für eine zukünftige Benutzung zu garantieren.“

nestor-materialien 5: Perspektiven der Langzeitarchivierung multimedialer Objekte.

Das bedeutet, die Anwender müssen auch auf absehbare Zeit selbst aufwendig dafür sorgen, dass sie keine Probleme durch beschädigte Datenträger, ungeeignete Dateiformate oder einen Hardwarewechsel bekommen. Und bei dieser Aufgabe können, so der Autor, offene Standards und Formate ein wichtiges Mittel sein, um eine digitale Langzeitarchivierung und besonders Migration und Emulation effektiv und kostengünstig durchzuführen.

Die nestor-materialien 5 wenden sich vor allem an Nutzer, die sich mit dem Komplex Langzeitarchivierung beschäftigen möchten, ohne sich zu sehr mit technischen Details zu befassen.

Archivierung von Rohdaten

Der vollständige Titel der nestor-materialien 6 lautet „Studie zum Stand vorhandener Forschungsdaten und Rohdaten aus wissenschaftlichen Tätigkeiten: Erfordernisse und Eignung zur Archivierung beziehungsweise Zurverfügungstellung in Deutschland (Primärdaten)“.

Die Studie basiert auf einer Umfrage unter verschiedenen Forschungseinrichtungen. Sie zeigt, warum und wie wissenschaftliche Primärdaten, etwa Messdaten oder Resultate von Befragungen, an Forschungseinrichtungen gespeichert werden. Da dabei bundesweit jährlich mindestens 1000 bis 2000 TByte Datenvolumen (Stand 2004) mit stark wachsender Tendenz anfallen, werden ähnliche Strategien zur Langzeitarchivierung eingesetzt wie in Großunternehmen.

nestor-materialien 6: Langzeitarchivierung von Rohdaten.

Interessant ist dabei, dass nach den Richtlinien der DFG und den Förderbedingungen des BMBF eine Speicherung der unbearbeitet erfassten Daten für zehn Jahre verlangt wird. Es gelten also vergleichbare Bedingungen, wie bei der Speicherung von geschäftsrelevanten Daten in der Wirtschaft. Allerdings gibt es auch Institutionen wie die DASA, für deren Daten bis zu 30 Jahre Archivierungsdauer vorgeschrieben sind. Im Verbund der Welt-Daten-Zentren (WDC) unter Führung des International Council of Science werden Daten sogar seit 1958 elektronisch verfügbar gehalten. Dazu werden sie in mit Metadaten verknüpften Formaten in Datenbanken gespeichert, die regelmäßig auf aktuelle Systeme migriert werden.

Einen interessanten Ansatz um WDC-Daten zitierfähig zu machen, verfolgt das DFG-Projekt „Publication and citation of Scientific Primary Data“. Dazu werden Persistent Identifier (DOI und URN) für Primärdaten vergeben, die so zusammen mit Literatur in bibliothekarischen Nachweisdiensten recherchierbar werden.

Einheitliche Strategie zur Langzeitarchivierung

In den nestor-materialien 7 werden die Anforderungen an eine bundesweit möglichst einheitliche Strategie zur Langzeitarchivierung definiert. Dabei wird eine Vielzahl Aspekte berücksichtigt, die auch große Unternehmen betreffen, die Datenbestände langfristig archivieren möchten.

Nach grundlegenden Einführungen und Begriffsdefinitionen werden die Strategien vorgestellt, die in anderen Ländern zum Einsatz kommen. Nach einer Beschreibung der Anforderungen von Wissenschaft und Lehre werden die Interessen von Staat, Urhebern, Nutzern und archivierenden Institutionen besprochen. Verschiedene mögliche Szenarien für die Umsetzung sowie Fragen- und Planungslisten sind genauso relevant wie Kapitel zu Einzelaspekten. Sie beschäftigen sich unter anderem mit Datenschutz, Geheimhaltung, Authentizitätssicherung, Datenmigration und Redundanz.

nestor-materialien 7: Zur Entwicklung eines Beschreibungsprofils für eine nationale Langzeitarchivierungsstrategie.

Ein wesentlicher Bestandteil der nestor-materialien 7 sind circa 1200 weiterführende Links in den Texten, von denen viele auf bestehende Archivierungsprojekte verweisen. An ihnen wird deutlich, wie groß die Anforderungen an eine Langzeitarchivierung sein können. So umfasst die elektronische Zeitschriftenbibliothek an der Universitätsbibliothek Regensburg mehr als 39.000 Titel, davon fast 5000 reine Online-Zeitschriften aus allen Fachgebieten. Immerhin sind mehr als 18.000 Fachzeitschriften über diesen Dienst im Volltext frei zugänglich, aber leider nicht Volltext-recherchierbar.

Durch seine Informationsfülle und den praxisorientierten, logischen Ansatz ist das Dokument für alle Anwender empfehlenswert, die eine Langzeitarchivierung planen.

Anforderungen an ein Langzeitarchiv

Die nestor-materialien 8 beschreiben in kurzen Abschnitten alle Anforderungen an ein Langzeitarchiv und enthalten eine Checklist, mit der die Umsetzung überwacht werden kann. Der Kriterienkatalog teilt sich in drei Bereiche zum organisatorischen Rahmen, dem Umgang mit Objekten sowie der Infrastruktur und Sicherheit. Da es zu jedem der zu erfüllenden mehr als 50 Punkte eine Beschreibung und Beispiele gibt, ist das Dokument für alle Anwender wichtig, die ein Archiv einrichten möchten.

nestor-materialien 8: Kriterienkatalog vertrauenswürdige digitale Langzeitarchive.

Es ist aber auch interessant, wenn eine Backup- oder Information-Lifecycle-Management-Strategie umgesetzt werden soll, denn viele Kriterien sind identisch. Das betrifft zum Beispiel die Bereiche Datenintegrität, IT-Infrastruktur, Personal und Datenverfügbarkeit. Insofern kann der Kriterienkatalog auch für andere Storage-Projekte als eine Grundlage für die Erarbeitung eigener Anforderungslisten benutzt werden. (mje)