Ein Format für alle Dokumente
Sicher archivieren mit PDF/A
Unternehmen sind mit unzähligen Dokumenten konfrontiert, wie beispielsweise Office- oder CAD-Dateien oder PDFs in unterschiedlichen Varianten. Werden diese in ihrem ursprünglichen Format aufbewahrt, so ist die Gefahr groß, dass sie nach Jahren nicht mehr lesbar sind. Daher ist für die Archivierung eine konsequente Konvertierung in ein stabiles Format notwendig, das die langfristige Reproduzierbar- und Lesbarkeit sicherstellt.
PDF/A als ISO-Standard ist hierbei das Format erster Wahl. Es bietet entscheidende Vorteile gegenüber anderen Formaten, wie beispielsweise TIFF. Dazu zählen kleinere Dateigrößen, die Fähigkeit zur Volltextsuche und das einfache Handling. Nicht zu vergessen ist die Tatsache, dass jede PDF/A-Datei immer eine PDF-Datei ist. Für kaum ein anderes Format gibt es derart zahlreiche Werkzeuge und Lösungen. Ziel ist, dass die Konvertierung der kaum beeinflussbaren Formatvielfalt nach PDF/A automatisiert erfolgt, was nicht ohne Weiteres möglich ist.
PDF/A ist der ISO-Standard 19005 für die Langzeitarchivierung im PDF-Format. Es ist zwar nicht vorgeschrieben, PDF/A zu nutzen, er hat aber eine allgemeine und breite Akzeptanz gefunden. Der Standard bewertet und regelt, welche PDF-Funktionen in puncto Archivierung sicher sind. Diese Vorschriften garantieren eine langfristige Lesbarkeit der Dokumente- und zwar unabhängig davon, mit welcher Anwendungssoftware und auf welchem Betriebssystem sie ursprünglich erstellt wurden.
- Tipp 1:
Archivierte Daten sollten aus Sicherheitsgründen alle fünf Jahre umkopiert werden. Das gilt auch für optische Speichermedien, die laut Hersteller eine längere Speicherdauer ermöglichen. - Tipp 11:
Meta-Daten müssen in einem Format gespeichert werden, das für Langzeitarchivierung ausgelegt ist, etwa PREMIS. Zudem sind Arbeitsabläufe so zu gestalten, dass alle Dokumente mit Meta-Daten versehen und indiziert werden. - Tipp 8:
Sicherheitsfunktionen sind ebenfalls zu prüfen, etwa wie Datentransfers innerhalb und außerhalb des Systems abgesichert werden (Verschlüsselung) und welche gesetzlichen Vorgaben das System erfüllt (Datenschutz). Hier spielt auch das Patch-Management eine wichtige Rolle. - Tipp 7:
Installation und Konfigurationsprozesse eines Archivierungssystems sollten Unternehmen kritisch unter die Lupe nehmen, speziell Faktoren wie Benutzerfreundlichkeit, die Anpassung an die vorhandene IT-Infrastruktur und die bestehenden Arbeitsprozesse. Auch die Dokumentation und der Support sind dabei zu berücksichtigen. - Tipp 6:
Vor der Anschaffung einer Archivlösung sind die Systemvoraussetzungen zu ermitteln: unterstützte Betriebssysteme, Datenbanken, Speichermedien und -systeme und Netzwerkkomponenten. - Tipp 5:
Nach jedem Umkopieren der Daten ist zu prüfen, ob die Meta-Daten vollständig sind. Diese müssen gegebenenfalls ergänzt werden. - Tipp 4:
Damit auch nach einem Brand oder Wasserschaden ein Satz der archivierten Daten zur Verfügung steht, sollte eine Kopie der Informationen an einem zweiten Standort gelagert werden. Dies kann auch im Rechenzentrum eines externen Dienstleisters erfolgen. - Tipp 3:
Daten sollten auf mindestens zwei unterschiedlichen Medien gespeichert werden, etwa einem Magnetband und optischen Speichermedien oder einem CAS-Storage-System. Im Vorfeld ist zu prüfen, ob die eingesetzte Archivierungslösung eine redundante Speicherung erlaubt, und zwar auch auf technisch unterschiedlicher Hardware und in räumlich getrennten Systemen. - Tipp 2:
Ähnlich wie beim Erstellen von Backups ist es sinnvoll, nach dem Umkopieren zu testen, ob die Daten fehlerfrei übermittelt wurden. - Tipp 12:
Unternehmen sollten ferner eine Risikovorsorge treffen und eine Exit-Strategie entwickeln: Sicherzustellen ist unter anderem, dass sich Daten komplett exportieren und wiederherstellen lassen, wenn eine Archivierungssoftware nicht mehr zur Verfügung steht oder der Anbieter gewechselt wird. Eine zentrale Rolle spielen hierbei die Datenexportformate. - Tipp 10:
Datentypen: Nur solche Formate sollten verwendet werden, die für die Langzeitarchivierung freigegeben wurden, etwa PFD/A, TIFF, JPEG, SGML und XML. Das Archivierungssystem muss die automatisierte Umwandlung anderer Formate, etwa .doc oder .xslx, in diese Standardformate unterstützen. Sollen auch Audio-/Videomaterialien oder digitale Akten archiviert werden, muss das Archivierungssystem auch dafür einen Workflow anbieten. - Tipp 9:
Schnittstellen und Interoperabilität: Wichtig sind Schnittstellen zu Tools, etwa für die Migration von Daten, sowie die Verträglichkeit mit selbst erstellten Scripts. Ein zentraler Punkt sind Standardschnittstellen für den Import und Export von Daten und Meta-Daten. Herstellerspezifische Ansätze führen zu einem "Vendor-Lock-in".
Drei Szenarien für die PDF/A-Konvertierung
Für die Wandlung von Dokumenten nach PDF/A sind architektonisch drei Szenarien möglich:
Client-seitige Konvertierung: Hierbei startet der Anwender die jeweilige Konvertierungs-Engine und korrigiert eventuell auftretende Fehler. Die Übergabe an das Archiv erfolgt entweder manuell oder automatisiert über die Software. Da der Konvertierungprozess sehr rechenintensiv ist, sind damit schwache Desktop-Rechner zu einem hohen Grad ausgelastet. Anwender müssen in der Regel warten, bis die Wandlung nach PDF/A abgeschlossen ist. Ein weiterer Nachteil der Client-seitigen Konvertierung ist, dass die PDF/A-Dateien verteilt erzeugt werden und somit deren tatsächliche Konformität nur schwer kontrollierbar ist. Eine Lösung wäre eine nachgelagerte Validierung auf dem Server, wodurch wiederum ein Overhead entsteht.
Mischform: Alternativ wählt der Anwender über den Client die zu archivierenden Dokumente aus und lädt sie dann zur Konvertierung auf den Server. Auch hier kann eine anschließende Qualitätssicherung durch den Anwender erfolgen. Da der Konvertierungsprozess sehr komplex und damit zeitaufwendig ist, sollten Vorkehrungen für diesen asynchronen Ablauf getroffen werden, sodass der Anwender jeweils eine Rückmeldung über die Konvertierung erhält.
Serverseitige Konvertierung: Bei diesem Szenario erfolgt die Konvertierung ohne Anwenderinteraktion. Dafür müssen sämtliche notwendigen Funktionen auf dem Server hinterlegt sein und entsprechend verwaltet beziehungsweise gesteuert werden. Ist ein hohes Dokumentenvolumen zu verarbeiten, empfiehlt es sich, die Konvertierung nach PDF/A auf dem Server automatisiert vorzunehmen.