Datenverluste vermeiden

Die richtige Backup- und Recovery-Strategie

09.12.2013 von Klaus Hauptfleisch

Schäden durch Datenverlust können in die Millionen Euro gehen. Deshalb gibt es heute kaum ein Unternehmen, das keine Backup- und Recovery-Strategien hat. Es kommt aber auf deren Ausprägungen an.

Der GAU! Plötzlich war das Notebook hin und erwachte nicht mehr zum Leben. Tage der Arbeit einfach futsch. Und das ausgerechnet an dem Artikel über Backup und Recovery. Hätte man doch die Daten auf einen Stick geladen, in die Cloud gespeichert oder wenigstens als Mail an sich selbst geschickt!

An Datenrettung durch einen Spezialisten wie Kroll Ontrack war natürlich nicht zu denken so kurz vor Weihnachten. Peter Böhret, Managing Director des Unternehmens in Böblingen und Vice President European Data Recovery, trennt zwischen "Recovery" im Sinne von Disaster Recovery im Fall eines Hardwaredefekts und "Restore" als Wiederherstellung oder Rücksicherung nach einem Backup. Da Muttersprachler kaum den Unterschied kennen und viele Experten aus Gewohnheit immer noch von Backup und Recovery sprechen, sei hier beides erlaubt oder als Kürzel einfach nur B&R.

Auch Große nicht gefeit

Privat wird nach wie vor geschludert. Wie das eigene Malheur zeigt, reicht selbst die im Home-Office empfohlene wöchentliche Datensicherung manchmal nicht. Auf Unternehmensseite sieht es hingegen anders aus: Die Zahl derer, die kein Backup fahren, geht gegen null, weiß Böhret und nennt als Hauptmotiv den Schutz geschäftskritischer Daten. Hinzu kann eine bessere Risikobewertung nach Basel II kommen, sagt Thomas Meier, Chief Technologist Storage bei Hewlett-Packard (HP). Weitere rechtliche Vorschriften wie die revisionspflichtige Buchführung nach HGB und die Grundsätze zum Datenzugriff und zur Prüfbarkeit digitaler Unterlagen (GDPdU) blenden besonders kleinere Firmen dagegen häufig aus, so Böhret.

Bandarchiv: So sieht ein modernes Lager für Cartridges aus.
Foto: NASA / SGI

Die meisten Datenrettungsanfragen bei Kroll Ontrack beziehen sich nicht auf Versäumnisse bei der Datensicherung, sondern auf "falsche" Backups. Gerade im virtuellen Bereich werden viele Fehler gemacht - es wird am falschen Ende gespart und vergessen, regelmäßige Restore-Tests zu fahren, um sicherzugehen, dass die Konsistenz und Integrität der Daten gewahrt bleibt.

Große Unternehmen sind zwar meist besser aufgestellt, verfügen sogar über eigene Backup-Abteilungen - aber vor teils massivem Datenverlust sind auch sie nicht gefeit. Gehäuft zu beobachten sind diese Probleme bei der Auslagerung von Services und im Bereich Forschung und Entwicklung. Weil verlorene Daten sich selten in Geld aufwiegen ließen, sei eine B&R-Strategie die beste Versicherung, betont der IBM-Vertriebsbeauftragte Josef Weingand.

Teure Horrorszenarien

Ein fehlendes oder falsches Backup kann Existenzen vernichten. Das verdeutlicht eine Erhebung der National Archives & Records Administration Washington: 50 Prozent der US-Unternehmen, die einen zehntägigen Datenausfall erleiden, gehen sofort insolvent, weitere 43 Prozent spätestens innerhalb eines Jahres.

Denn nicht immer sind sie gegen Datenverlust versichert und nicht immer reichen die Versicherungssummen aus, den Schaden zu begleichen - gängige Berechnungsgrundlage sind maximal 1000 Euro pro Megabyte, so Böhret. Damit stellt sich schnell die volkswirtschaftliche Frage nach einheitlichen Regeln für Backup und Archivierung, wie sie das Bundesamt für Sicherheit in der Informationstechnik (BSI) seit diesem Jahr beispielsweise für die Datenvernichtung vorschreibt. Bisher gibt es sie nicht.

Ursachen für Datenverlust: Die Hauptfehlerquelle für Datenverlust ist dieser Grafik nach im virtuellen Umfeld zu suchen.
Foto: Kroll Ontrack

Backup und Archivierung separieren und konzertieren

Datensicherung zum Nulltarif ist im B2B-Umfeld eine Illusion. Um Aufwand und Kosten im Rahmen zu halten, sollten Anwender zwischen Backup und Archivierung unterscheiden. Sie sollten sich fragen, welche Anwendungen jeweils betroffen und wie zeitkritisch die zu speichernden Daten sind. Das betreffe sowohl die erwartete Ausfallzeit, auch Recovery Point Objective (RPO) genannt, und Wiederanlaufdauer (Recovery Time Objective, kurz RTO) wie auch vorhandene Service Level Agreements (SLAs), sagt HP-Manager Meier. Produktionsdaten sollten meist stündlich inkrementell (schrittweise) gesichert werden; im Buchhaltungsbereich genügt in der Regel ein volles Backup pro Tag oder zwei- bis dreimal die Woche, so Kroll-Ontrack-Geschäftsführer Böhret. Seiner Schätzung nach sind bei der Archivierung noch immer zu 95 Prozent Bandlaufwerke im Einsatz. Im Backup-Bereich, besonders bei Daten, die einen schnellen Zugriff erfordern, habe sich dagegen die Festplatte durchgesetzt.

Meier zufolge kann ein Backup die von Branche zu Branche verschiedenen rechtlichen Anforderungen nur zum Teil abdecken. Das betrifft Aufbewahrungspflichten mit Dokumentenechtheit, Volltextsuche und die Abnahme nach GDPdU. Für eine umfassende Lösung sollten Backup und Archivierung deshalb immer gemeinsam betrachtet werden.

Backup-Strategie: Diese W-Fragen müssen Anwender beantworten

Wer sich Gedanken über eine Strategie zur Sicherung und Wiederherstellung seiner Daten macht, sollte sich im Vorfeld folgende "W-Fragen" stellen:

Welche?

Welche Daten sollen wie und wie lange gesichert und aufbewahrt werden?
Welcher zeitliche Datenverlust ist vertretbar? (RPO)
Welche rechtlichen und finanziellen Konsequenzen drohen?
Welches Speichermedium (Festplatte, Bandlaufwerke, VTL) sollte genutzt werden?

Wann?

Wann und wie oft müssen die Daten jeweils verfügbar sein?
Wie lange darf der Zugriff auf die Daten und Anwendungen maximal verwehrt sein? (RTO)

Wie?

Wie soll die Datensicherung erfolgen? (voll, synthetisch, inkrementell, differenziell.
Wie oft sollte ein Restore-Test gefahren werden?
Wie ist die Integrität und Konsistenz der Daten sicherzustellen?

Wer?

Wer ist für die Datensicherung verantwortlich?

Wo?

An welchem Ort sollen die Daten gesichert und aufbewahrt werden?

Wogegen?

Wogegen schützt ein Snapshot und wogegen nicht?
Wogegen schützt eine nachlaufende Datenbankkopie und wogegen nicht?

Wie viel?

Was kostet das Ganze?
Wie ist die Kosten-Nutzen-Rechnung?

Die Speichermedien

Bänder, Festplatten, SSDs und Disk Arrays einschließlich VTL (Virtual Tape Library) sowie Cloud-Lösungen sind für unterschiedliche Zwecke zu gebrauchen. Große Unternehmen fahren hier in der Regel mindestens zweigleisig. Führende Hersteller decken meist mehrere oder sogar sämtliche Bereiche ab.

Bei der Entwicklung der B&R-Strategien sollten immer alle Medien in Betracht gezogen werden, sagt HP-Experte Meier und zeichnet folgende Szenarien entlang verschiedener Anforderungen:

Disk-Snapshots für ein bis zwei Tage
Backup-to-Disk für Wochen bis drei Monate
Tape für Aufbewahrungszeiten von mehr als ein paar Monaten (Archiv)

LTO (Linear Tape Open) - hier in der neuesten Version 6 mit komprimiert bis zu 6.260 GB und 400 MB/s - ist auch wegen der Vielzahl kompatibler Magnetbänder heute eine der beliebtesten Tape-Technologien.
Foto: Tandberg Data

Als wesentliche Vorteile der Bandlaufwerke (Tapes) gelten die hohen Transferraten, lange Haltbarkeit, die Kompatibilität mit einer Vielzahl von Geräten unterschiedlichster Hersteller und die Möglichkeit, die Bänder extern zu lagern. Der Nachteil sind die relativ langen Suchzeiten in den Datenindizes, weshalb sie sich auch nur bedingt für die Wiederherstellung kleinerer Dateien eignen.

Für viele kleine Dateien und Datensätze, für Datenquellen ohne ausreichenden Backup-In- und -Output, für kurze RTO-Zeiten, als Zwischenlager für Synthetic-Full-Backups und für Deduplizierungs-Stores etwa werden Disk-Systeme wie auch VTLs empfohlen. Flexibel konfigurierbar und mit mehr Anschlussmöglichkeiten als Bandlaufwerke ausgestattet, haben diese Systeme aber auch den Nachteil, dass die Speichermedien sich nicht extern lagern lassen. Außerdem ist die Langzeitspeicherung trotz gesunkener Festplattenpreise immer noch vergleichsweise teuer.

Für und Wider der SSD

In großen Rechenzentren machen sich Flash-Speichermedien wie Solid State Drives (SSDs) zunehmend breit, weiß Böhret. Das liege nicht an den schnelleren Zugriffszeiten, sondern in erster Linie daran, dass diese keine oder kaum Wärme abgeben. Bei Hunderten von Servern mit jeweils 25 oder 30 Festplatten sei der Aufwand in puncto Kühl- und Notstromaggregate ohne SSDs gewaltig.

In großen Backup-Rechenzentren kann sich die Kühle der SSD gegenüber der HDD schnell bezahlt machen. Schnellere Zugriffszeiten sind hier periphär.
Foto: Kingston

Abgesehen vom hohen Preis hat Flash aber auch technologisch bedingte Nachteile - allen voran die begrenzten Schreibzyklen und die erschwerte Datenvernichtung. Mit Wear leveling und Secure Erase rücken die Hersteller den Problemen zwar zu Leibe, echte Langzeitstudien über deren Wirksamkeit fehlen aber noch. Anwender sollten daher mindestens zweigleisig fahren und auch die Übertragungswege der Backup-Daten diversifizieren (LAN, WLAN, LANless via Fibre Cannel oder iSCSI).

Die Daten wie und wo lagern

Eine "Generalempfehlung" für Art und Ort der Aufbewahrung gibt es nicht, sagt Meier. Berücksichtigt werden müssen die Retention-Pläne, RTOs, RPOs und SLAs. Das Backup müsse mindestens im zweiten Brandabschnitt liegen, sagt Böhret. Besonders kritische Daten sollte man zusätzlich auslagern - ob in der Cloud oder physikalisch, hänge auch von den Anwendungen ab. Die Backup-Daten sollten jeweils in sicherer Entfernung zu den Online- und Produktivdaten gesichert werden, betont Weingand. Global aufgestellte große Unternehmen sicherten oft in zwei lokalen Rechenzentren und einem entfernten Disaster Recovery Center.

Eine Möglichkeit, die Produktiv- von den Backup-Daten zu trennen, ist das LANless oder LANfree Backup über Fibre Channel oder iSCSI in einem Storage Area Network (SAN) - ein Beispiel ist der Tivoli Storage Manager von IBM. Dessen Vorteil ist, dass die zu speichernden Daten das normale LAN nicht belasten.

Cloud-Daten so nah wie möglich

Cloud-Speicherdienste beschreibt HP-Manager Meier als gute Alternative zur Desaster-Vorsorge respektive als "dritten Standort". Geeignet seien sie für Unternehmen, die für bestimmte Umgebungen keine eigene Backup-Infrastruktur aufbauen wollten. Vorsicht ist aber beim physikalischen Speicherort der Cloud-Daten geboten. Als schlechte Beispiele seien China und die USA genannt - ersteres wegen seiner Zensurgesetze, zweitere wegen des "Patriot Act", nach dem die US-Behörden Zugriff auf Cloud-Daten verlangen dürfen. Anwender sollten sicherstellen, dass ihre Cloud-Daten in Europa, besser noch in Deutschland gespeichert sind. Eine Alternative stellt eine Private Cloud dar - am besten in einem eigenen Rechenzentrum mit dediziertem Netzwerk, das zur Wahrung der Performance von den eigentlichen Anwendungen abgekoppelt ist.

Backup häppchenweise

Wie und wie oft die Daten gesichert werden sollten, hängt von den Anwendungen und Datenmengen ebenso ab wie von den unternehmens- und branchenspezifischen Anforderungen. Je größer die Applikation ist, je mehr Änderungen jeweils stattfinden und je kleiner die gewünschte Recovery-Zeit ausfällt, desto häufiger ist eine Vollsicherung nötig, um die Log-Recovery möglichst klein zu halten, so IBM-Experte Weingand.

Differenzielles versus inkrementelles Backup: Differenziell werden immer alle Änderungen seit der letzten Vollsicherung erfasst, inkrementell alle Änderungen in "leicht verdaulichen Häppchen". Der Upload wird damit schneller.
Foto: Doyenz

Da die Datenmenge dabei zulasten des Netzwerkes und Backup-Servers enorm ansteigen kann, sollte im VMware-Umfeld zum Beispiel vermehrt zu inkrementellen (schrittweisen) Backups mit "Changed Block Tracking" gegriffen werden. Hardware-Snapshots würden im Katastrophenfall schnelles Restore und Recovery ermöglichen.

Für alle anderen Daten empfiehlt sich ein tägliches inkrementelles Backup, um die übertragende und gesicherte Datenmenge möglichst klein zu halten. Das ist auch der Vorteil gegenüber der differenziellen Datensicherung, in der nur alle Änderungen seit dem letzten Full-Backup erfasst werden. Als Nachteil des inkrementellen Weges gilt indes, dass bei einer Wiederherstellung die Daten aus mehreren Sicherungskopien zusammengesucht werden müssen - was technisch heute aber kein Problem mehr darstellt.

Ablöseprozess durch viele Momentaufnahmen

Das klassische Backup wird langsam durch Snapshots und Replikation abgelöst - das zumindest sagt das Analystenhaus Gartner voraus und beruft sich dabei auf aktuelle IT-Trends wie Virtualisierung und Filesharing. Deshalb rücken gegenüber den üblichen RAID und SAN sogenannte NAS-Systeme (Network Attached Storage) in den Fokus der Marktforscher. Als Vorteil der Snapshots beschreiben die Analysten deren hohe Skalierbarkeit. Zudem ließen sich die Daten leichter vom Applikationsserver abgekoppelt speichern, was Ressourcen schont. Der oftmals rechenintensive Prozess des Komprimierens und Deduplizierens von Daten werde auf ein Minimum beschränkt. IBM-Experte Weingand bestätigt die Aussagen von Gartner: deduplizierbare Daten würden durch die Möglichkeit der Online-Komprimierung von Datenbanken wie DB2, Oracle und SAP Hana tatsächlich abnehmen.

Um einem Datenverlust durch Hardwarefehler oder Überschreiben zu vermeiden, sollten für die Momentaufnahmereplikation wie beim klassischen Backup immer mindestens zwei physisch voneinander getrennte Speicherorte gewählt und periodische Kopien auf Band vorgenommen werden. Weingand macht an zwei Beispielen deutlich, wie wichtig das sein kann: Google und ein namhafter Cloud-Anbieter hätten beide ihre B&R-Strategie hinsichtlich RPO, RTO und Zugriffszeiten durch Snap-Backups optimiert. Google habe ein Offline-Sicherungssystem mit TapeStorage bewahrt und kaum mit Ausfällen zu kämpfen, der Cloud-Anbieter hingegen wegen eines fehlenden "Offline"-Backup-Tiers schon häufiger Datenverluste erlitten.

Aufwertung von B&R durch Indizierung

HP-Manager Meier widerspricht seinem Kollegen und den Gartner-Analysten - aus offensichtlichen Gründen. Die beste Reduktion von Backup-Datenmengen könne mit einer einheitlichen Deduplizierungstechnik wie HP StoreOnce erreicht werden. Die Lösung stelle sich als Architektur zur unternehmensweiten Deduplizierung dar, welche die gesamte Infrastruktur nutze. Dies schließe Applikations-, Media- und Backup-Server ebenso ein wie die Clients oder "Targets". Da die Daten alle indiziert, klassifiziert und einer weiteren Nutzung zugänglich gemacht werden, erwarte HP eine Aufwertung von Backup und Recovery durch entsprechende Lösungen, wie etwa durch die Autonomy-IDOL-Technologie im HP Data Protector oder im HP LiveVault, so Meier.

HP sieht sich mit dem HP Data Protector im Wettbewerb mit Symantec (NetBackup), EMC (NetWorker), IBM (TSM) und Commvault (Simpana). Weingand meint indes, dass kaum ein Mitbewerber das breite Portfolio von IBM aufweisen könne. Das bestehe nämlich aus der Backup-Software (TSM), Disk-Hardware mit integrierten Snap- und FlashCopy-Backup-Funktionen, dem dazugehörigen TSM-FlashCopyManager und Backup-Hardware aus VTL, Datenceduplizierung, Bandlaufwerken und Libraries.

Fazit

Die Themen Backup und Recovery/Restore können und sollten nicht auf die leichte Schulter genommen werden. Welche Lösung zum Einsatz kommt, hängt von den eingesetzten Applikationen und branchenspezifischen Aufbewahrungspflichten ab. Um sich gegen mitunter teuren oder gar strafbaren Datenverlust abzusichern, sollten Unternehmen verschiedene Szenarien parallel betrachten. Das betrifft den Ort der Datenaufbewahrung ebenso wie die Wahl der Kommunikationswege. (cvi)