Datensicherung optimieren

Deduplizierung - Mehr sichern, weniger speichern

17.02.2011 von Gregor Hansbuer

Die wachsende Datenflut, verschärfte rechtliche Anforderungen wie AO, GdPDU oder Sarbanes-Oxley (SOX) bereiten bei der Datensicherung schon Kopfzerbrechen. Dazu kommen knappe Budgets, die den Druck auf IT-Manager verstärken. Die richtige Deduplizierungslösung schafft Luft.

Im Endeffekt liegt der Schlüssel zum Erfolg eines IT-Teams derzeit in einer Frage: „Sind die Unternehmensdaten ausreichend geschützt und ist die Business-Continuity unter allen Umständen sichergestellt?“

Der Schutz geschäftskritischer Daten bleibt oberste Priorität, unabhängig davon, ob ein Rechenzentrum seine Informationen in Gigabyte oder Petabyte misst. Aktuelle Missbrauchsfälle zeigen nur umso dringlicher die absolute Priorisierung dieser Aufgabe auf.

In diesem Zusammenhang ist eine neue Technologie in letzter Zeit als möglicher Kandidat, einige der gestellten Aufgaben zu lösen, besonders hervorzuheben: Daten-DeDuplizierung (DDD). DDD eleminiert überflüssige gleiche Daten. DDD steigert die plattenbasierte Speicherkapazität um ein Vielfaches, indem sie nur diejenigen Daten speichert, die nicht schon auf dem Speichermedium existieren. Herausgefilterte Daten werden durch Referenzen ersetzt. Damit wird erreicht, dass die Vorhaltezeit („retention“) auf Platte verlängert, oder weiteres Datenwachstum auf gegebener Speicherkapazität aufgenommen wird. Da im Backup die meisten Daten redundant vorgehalten werden, setzt sich DDD zur Backup-Optimierung immer mehr durch.

Deduplizierungsfaktor ermitteln

Die Einsparung wird mit dem sogenannten Deduplizierungsfaktor oder DeDup-Faktor gemessen. Ein DeDup-Faktor von zum Beispiel 25 sagt aus, dass ein TB physikalischer Speicher 25 TB nominale Datenkapazität repräsentieren. Je länger die Datenvorhaltezeit auf Platte, je geringer die tägliche Änderungsrate und je mehr FullBackups durchgeführt werden, desto höher ist der DeDup-Faktor.

Verschlüsselung, Komprimierung und die Backup-Policies wie zum Beispiel Incremental-Forever wirken sich negativ auf den DeDup-Faktor aus. Bei der Ermittlung des DeDup-Faktors kann ein Kapazitätsplaner helfen, der auf die spezifische Kundensituation eingeht und den individuellen DeDup-Faktor ermittelt, bevor eine Installation aufgebaut werden muss.

Beratungshäuser und IT-Anbieter können hier in Form von Werkzeugen und Beratung helfen.

Verschiedene DeDup-Verfahren

Während der DeDup-Faktor von der Kundensituation abhängt, bleibt das DeDup-Verfahren dem Technologiehersteller überlassen. Hier stellen sich gleich zwei Gretchenfragen der DeDup-Welt, die alle Technologiehersteller beantwortet haben, als Sie die DeDup-Verfahren entwickelt haben:

Wie werden redundante Daten erfasst und eliminiert?
Wo findet DeDup statt?

Bei den Verfahren zur Datenerfassung und Dateneleminierung wird Hashing versus Content versus Hyperfactor unterschieden. Hashing verwendet gängige Hash-Algorithmen, um die Daten in fixe oder variable Chunks zu unterteilen. Ein Hash wird pro Chunk generiert und wartet auf das nächste identische Chunk („hash match“). Dieser identische Chunk wird eliminiert und durch eine Referenz ersetzt.

Einfachste Form der Deduplizierung: Identische Dateien werden anhand ihres gleichen Hash-Wertes erkannt und daher nur einmal in der virtuellen Tape-Library (VTL) gespeichert, ansonsten werden Referenzen angelegt. Das Single-Instance-Storage (SIS) ist ein Vertreter dieser Form. Eine Index-Datenbank ist dabei das zentrale Element bei der Deduplizierung.

Beim Hashing-Verfahren entstehen jedoch zwei Nachteile:

Hash-Kollision, was zu Datenverlust führt.
Die Hash-Datenbank wächst linear zum Datenaufkommen, was langfristig zu einem Performance-Verlust führt und die Skalierbarkeit signifikant einschränkt.

DDD-Verfahren Content-Aware und Hyperfactor

Ein anderes Verfahren, das eine hunderprozentige Datenintegrität gewährleisten kann, arbeitet Content-Aware. Hierbei muss die Backup-Applikation für die DDD-Engine bekannt sein. Der Nachteil dieses Verfahrens: Der Kunde muss in den meisten Fällen seine Backup-Applikation austauschen, um die DDD einzusetzen. Aufgrund der Nachteile der Verfahren Hashing und Content hat sich ein weiteres Verfahren namens Hyperfactor entwickelt.

Hyperfactor arbeitet zunächst einmal „data agnostic“. Hierbei ist es egal, welche Backup-Applikation die Daten liefert und ob die Daten SAP, Oracle, Files oder Emails darstellen. Hyperfactor schaut im Datenstrom nach ähnlichen Elementen. Ähnliche Elemente werden mit einem Daten-Daten-Vergleich im Sinne eines „binary diff“-Verfahrens herausgefiltert. Die Vorteile sind hundertprozentige Datenintegrität, hohe Performance und Skalierbarkeit in Verbindung mit Nachhaltigkeit und Planbarkeit.

Problem des DeDup-Overlaps

Bei der Frage, wo DDD eigentlich stattfindet, unterscheidet man Inline versus Post-Processing. Beim Post-Processing oder „out-of-band“ landen alle Daten (auch die redundanten Daten) vorläufig auf dem Speichermedium und müssen nach dem Backup in einem dedizierten nachgelagerten DeDup-Prozess von einer dedizierten DeDup-Engine (bestehend aus FC-Ports und Servern) verarbeitet werden.

Der DeDup-Prozess steht dabei im Mitbewerb zu anderen Prozessen wie zum Beispiel Restore oder Auslagerung auf Tape. Hierbei kann es zu einem DeDup-Overlap kommen, wenn das nächste Backup anläuft bevor der DeDup-Prozess des aktuellen Backups noch nicht abgeschlossen ist. Die Folge: Das neue Backup sprengt die Speicherkapazität. Ein scheinbar schnelles Backup hin zum Plattenspeicher wird mit der Möglichkeit eines DeDup-Overlap zum untragbaren Risiko im RZ-Betrieb. Ebenso verlangt „post processing“ viel Hardware.

Aus diesem Grund bietet sich ein Inline- oder „in-band“-Verfahren an, weil in Echtzeit der DeDup-Prozess mit dem Backup verläuft. Wenn das Backup abgeschlossen ist, ist auch gleichzeitig der DeDup-Prozess beendet. Nachgelagerte Prozesse wie Backup-to-Tape, Vaulting oder off-site-Replikationen können gescheduled ablaufen.

Inline: IBM verwendet bei seinem DeDup-Gateway ProtecTIER das Inline-Verfahren bei der Datendeduplizierung. (Quelle: IBM)

Kunden erwarten, dass diese beschriebenen DeDup-Verfahren Ihre Anforderungen erfüllen. In einer Nutzerumfrage, die zwischen März und Mai 2007 durchgeführt wurde, hat die 451-GROUP folgende Top-Anforderungen herausgearbeitet:

Hoher kumulativer Durchsatz (gesamte Zeit von Backup- und DeDup-Prozess)
Hundertprozentige Datenintegrität
Hervorragende Skalierbarkeit und Kapazität
Hersteller-Erfahrung und -Reputation

Fazit: Vor Einführung Klarheit schaffen

Um die Kundenanforderungen mit den DeDup-Verfahren im Markt zu konfrontieren, gilt es, die DeDup-Verfahren zu hinterfragen, bevor investiert wird:

Wie schnell ist der DeDup-Prozess in einer Produktivumgebung?
Falls DeDuplizierung in Echtzeit mit dem Backup durchgeführt wird, wie schnell ist das Verfahren je länger es im Betrieb ist?
Kann die Kapazität skalieren ohne die Geschwindigkeit zu beeinflussen?
Wie skaliert die Lösung in Bezug auf die Geschwindigkeit?
Wird die DeDuplizierung den Produktionsbetrieb beeinflussen? Wie?
Wie schnell ist die kumulierte Backup-Performance mit DeDuplizierung?
Benötigt das Backupmedium zusätzliche Kapazität als Puffer gegen
DeDup-Overlap?
Welche Ressourcen (Hardware, Wartung, Zeit) benötigt der Einsatz?

(cvi)