Datensicherung optimieren

Deduplizierung - Mehr sichern, weniger speichern

Verschiedene DeDup-Verfahren

Während der DeDup-Faktor von der Kundensituation abhängt, bleibt das DeDup-Verfahren dem Technologiehersteller überlassen. Hier stellen sich gleich zwei Gretchenfragen der DeDup-Welt, die alle Technologiehersteller beantwortet haben, als Sie die DeDup-Verfahren entwickelt haben:

  • Wie werden redundante Daten erfasst und eliminiert?

  • Wo findet DeDup statt?

Bei den Verfahren zur Datenerfassung und Dateneleminierung wird Hashing versus Content versus Hyperfactor unterschieden. Hashing verwendet gängige Hash-Algorithmen, um die Daten in fixe oder variable Chunks zu unterteilen. Ein Hash wird pro Chunk generiert und wartet auf das nächste identische Chunk („hash match“). Dieser identische Chunk wird eliminiert und durch eine Referenz ersetzt.

Einfachste Form der Deduplizierung: Identische Dateien werden anhand ihres gleichen Hash-Wertes erkannt und daher nur einmal in der virtuellen Tape-Library (VTL) gespeichert, ansonsten werden Referenzen angelegt. Das Single-Instance-Storage (SIS) ist ein Vertreter dieser Form. Eine Index-Datenbank ist dabei das zentrale Element bei der Deduplizierung.
Einfachste Form der Deduplizierung: Identische Dateien werden anhand ihres gleichen Hash-Wertes erkannt und daher nur einmal in der virtuellen Tape-Library (VTL) gespeichert, ansonsten werden Referenzen angelegt. Das Single-Instance-Storage (SIS) ist ein Vertreter dieser Form. Eine Index-Datenbank ist dabei das zentrale Element bei der Deduplizierung.

Beim Hashing-Verfahren entstehen jedoch zwei Nachteile:

  • Hash-Kollision, was zu Datenverlust führt.

  • Die Hash-Datenbank wächst linear zum Datenaufkommen, was langfristig zu einem Performance-Verlust führt und die Skalierbarkeit signifikant einschränkt.