Daten reduzieren beim Backup und der Archivierung

Deduplizierung: Speicherplatz statt Redundanz

Fingerprinting

Ein wichtiger Aspekt ist die Frage der Blockgröße, die benutzt wird, um den Block als identisch mit einem anderen zu erkennen. Je größer diese ist, desto unwahrscheinlicher ist es, die gleichen Datenfolgen zu finden. Hier bietet es sich also an, mit unterschiedlicher Block-/Segmentgröße den Datenstrom zu analysieren, man spricht hier von „Chunking“. Oft kommen daher sogenannte Hash-Methoden aus der Praxis, wie SHA-1 oder MD5 zum Tragen.

Liefern zwei oder mehr Fingerabdrücke daher den gleichen Hash-Wert, so kann man davon ausgehen, dass diese Daten im gewählten Segment ebenfalls gleich sind. Die Hash-Methoden sollten in jedem Fall einen eindeutigen Wert liefern, und der Worst-Case wäre hier, wenn unterschiedliche Datenblöcke den gleichen Hash-Wert liefern würden – ein Datenchaos wäre vorprogrammiert.

Der Datenstrom kann dabei von diversen Systemen (Backup-Client) oder auch vom Voll-, Inkremental- oder Differenzial-Backup stammen – also von parallelen oder eines Single-Datenstroms. Je mehr Daten(-blöcke) betrachtet werden, desto effektiver ist das Verfahren.