Deduplizierung, Thin Provisioning und Virtualisierung

Die wichtigsten Techniken für ein effizientes Storage-System

Deduplizierung spart Speicherplatz

Unter Deduplizierung fasst man Techniken zusammen, die Anwender unterstützen sollen, Datenredundanzen zu erkennen und zu beseitigen. Ziel ist, das Volumen der zu speichernden Daten zu reduzieren und damit Speicherplatz auf den Storage-Systemen einzusparen. Außerdem soll die Netzauslastung sinken. Mit Hilfe von Deduplication-Funktionen werden mehrfach vorhandene Datenbestände nur ein einziges Mal abgespeichert. Die Tools ersetzen redundant abgelegte Informationen durch Platzhalter, so genannte Pointer, die auf den Speicherort der Originaldatei verweisen.

Redundante Daten lassen sich auf verschiedene Art und Weise erkennen. Content-Adressed-Storage-Systeme (CAS), die es schon seit einigen Jahren gibt, identifizieren Daten nach dem Inhalt der Information und nicht nach ihrer Lage auf dem physischen Medium. Damit ist gewährleistet, dass identische Datensätze nicht mehrmals auf dem Speichermedium abgelegt werden.

Moderne Deduplizierungs-Techniken gehen noch einen Schritt weiter:

  • Sie zerlegen Dateien in einzelne Segmente unterschiedlicher Größe, so genannte Chunks.

  • Im nächsten Schritt prüfen die Deduplication-Tools auf Byte-Ebene, welche Chunks sich wiederholen, und ersetzen die redundanten Teile durch Pointer, die wesentlich weniger Speicherplatz benötigen.

Doppeltes Lottchen: Deduplizierung sorgt dafür, dass identische Daten nur einmal abgespeichert werden. Das spart Platz in den Storage-Systemen. (Quelle: Steudten)
Doppeltes Lottchen: Deduplizierung sorgt dafür, dass identische Daten nur einmal abgespeichert werden. Das spart Platz in den Storage-Systemen. (Quelle: Steudten)

Ein Beispiel: Ändert sich in einer Powerpoint-Präsentation eine Folie, würde ein dateibasierendes Deduplizierungs-Werkzeug zwei verschiedene Versionen dieser Datei ablegen. Ein Tool, das die Informationen granularer zerlegt, würde erkennen, dass sich nur ein Teil verändert hat, und entsprechend auch nur die beiden Versionen dieser einen Folie abspeichern. Alle anderen Folien der Powerpoint-Präsentationen blieben unverändert ein einziges Mal auf dem Speichermedium abgelegt. Mit Hilfe der Deduplication-Technik auf Byte-Ebene lassen sich also deutlich mehr redundant vorliegende Informationen erkennen und verhindern. Die Einspareffekte, was den benötigten Speicherplatz betrifft, sind damit wesentlich größer.