Open Source Deduplizierung
Workshop: Deduplizierung mit lessfs unter Linux

Mit der Deduplizierung werden identische Datenblöcke nur einmal auf dem Speichersystem abgelegt - das spart Platz. Mit lessfs gibt es eine quelloffene Software für Linux, die mit nur wenig Konfiguration ein Dateisystem mit Inline-Deduplizierung bietet.
Oft sind die Funktionen der Deduplizierung in sogenannten NAS-/ und DAS-Appliances bereits integriert. Oder eine spezielle Backup-Lösung bietet die Deduplizierung als Zusatz-Feature zum Sparen von Speicherplatz bei der Datensicherung. Mit lessfs gibt es eine freie Softwarelösung für Linux, die auf der File-System-in-Userspace (FUSE) Umgebung basiert. Hierbei leitet der Kernel I/O-Operationen über definierte Schnittstellen an das Programm im Userspace um. Die Open-Source-Deduplizierung nutzt dabei das sogenannte Inline-Verfahren.
Die Inline- oder auch In-Band-Deduplizierung bearbeitet einen eingehenden Datenstrom sofort und steht damit im Gegensatz zur Out-of-Band-Variante, die die eintreffenden Daten erst physikalisch speichert und dann später automatisiert oder on-demand dedupliziert. So wird zwar mehr Platz für die Zwischenspeicherung benötigt, aber die Rechenleistung für das Erstellen der Prüfsummen ist erst später zu leisten. Beide Verfahren haben Vor- und Nachteile.
Ein eingehender Datenstrom - beispielsweise eine Datei - wird in Chunks oder Blöcken variabler Größen von 6 bis 2048 Byte zerlegt. Anstelle eines Vergleichs der Inhalte der Chunks läuft über diese eine Hash-Funktion, die dann einen eindeutigen Hash-Wert (Fingerprint) für diesen Chunk generiert. Bis auf wenige Ausnahmen kann davon ausgegangen werden, dass bei gleichen Hash-Werten auch die Chunks identischen Inhalts sind. Im weiteren Verlauf des Workflows werden die Chunks durch die generierten Hash-Werte ersetzt und Letztere in einer Datenbank gesichert. Gleiche Hash-Werte werden durch einen Zeiger auf den ersten Hash-Wert ersetzt und benötigen daher weniger Speicherplatz. Bekannte Kompressionsprogramme ersetzen oft vorkommende Bytefolgen durch einen kürzeren und weniger oft erscheinende Folgen durch einen längeren Code (Huffmann-Code).
Ein Kompressionslauf über das /usr-Verzeichnis bei 1000 nahezu identischen Linux-Systemen würde eine hohe Redundanz der Daten auf einem zentralen Backup-System ergeben, obwohl die Daten komprimiert wurden. Denn es liegen dann dort zirka 1000-mal die gleichen Dateien in komprimiertem Zustand. Die Deduplizierung jedoch hätte die gleichen Datenblöcke maximal einmal vorliegen und sonst nur Referenzen auf bereits vorhandene Datenblöcke darauf.
Der administrative Aufwand ist selbsterklärend größer, doch der eingesparte Speicherplatz rechtfertigt diese Methode.
Inhalt dieses Artikels
Gratis-Apps für Smartphones und Tablet-PCs
Holen Sie sich die kostenlosen TecChannel-Apps für
iPhone, iPad, Android, bada und Windows 7 Slate. Oder nutzen Sie mobil.tecchannel.de für alle Geräte.
Links zum Artikel




PDF
eBook
