Wide Area Storage als Big-Data-Infrastruktur

Big Data - Daten richtig speichern

Object Storage alles austariert?

Objektspeicher bieten einen völlig anderen Ansatz für das Storage-Management. Während traditionelle Storage-Systeme Daten in einem hierarchischen Verzeichnis für Ordner und Dateien darstellen, präsentiert Object Storage Daten in einem flachen Objekt-Namensraum (Namespace) aus einfachen Schlüsselworten- und Wertepaaren. Dieser Ansatz ermöglicht es Administratoren, digitale Datensätze fast grenzenlos zu skalieren.

Die Verarbeitung der Daten geschieht mittels einfacher netzwerkbasierter Protokolle wie HTTP. Auf diese Weise kann der Datenabruf an hochperformante Netzwerk-Switches und -Router ausgelagert werden mit dem Effekt, dass Daten ohne jeglichen virtuellen "Overload" über zahlreiche Storage-Knoten verteilt werden können. Zudem kann die Kapazität der Systeme ohne Ausfallzeiten, Leistungseinbußen, Umbauten oder Migrationsmaßnahmen erweitert werden.

Ein weiterer Vorteil der netzwerkfreundlichen Protokolle und der Verteilungslogik ist die einfache Übermittlung von Daten an unterschiedliche Rechenzentren rund um den Globus. Während der Datenzugriff über lange Distanzen ganz automatisch Latenzen mit sich bringt, wurden die Netzwerkprotokolle von Object-Storage-Systemen für lange Distanzen optimiert, inklusive Netzwerk-Level-Kompression, geographischem Lastausgleich und lokalem Caching.

Sicherungsalgorithmen: Erasure Codes

Während Algorithmen der ersten Object-Storage-Generation bereits über einfache Formen der Datensicherung mittels gleichzeitiger Datenkopien über drei oder mehr Knoten verfügen, sind jüngere Implementierungen mit deutlich raffinierteren Sicherungsalgorithmen ausgestattet. Bekannt sind sie unter dem Namen "Erasure Codes". Die Weltraumkommunikation nutzt sie seit Jahrzehnten, um die Integrität der Kommunikationsübertragung zu wahren.

Wo RAID Daten in eine feste Anzahl von Datenblöcken und Prüfsummen trennt, konvertieren die Algorithmen Daten in feste, aber gänzlich unterschiedliche Codes, die für die Speicherung getrennt und während des Abrufs wieder zusammengesetzt werden. Da jeder Code einmalig ist, kann eine beliebige Untermenge an Codes verwendet werden, um die Daten wiederherzustellen. Diese Algorithmen ermöglichen Regelwerke, die vor dem Ausfall von Disks, Knoten oder sogar ganzen Rechenzentren schützen - auf einem einzigen System und mit weit weniger Verlust an Redundanzen als bei RAID- oder Replikationslösungen. Datenintegrität wird hier stärker durch individuelle Codes als durch ganze Disk-Reihen geschaffen mit individuell anpassbaren Sicherungsgraden in ein und demselben Storage-System.

Unternehmen können ihre Regeln für die Langlebigkeit von Daten entsprechend ihren unterschiedlichen Anforderungen an die Datensicherung anpassen - ohne Hardwareänderungen und ohne Daten aus dem System kopieren zu müssen.