Wide Area Storage als Big-Data-Infrastruktur

Big Data - Daten richtig speichern

Die natürlichen Grenzen von RAID

Aber wo genau liegen die Grenzen traditioneller Storage-Systeme, die Object-Storage-Lösungen überwinden sollen? RAID ist bekanntlich die Basis traditioneller Speichersysteme und hat sich als besonders effektiv für die Datenintegrität in einer einzelnen Gruppe von vier bis zwölf Disks erwiesen.

Doch Datensätze in Petabyte-Größe benötigen entweder Disk-Gruppen von mehr als zwölf Disks, oder die Daten müssen auf mehrere RAID-Gruppen verteilt werden. Erstgenannte Variante erhöht das Risiko eines Datenverlusts aufgrund eines Hardwareausfalls, letztgenannte sorgt für einen rapiden Anstieg der Kosten und Komplexität bei der Verwaltung von Datenkonsistenz und -Integrität über mehrere Disk-Einheiten. Das Datenwachstum macht zudem die Fehlerquote von Disk-Laufwerken zu einem echten Problem. Werden zum Beispiel Daten von einem vollen 3-TByte-Disk-RAID-Array mit zehn Disks gelesen, ergibt sich eine ungefährere Wahrscheinlichkeit für einen Datenverlust durch einen zufälligen Bitfehler von eins zu drei. RAID hat keinen Mechanismus für die proaktive Erkennung von Bitfehlern. Zudem müssen bei RAID alle Disks lokal vorliegen, im Normalfall auf dem gleichen Controller. Damit bietet RAID begrenzte Sicherheit gegenüber Knotenausfällen und überhaupt keine Sicherheit gegenüber Katastrophen am Ort der Unternehmenseinheit.

Replikation kaschiert Unebenheiten von RAID

Replikation ist eine adäquate Antwort auf die Problemstellen von RAID. Replikation bezeichnet in der einfachen Definition das Überkreuzkopieren der Daten zwischen zwei oder mehreren Standorten, um den Rückgriff auf Daten im Falle eines Ausfalls gewährleisten zu können. So werden Integrität, Wiederherstellbarkeit und Zugänglichkeit der Daten deutlich erhöht.

Leider birgt auch die Replikation ganze eigene Schattenseiten: Sie senkt den Grad an nutzbarem Speicherplatz und führt zu neuen Verwicklungen, die die Kosten der Storage-Umgebung enorm in die Höhe treiben. So müssen Replikate stets weit genug entfernt von den Primärdaten vorgehalten werden, damit sie im Katastrophenfall ausreichenden Schutz genießen.

Je weiter, desto besser? Das wäre ein Trugschluss, da die Synchronisation der Dateien notwendig ist für angemessene Recovery Point Objectives (RPO). Und diese bedingt eine replikationsfähige, aber leider recht hohe und damit kostenintensive Netzwerkbandbreite. Alles in allem bietet die Replikation zusätzlichen Disaster-Recovery-Schutz, kann die Kosten der Storage Infrastruktur im Extremfall jedoch verdoppeln.