Wide Area Storage als Big-Data-Infrastruktur

Big Data - Daten richtig speichern

03.02.2014 von Frank Herold
Big Data erfordert eine Datenerfassung und Analyse mit hoher Performance. Aber wie speichert man Inhalte, die für immer existieren sollen? Und wie lässt sich jederzeit und ohne Zeitverzögerung darauf zugreifen? Wide Area Storage ist ein vielversprechender Lösungsansatz.

Die umfassende Analyse von Daten ist in manchen Unternehmensteilen längst Realität. Internetbasierte Marketingsysteme erfassen "auto-magisch" Massen an Informationen über potenzielle Kunden und deren Präferenzen. Flash-fähige digitale Filmkameras können binnen einer Nacht entladen und wieder genutzt werden und sind damit Lichtjahre entfernt von den Zeiten, in denen jedes Einzelbild auf ein extrem teures Medium gebrannt wurde.

Nicht genug: Anschließend mussten sie mit unvergleichbar höherem Aufwand manuell verarbeitet und editiert werden. Unternehmen generieren, speichern und analysieren zunehmend HD-Videos anstatt Texte, was ein hundertfach höheres Präzisionsniveau von Daten pro Nutzer und pro Produkt mit sich bringt. So erfassen beispielsweise bei der amerikanischen Rennserie NASCAR 18 HD-Kameras das Geschehen auf der Rennstrecke und ermöglichen direkten Datenzugriff, -suche und -analyse.

Daten horten - aber wo?

Vor dem Hintergrund technologischer Fortschritte wie wiederverwendbarer Aufnahmemedien, höher auflösender Kameras oder fein granulierter Datenerfassung und -analyse von Videos nimmt das Thema Big Data ein immenses Volumen an. Herkömmliche Storage-Technologien stoßen bei der langfristigen Vorhaltung dieser Daten schnell an ihre Grenzen, zumal gleichzeitig auch der effiziente Sofortzugriff gewährleistet werden soll, um das Potenzial der Daten jederzeit voll auszuschöpfen. Denn vielleicht entpuppt sich das Terabyte, das die seismischen 3-D-Daten eines Ölfelds in sich trägt, in der nächsten Dekade als wichtige Öl-Ader, oder ein genomisches Profil von heute liefert den entscheidenden Hinweis für die Krebsheilung von morgen.

Die Grenzen traditioneller Storage-Lösungen lassen sich mit Object- und Cloud-Storage-Technologien weiter nach hinten verschieben. Allerdings können sie auch neue operative und funktionale Zwänge schaffen. Eine neue Storage-Generation verfügt über die Stärken von Object Storage und bewahrt gleichzeitig die operationale und funktionale Flexibilität. Wide Area Storage ermöglicht eine umfassendere Nutzung von Big Data unter Aufrechterhaltung von Integrität und Langlebigkeit der Daten.

Bildergalerie: Big Data.
RSA (EMC) enVision/NetWitness
Das SIEM-Portfolio EMCs besteht im Wesentlichen aus zwei Komponenten. "enVision" bietet Werkzeuge für das Information- und Event-Management sowie die Verwaltung von Log- Daten. Mit Hilfe von "NetWitness" erhalten Anwender Funktionen an die Hand, mit deren Hilfe sie ihren Security-Status analysieren können.
Hewlett-Packard ArcSight
Als zentrale Komponente liefert der "Arc- Sight Enterprise Security Manager" (ESM) ein komplettes Set an Überwachungsfunktionen. Mit dem "Application Security Monitor" sollen sich auch Anwendungen in die Sicherheitsarchitektur einbinden lassen.
IBM InfoSphere Guardium
Mit "InfoSphere Guardium" verspricht der IBM seinen Kunden Echtzeit-Monitoring sowie ein automatisiertes Compliance-Reporting für Hadoop-basierte Systeme wie Cloudera und das IBM-eigene "InfoSphere BigInsights".
Oracle Audit Vault
Oracle hat neben den in der Datenbank integrierten Sicherheitsfunktionen mit "Audit Vault and Database Firewall" eine Security-Suite im Programm, die zunehmend als produkt- und herstellerübergreifende Lösung positioniert wird. Die im vergangenen Dezember als Software-Appliance vorgestellte Kombination sammelt Audit- und Log-Daten von verschiedenen Datenbanken. Neben den Oracle-Produkten werden auch IBM DB2, Microsofts SQL Server, SAPs Sybase ASE und MySQL unterstützt.
McAfee NitroSecurity
Security-Spezialist McAfee hat sein Portfolio mit dem Kauf von NitroSecurity Ende 2011 in Richtung SIEM ausgebaut. In der "Enterprise- Security-Manager-Appliance"-Linie werden die SIEM-Funktionen mit dem klassischen Security-Portfolio verknüpft. Dazu gehören beispielsweise ein Network Monitor, Deep-Packet-Inspection-Funktionen für die Einbindung von Daten und Anwendungen sowie ein Database Activity Monitoring (DAM).
Symantec SSIM
Wie McAfee kann auch Symantec mit der Kombination seiner klassischen Sicherheits-Tools punkten. Mit integriert sind Werkzeuge wie Security Endpoint Protection (SEP), Governance, Risk and Compliance Management (GRCM) sowie Data-Leakage-Protection-(DLP-)Techniken. Außerdem erhält das System laufend Threat- und Vulnerability-Daten.
Splunk
Der Anbieter baut seine gleichnamige Lösung mehr und mehr vom Log-Management zu einer kompletten SIEM-Suite aus. Die Lösung soll sich flexibel an verschiedene Analyse-Anforderungen anpassen lassen, erfordert allerdings einigen Customizing-Aufwand. Anwender können vordefinierte Suchen, Reports und Dashboards für ein Echtzeit- Monitoring einrichten.
Packetloop
Packetloop hat eine Hadoop- und NoSQL-basierte Plattform gebaut, auf der sich laufend große Mengen an Log-Daten zügig verarbeiten lassen sollen, um schädliche Aktivitäten zu erkennen.
Zettaset
Zettaset bietet mit seinem "Security Data Warehouse" (SDW) eine Ergänzung für SIEM-Systeme an. Das Warehouse basiert auf Hadoop und soll ebenfalls große Mengen von Security-Daten in kurzer Zeit verarbeiten können, um Unregelmäßigkeiten aufzuspüren.

Die natürlichen Grenzen von RAID

Aber wo genau liegen die Grenzen traditioneller Storage-Systeme, die Object-Storage-Lösungen überwinden sollen? RAID ist bekanntlich die Basis traditioneller Speichersysteme und hat sich als besonders effektiv für die Datenintegrität in einer einzelnen Gruppe von vier bis zwölf Disks erwiesen.

Doch Datensätze in Petabyte-Größe benötigen entweder Disk-Gruppen von mehr als zwölf Disks, oder die Daten müssen auf mehrere RAID-Gruppen verteilt werden. Erstgenannte Variante erhöht das Risiko eines Datenverlusts aufgrund eines Hardwareausfalls, letztgenannte sorgt für einen rapiden Anstieg der Kosten und Komplexität bei der Verwaltung von Datenkonsistenz und -Integrität über mehrere Disk-Einheiten. Das Datenwachstum macht zudem die Fehlerquote von Disk-Laufwerken zu einem echten Problem. Werden zum Beispiel Daten von einem vollen 3-TByte-Disk-RAID-Array mit zehn Disks gelesen, ergibt sich eine ungefährere Wahrscheinlichkeit für einen Datenverlust durch einen zufälligen Bitfehler von eins zu drei. RAID hat keinen Mechanismus für die proaktive Erkennung von Bitfehlern. Zudem müssen bei RAID alle Disks lokal vorliegen, im Normalfall auf dem gleichen Controller. Damit bietet RAID begrenzte Sicherheit gegenüber Knotenausfällen und überhaupt keine Sicherheit gegenüber Katastrophen am Ort der Unternehmenseinheit.

Replikation kaschiert Unebenheiten von RAID

Replikation ist eine adäquate Antwort auf die Problemstellen von RAID. Replikation bezeichnet in der einfachen Definition das Überkreuzkopieren der Daten zwischen zwei oder mehreren Standorten, um den Rückgriff auf Daten im Falle eines Ausfalls gewährleisten zu können. So werden Integrität, Wiederherstellbarkeit und Zugänglichkeit der Daten deutlich erhöht.

Leider birgt auch die Replikation ganze eigene Schattenseiten: Sie senkt den Grad an nutzbarem Speicherplatz und führt zu neuen Verwicklungen, die die Kosten der Storage-Umgebung enorm in die Höhe treiben. So müssen Replikate stets weit genug entfernt von den Primärdaten vorgehalten werden, damit sie im Katastrophenfall ausreichenden Schutz genießen.

Je weiter, desto besser? Das wäre ein Trugschluss, da die Synchronisation der Dateien notwendig ist für angemessene Recovery Point Objectives (RPO). Und diese bedingt eine replikationsfähige, aber leider recht hohe und damit kostenintensive Netzwerkbandbreite. Alles in allem bietet die Replikation zusätzlichen Disaster-Recovery-Schutz, kann die Kosten der Storage Infrastruktur im Extremfall jedoch verdoppeln.

Object Storage alles austariert?

Objektspeicher bieten einen völlig anderen Ansatz für das Storage-Management. Während traditionelle Storage-Systeme Daten in einem hierarchischen Verzeichnis für Ordner und Dateien darstellen, präsentiert Object Storage Daten in einem flachen Objekt-Namensraum (Namespace) aus einfachen Schlüsselworten- und Wertepaaren. Dieser Ansatz ermöglicht es Administratoren, digitale Datensätze fast grenzenlos zu skalieren.

Die Verarbeitung der Daten geschieht mittels einfacher netzwerkbasierter Protokolle wie HTTP. Auf diese Weise kann der Datenabruf an hochperformante Netzwerk-Switches und -Router ausgelagert werden mit dem Effekt, dass Daten ohne jeglichen virtuellen "Overload" über zahlreiche Storage-Knoten verteilt werden können. Zudem kann die Kapazität der Systeme ohne Ausfallzeiten, Leistungseinbußen, Umbauten oder Migrationsmaßnahmen erweitert werden.

Ein weiterer Vorteil der netzwerkfreundlichen Protokolle und der Verteilungslogik ist die einfache Übermittlung von Daten an unterschiedliche Rechenzentren rund um den Globus. Während der Datenzugriff über lange Distanzen ganz automatisch Latenzen mit sich bringt, wurden die Netzwerkprotokolle von Object-Storage-Systemen für lange Distanzen optimiert, inklusive Netzwerk-Level-Kompression, geographischem Lastausgleich und lokalem Caching.

Sicherungsalgorithmen: Erasure Codes

Während Algorithmen der ersten Object-Storage-Generation bereits über einfache Formen der Datensicherung mittels gleichzeitiger Datenkopien über drei oder mehr Knoten verfügen, sind jüngere Implementierungen mit deutlich raffinierteren Sicherungsalgorithmen ausgestattet. Bekannt sind sie unter dem Namen "Erasure Codes". Die Weltraumkommunikation nutzt sie seit Jahrzehnten, um die Integrität der Kommunikationsübertragung zu wahren.

Wo RAID Daten in eine feste Anzahl von Datenblöcken und Prüfsummen trennt, konvertieren die Algorithmen Daten in feste, aber gänzlich unterschiedliche Codes, die für die Speicherung getrennt und während des Abrufs wieder zusammengesetzt werden. Da jeder Code einmalig ist, kann eine beliebige Untermenge an Codes verwendet werden, um die Daten wiederherzustellen. Diese Algorithmen ermöglichen Regelwerke, die vor dem Ausfall von Disks, Knoten oder sogar ganzen Rechenzentren schützen - auf einem einzigen System und mit weit weniger Verlust an Redundanzen als bei RAID- oder Replikationslösungen. Datenintegrität wird hier stärker durch individuelle Codes als durch ganze Disk-Reihen geschaffen mit individuell anpassbaren Sicherungsgraden in ein und demselben Storage-System.

Unternehmen können ihre Regeln für die Langlebigkeit von Daten entsprechend ihren unterschiedlichen Anforderungen an die Datensicherung anpassen - ohne Hardwareänderungen und ohne Daten aus dem System kopieren zu müssen.

Grenzen reiner Object-Storage Lösungen

Object Storage verhält sich ähnlich wie der Parkservice in einem schicken Hotel. Das Auto wird komfortabel von einem Angestellten geparkt, und der Angestellte weiß genau, wie er die Autos parkt, um den vorhandenen Parkraum bestmöglich auszunutzen. Das Parkticket ist dabei der Schlüssel, um sein Auto wiederzubekommen. Verliert man sein Parkticket, muss man mindestens seine Autopapiere samt Ausweis vorzeigen, um sich als Eigentümer auszuweisen.

Was das Parkticket beim Auto ist, ist die Anwendung bei Objektspeicher. Alternative Formen, die Daten anzusprechen (beispielsweise Pfade, Suchindex), müssen von der Anwendung außerhalb des Objektspeichers gelagert werden. Das macht es sehr schwer, Daten über mehrere Anwendungen zu teilen, solange sie nicht denselben Objektindex nutzen. Auch eine Ad-hoc-Nutzung von Daten durch den Nutzer wird durch den Schlüsselmechanismus enorm erschwert, denn die Daten können nicht über eine gewöhnliche Datei- und Ordnerstruktur aufgerufen werden. Erschwerend kommt hinzu:

Die Zukunft von Object Storage

Das Essentielle für die erfolgreiche Nutzung von Object Storage ist die Fähigkeit, unstrukturierte Daten im Objektspeicher zu verwalten. Die gebräuchlichste Art, wie Unternehmen unstrukturierte Daten managen können, ist mittels eines Network-Attached-Storage (NAS)-Systems.

Dessen Vorzüge auch für Object Storage zu nutzen führt zu interessanten Ergebnissen. Erstens können durch die Bereitstellung eines klassischen Filesystem-Namensraums Unternehmen unstrukturierte Daten in den Objektspeicher migrieren. Das vergrößert ihre Haltbarkeit und reduziert die Kosten für ihre Vorhaltung. Zweitens sind CIFS- und NFS-Protokolle mit zahlreichen Betriebssystemen kompatibel; damit wird der Zugriff auf den Objektspeicher garantiert. Nutzer greifen so auch eigenständig und nach Bedarf auf Daten zu. Nicht zuletzt können IT-Administratoren viele der traditionellen operativen Best Practices für Datenmanagement und Sicherheit in Anspruch nehmen, da Objektspeicher in einem Dateisystem abgebildet werden. Diese neue Art von Object Storage firmiert sich unter Wide Area Storage (WAS).

Ein weiteres entscheidendes Merkmal von Wide Area Storage ist die Fähigkeit zum aktiven Data-Lifecycle-Management durch den Einsatz etablierter Storage-Management-Strategien. Lösungen für "Hierarchisches-Speicher-Management" (HSM) haben diese Eignung in traditionellen Speichersystemen bereits unter Beweis gestellt. Unternehmen, die HSM nutzen, sehen Objektspeicherung als logische Erweiterung ihres bestehenden Regelwerks.

Wide Area Storage als Archivlösung

WAS kann ebenso als attraktives Langzeit-Archiv dienen. Denn Object Storage bietet die gleichen Sicherheitslevels wie Tape - aber mit viel geringeren Latenzen. Objektspeicher können auch als Verbindung zu Object-Storage-basierten Cloud-Lösungen dienen. Die variable Einsatzfähigkeit öffnet eine große Bandbreite an Off-Site-Lösungen für die langfristige Datenvorhaltung.

Neben dem Archivierungspotenzial sind Object-Storage-Architekturen so angelegt, dass sie automatisch Multi-Site-Recovery-fähig sind. Da Daten mittels Standardnetzwerken über Knoten verteilt sind, können die Knoten als Mix aus lokal, Außenstelle oder mehreren Stellen konzipiert werden. Fällt ein gesamtes Rechenzentrum aus, so lassen sich die Daten in der Zweigstelle trotzdem wiederherstellen. Im Ergebnis verfügen Anwender über eine automatische Multi-Site-Sicherung ohne die Notwendigkeit einer Installation, Konfiguration und Koordination dedizierter Replikationsfähigkeiten. Die Multi-Site-Verteilung bietet zudem bezahlbaren Datenzugriff von jedem Standort. Nutzer können Daten von lokalen Knoten aufrufen, und geschriebene Daten werden über alle Zweigstellen verteilt - ohne die administrativen Kopfschmerzen des Managements bidirektionaler Replikation.

Nicht zuletzt bietet Wide Area Storage die Möglichkeit der Nutzung sowohl mit dateisystembasierten Klienten als auch mit Anwendungen, die speziell für die Nutzung von Object Storage entwickelt wurden. Das garantiert den breitesten Datenzugang innerhalb eines Unternehmens.

Mit dem Besten aus zwei Welten eröffnet Wide Area Storage Unternehmen neue Anwendungsszenarien für eine umfangreichere Nutzung von Big Data - ohne zu verwässern. (cvi)