Mehr Sicherheit und Skalierbarkeit

Big Data-Medienarchive mittels Object Storage bewältigen

02.09.2014 von Laurent Fanichet

Robust, skalierbar, verfügbar: Die Anforderungen an Big-Data-Medienarchive werden immer umfassender. Traditionelle RAID-Disksysteme können da nicht mehr mithalten. Die neue Technologie Object Storage verspricht Hilfe.

Die Fans schreien auf: Von den insgesamt 798 Episoden der legendären BBC-Serie Doctor Who sind 97 Episoden verschwunden! Das berichtete unlängst das amerikanische Magazin The New Yorker. Alte Episoden der Serie, die seit 1963 ein Millionenpublikum begeistert, wurden von der BBC nach der Ausstrahlung einfach auf Tape überschrieben.

Was heute undenkbar ist, war damals jedoch gängige Praxis - aus Kostengründen. Während sich heute die Mittel des Broadcastings etwa durch das Internet potenziert haben, sind die Herausforderungen bei der Datenarchivierung für Filmleute komplexer als vor 50 Jahren: TV-Sender, Postproduktionsstudios und Digital-Imaging-Anbieter jonglieren mit einem riesigem Content-Pool an digitalem HiRes-Bildmaterial, Visual Effects und Sounds. Das Material liegt verteilt an weltweiten Standorten und bei verschiedenen Teams.

RAID in Petabyte-Archiven immer ineffizienter und unsicherer

Aufgrund des steigenden Wettbewerbsdrucks und der immer knapperen Produktionsfristen haben Einsparungen bei Betriebs- und Personalkosten oberste Priorität und machen Filmcrews umso abhängiger von einer zuverlässigen und effektiven Lösung für den End-to-End-Workflow von Ingest bis Storage. Nur: Die Anforderungen an Skalierbarkeit, Robustheit und Verfügbarkeit werden in großen, langfristig angelegten Big-Data-Medienarchiven immer extremer.

Die Archive müssen einen hochperformanten Dateizugriff in heterogenen Umgebungen bieten, den Verwaltungsaufwand und Speicherkosten reduzieren und die Performance bei hohen Workloads steigern. Traditionelle RAID-Disk-Archive, wie sie heute weit verbreitet sind, können diesen Anforderungen nicht mehr standhalten: Skalierung im Petabyte-Bereich geht bei Diskkapazitäten von 3 bis 4 TByte mit einer entsprechend hohen Zahl an Disks einher. Mit der wachsenden Anzahl der Disks nimmt jedoch die Wahrscheinlichkeit zu, dass diese ausfallen.

Wiederherstellungszeiten liegen bei RAID-6 bereits heute in einer Größenordnung von 24 Stunden und mehr. Zudem fehlt es RAID-Systemen an einem Mechanismus zur proaktiven Erkennung von Bitfehlern (die Bitfehlerrate liegt bei einem RAID-Array mit zehn 3TB-Disks bereits bei 33 Prozent) und an der Sicherheit bei Knotenausfällen. Die Folgen sind Performance-Verlust, Komplexität und hohe Kosten.

Ruggedized Geräte

Johannes Wagmüller, Director Systems Engineering, NetApp
"Die stetig wachsende Menge unstrukturierter Daten bedingt die zunehmende Popularität von geclustertem NAS und damit das anhaltende Wachstum dieses Segments."

Dr. Stefan Radtke, CTO Isilon Storage Division, EMC Deutschland
"Mit EMC Isilon ist laut Gartner und IDC EMC bereits heute Markführer im Segment der Scale-Out-NAS-Systeme."

Vincenzo Matteo, Disk Product Management Director, Oracle
"Scale-Out NAS-Systeme sollen in erster Linie hohe Performance bieten. Unsere Oracle ZS3 Speicherlösungen bieten die Leistungsdaten eines typischen Scale-Out Designs, allerdings auf Basis einer deutlich effektiveren und gleichzeitig weniger komplexen Architektur."

Michael Achtelik, Storage Business Leader DACH, IBM Deutschland
"Generell sehen wir Scale-Out-Architekturen bei Speicher-Infrastruktur-Systemen als zentralen Ansatz, um mit zukünftigen Kapazitäts- und Leistungsanforderungen Schritt halten zu können.“

Robert Guzek, Senior Alliance Manager CE FTS CE ISS Market Operations, Fujitsu Technology Solutions
"Scale-Out-Systeme werden in den nächsten Jahren weiter an Bedeutung gewinnen, denn sie bieten mehr Flexibilität bei der Erweiterung der Kapazitäten und der Erhöhung der Leistungsfähigkeit. Scale Out ist deshalb schon jetzt ein großer Trend bei vielen Kunden. Ein weiterer Trend ist die Vereinheitlichung der Verwaltung.“

Hans Schramm, Field Product Manager Enterprise, Dell
"Mit dem Dell Fluid File System bietet Dell eine skalierbare und performante NAS Plattform für die EqualLogic und Compellent Systeme."

Thomas Meier, Chief Technologist Storage, Hewlett-Packard
"Scale-Out-NAS-Systeme sind eine wichtige Grundlage, um als Firma langfristig einen Datenpool für Big-Data-Analysen aufzubauen."

Dr. Georgios Rimikis, Senior Manager Solutions Strategy, Hitachi Data Systems
"Mit einem Blick auf die immer weiter schreitende Digitalisierung unserer Welt erwarte ich auch vor diesem Hintergrund für das Segment der geclusterten NAS viel Bewegung."

Object Storage macht Datensätze nahezu unbegrenzt skalierbar

Angesichts von Media Workflows auf Petabyte-Level bietet die Tiered-Object-Storage-Technologie eine neuartige Architektur für Disk-basierte Archive. Sind moderne Media Asset Management Systeme (MAM) in eine Tiered Storage-Lösung integriert, können Daten neben der direkten Katalogisierung und dem Quick Review über Proxies auf zweiter oder dritter Speicherebene mit einem einzigen Mausklick abgerufen werden.

Bestehen traditionelle Speichersysteme aus einem streng hierarchischen Verzeichnis aus Ordnern und Dateien, bedient sich Object Storage einfacher Schlüssel-Wert-Paare. Ein Objekt bildet eine Einheit aus originärem Datenmaterial, seinen Metadaten und einem Key. Dies ist ein Zugangsschlüssel, der nur einmal pro Objekt vergeben wird. Er dient dem Client als Objekt-ID, sodass für ihn Daten eindeutig identifizier- und schneller erreichbar sind.

Gruppierte Objekte können zudem in sogenannten Containern zusammengefasst werden, sodass Administratoren digitale Datensätze nahezu unbegrenzt skalieren können. Über den einfachen Objektnamensraum können Disk-Archive in einer Object Storage-Architektur ohne Weiteres von 500 TByte auf hunderte PByte skaliert werden.

Datenintegrität durch Erasure Codes, Datensicherheit durch Verschlüsselung

Neben der einfachen Adressierungslogik ist ein weiterer Vorteil von Object Storage, dass Daten global auf Rechenzentren an verschiedenen Standorten verteilt werden können, je nach Object Storage-System sogar über heterogene Disks und Knoten. Bei RAID hingegen müssen alle Daten lokal vorliegen. Üblichen Latenzen aufgrund großer Distanzen wird unter anderem durch lokales Caching, Netzwerkkomprimierung und Lastenausgleich entgegengewirkt.

Mittels HTTP-REST-Schnittstelle zur Cloud ist bei Object-Storage-Lösungen der flexible Zugriff auf Datenobjekte in Hochgeschwindigkeit möglich. Datenintegrität wird erreicht, indem Objekte über verschiedene Knoten mit entsprechender Redundanz mittels sogenannter Erasure Codes verteilt werden. Wie der Name "Erasure" schon andeutet, nutzen Object-Storage-Systeme Algorithmen zur Fehlerkorrektur, die sie in eindeutige Codes umwandeln.

Das Besondere: Sind die Codes zur Speicherung verteilt, reicht eine zufällige Teilmenge der Codes zum schnellen Abruf der Daten. Einzelne Codes werden automatisch getestet und im Fehlerfall durch Ersatzcodes ersetzt. Auf diese Weise werden verschwiegene Bitfehler vermieden. Durch Features wie Kompression und Verschlüsselung können Administratoren die Sicherheit ihrer Daten individuell anpassen und das Level der Datenintegrität selbst definieren.

Ruggedized Geräte

Trendthema Big Data
Von der Auswertung der riesigen Datenmengen, die täglich von IT-Systemen erfasst werden, versprechen sich Unternehmen, aber auch öffentliche Einrichtungen große Vorteile.

Vorteile von Big Data
Laut der Untersuchung von Barc erwarten sich Unternehmen von Big Data vor allem Vorteile auf strategischer Ebene. Doch das setzt voraus, dass Fachleute aus unterschiedlichen Bereichen Hand in Hand arbeiten: Business Manager, IT-Fachleute und Experten für das Sammeln und Auswerten von großen Datenbeständen.

Benno Zollner, Chief Information Officer von Fujitsu Technology Solutions
" Big Data Lösungen kombinieren Informationen aus unterschiedlichen Quellen und einer Vielzahl von Technologien. Deshalb müssen Big-Data-Fachleute interdisziplinäre Erfahrungen mitbringen."

Big Data: Wer analysiert?
Die Analyse der Daten, die im Rahmen von Big-Data-Projekten erfasst werden, erfolgt laut einer Studie von TCS vornehmlich durch die Fachabteilungen, die diese Informationen verwenden. Die IT-Abteilung spielt eine untergeordnete Rolle.

Kay Müller-Jones, Head of Global Consulting Practice bei Tata Consultancy Services:
"Neben technischen Fertigkeiten und fachlichem Wissen sollten Big-Data-Fachleute über ein hohes Maß an Fingerspitzengefühl im Umgang mit Kollegen verfügen. Denn gerade Big Data erfordert ein fachbereichsübergreifendes Denken, das Informationen aus vormals klar abgegrenzten Bereichen zusammenführt."

Big Data, die Probleme
Laut einer Studie des Marktforschungsinstituts Barc zählt fehlendes Fachwissen zu den größten Hemmnissen, mit denen sich europäische Unternehmen bei Big-Data-Projekten konfrontiert sehen.

Big Data: Wer ist zuständig?
Die Verarbeitung, das "Processing", von Big Data ist Aufgabe von IT-Fachleuten. Das können hauseigene Mitarbeiter sein, aber auch externe Spezialisten.

Analytische Infrastruktur für Big Data

Automatische Selbstheilung räumt Performance-Einbußen aus dem Weg

Wurden Object-Storage-Systeme ursprünglich für die Cloud mit entsprechenden Protokollen entwickelt, stehen heute Standardprotokolle wie CIFS und NFS zur einfachen Integration von Object Storage in die Betriebssystemumgebung zur Verfügung. Als Disk-basierte Speicherlösung kann Object Storage gegenüber Tape sofort mit dem Datenstreaming starten.

Ist der Austausch von Laufwerken oder die Implementierung in eine neue Umgebung nötig, werden mit den Funktionen der Selbstheilung- und Migration Objekte automatisch umgeschichtet - ohne Performance-Einbußen und Auswirkungen auf den Workflow. Geht es um Investitionen in eine neue Technologie, sind die Argumente Kapital- und Betriebskosteneinsparungen am überzeugendsten - heute ebenso wie noch vor 50 Jahren; wie im Falle der BBC.

Das Pro von Object-Storage-Lösungen: Aufgrund der robusten Algorithmen können kostengünstigere Disk-Laufwerke eingesetzt werden, die bekanntlich weniger Strom- und Kühlungsbedarf haben. Je nach Umfang der Infrastruktur versprechen Object-Storage-Lösungen jährliche Einsparungen von 10 bis 30 Prozent - bei Big-Data-Umgebungen ist dies ein entsprechend hoher Betrag. (cvi)