Deduplizierung, Thin Provisioning und Virtualisierung

Die wichtigsten Techniken für ein effizientes Storage-System

29.09.2009 von Martin Bayer

Um die wachsende Flut an Daten- und Informationen zu bewältigen, benötigen die IT-Verantwortlichen immer mehr Storage-Systeme. Sind jedoch die IT-Budgets limitiert, helfen nur noch effiziente Storage-Konzepte, um die steigenden Datenmengen in Griff zu bekommen.

Die IT-Abteilungen stehen unter Druck. Die Datenmengen wachsen unaufhaltsam weiter, so dass immer mehr Storage-Kapazitäten benötigt werden. Dem gegenüber stagnieren beziehungsweise sinken die IT-Budgets, laut IDC und Gartner. Zusätzlich erschweren komplizierte und strenge Compliance-Regularien den Umgang mit den enormen Datenmengen.

Die wichtigsten Techniken für ein effizientes Stor

EMC Symetrix V-Max
Speicher satt: Die Symmetrix V-Max soll die Speicher-Pools flexibler machen und das Management vereinfachen. (Quelle: EMC) <p> <a href="http://www.tecchannel.de/storage/management/2022149/effizientes_storage_system_deduplizierung_virtualisierung_thin_provisioning/" target="_blank">Die wichtigsten Techniken für ein effizientes Storage-System</a>

IBM System Storage TS7650
Speicher-Gigant: Mit der TS 7650 ProtectTIER bietet IBM eine Storage-Lösung an, die an Anwender mit einem täglichen Backup-Volumen ab etwa 1 TByte adressiert ist. (Quelle: IBM)

HP EVA 8400
Storage-Riese: Im Speicherschrank der EVA 8400 von Hewlett-Packard finden bis zu 324 Festplatten Platz. (Quelle: HP)

Deduplizierung spart Speicherplatz
Doppeltes Lottchen: Deduplizierung sorgt dafür, dass identische Daten nur einmal abgespeichert werden. Das spart Platz in den Storage-Systemen. (Quelle: Steudten)

Um den Unternehmen aus dieser Bedrängnis zu helfen, stehen dem Anwender verschiedene Storage-Technologien zur Verfügung. Sie versprechen die Datenmengen deutlich zu reduzieren und das Speichermanagement zu vereinfachen und das bei geringen Kosten. Viele Unternehmen reagieren auf diese Technologien aber noch mit Skepsis.

Wir haben die drei wichtigsten aktuellen Techniken zusammengestellt, die dabei helfen, Storage-Umgebungen effizient und kostengünstig zu betreiben. Neben der Theorie erörtern wir auch die Vor- und Nachteile sowie Praxisbeispiele.

Ausführliche Informationen rund um das Thema Storage-Kosten liefert Ihnen der Beitrag Tipps: Storage-Kosten effektiv senken. Grundwissen zum Thema Compliance vermittelt die Artikel Compliance: Was es bei der Einführung von Regelwerken zu beachten gilt. Tipps zu Disaster Recovery in Unternehmen bietet Ihnen der Beitrag Ratgeber: Backup und Restore.

Deduplizierung spart Speicherplatz

Unter Deduplizierung fasst man Techniken zusammen, die Anwender unterstützen sollen, Datenredundanzen zu erkennen und zu beseitigen. Ziel ist, das Volumen der zu speichernden Daten zu reduzieren und damit Speicherplatz auf den Storage-Systemen einzusparen. Außerdem soll die Netzauslastung sinken. Mit Hilfe von Deduplication-Funktionen werden mehrfach vorhandene Datenbestände nur ein einziges Mal abgespeichert. Die Tools ersetzen redundant abgelegte Informationen durch Platzhalter, so genannte Pointer, die auf den Speicherort der Originaldatei verweisen.

Redundante Daten lassen sich auf verschiedene Art und Weise erkennen. Content-Adressed-Storage-Systeme (CAS), die es schon seit einigen Jahren gibt, identifizieren Daten nach dem Inhalt der Information und nicht nach ihrer Lage auf dem physischen Medium. Damit ist gewährleistet, dass identische Datensätze nicht mehrmals auf dem Speichermedium abgelegt werden.

Moderne Deduplizierungs-Techniken gehen noch einen Schritt weiter:

Sie zerlegen Dateien in einzelne Segmente unterschiedlicher Größe, so genannte Chunks.
Im nächsten Schritt prüfen die Deduplication-Tools auf Byte-Ebene, welche Chunks sich wiederholen, und ersetzen die redundanten Teile durch Pointer, die wesentlich weniger Speicherplatz benötigen.

Doppeltes Lottchen: Deduplizierung sorgt dafür, dass identische Daten nur einmal abgespeichert werden. Das spart Platz in den Storage-Systemen. (Quelle: Steudten)

Ein Beispiel: Ändert sich in einer Powerpoint-Präsentation eine Folie, würde ein dateibasierendes Deduplizierungs-Werkzeug zwei verschiedene Versionen dieser Datei ablegen. Ein Tool, das die Informationen granularer zerlegt, würde erkennen, dass sich nur ein Teil verändert hat, und entsprechend auch nur die beiden Versionen dieser einen Folie abspeichern. Alle anderen Folien der Powerpoint-Präsentationen blieben unverändert ein einziges Mal auf dem Speichermedium abgelegt. Mit Hilfe der Deduplication-Technik auf Byte-Ebene lassen sich also deutlich mehr redundant vorliegende Informationen erkennen und verhindern. Die Einspareffekte, was den benötigten Speicherplatz betrifft, sind damit wesentlich größer.

In-Band- und Out-Band-Deduplizierung

Neben der Art und Weise, wie die zu speichernde Information zerlegt wird, unterscheiden sich auch die Methoden, an welcher Stelle im Datenverarbeitungsprozess die Deduplizierung stattfindet:

In-Band- oder Inline-Tools sortieren die redundanten Daten direkt im Backup-Vorgang aus. Das hat den Vorteil, dass Anwender von vornherein Backup-Speicher sparen und die Systeme von Haus aus kleiner anlegen können. Allerdings geht In-Band auf Kosten der Backup-Geschwindigkeit, da immer nur ein Datenstrom analysiert werden kann. Außerdem verlangsamen die notwendigen Rechenoperationen für die Analyse und Modifikation der Daten den Sicherungsprozess. Gerade wenn nur kleine Zeitfenster für das Backup zur Verfügung stehen, kann diese Variante problematisch werden.
Schneller funktionieren Out-Band- oder Post-Processing-Verfahren. Dabei werden die Daten zunächst auf das Backup-Medium übertragen und erst dort in einem zweiten Schritt von den Deduplication-Tools durchleuchtet. Das hat den Vorteil, dass Unternehmen die Informationen zügig in mehreren Backup-Strömen sichern können. Auch das Deduplizieren funktioniert schneller, da sich die Daten nachgelagert parallelisiert verarbeiten lassen. Allerdings müssen bei dieser Methode die Backup-Medien größer ausfallen, da die Daten zunächst ganz herkömmlich abgespeichert und erst nachgelagert optimiert werden.

Deduplizierung aus Sicht der Hersteller

Die Hersteller sehen in der Deduplizierung großes Potenzial für mehr Speichereffizienz, räumen im gleichen Atemzug aber auch ein, dass noch etliche Hausaufgaben zu erledigen sind. "Das Thema Deduplizierung steht erst am Anfang", sagt Mika Kotro, Product Marketing Manager von EMC. Aktuell werde die Technik nur im Backup-Umfeld eingesetzt. Um alle Möglichkeiten auszureizen, Speicherressourcen einzusparen, müssten Unternehmen neben den Backups auch ihre primären und sekundären Daten dedupliziert vorhalten können, ergänzt Peter Wüst, Director Systems Engineering von Netapp. Erst dann sei Deduplizierung optimal umgesetzt.

Aus Sicht von Ralf Colbus, Storage-Spezialist von IBM, kämpft die Technik derzeit noch mit Performance-Problemen. Die Systeme müssten in der Lage sein, verloren gegangene Daten schnell wiederherzustellen. Darüber hinaus dürften im Produktivbereich Deduplication-Tools zu keinen Leistungseinbußen führen. Aus diesem Grund gebe es noch keine Deduplizierungs-Lösungen für das Highend, sagt Markus Schneider, zuständig für das Product Marketing der Speicherlösungen von Fujitsu Technology Solutions. Hier beständen noch Probleme in Sachen Skalierbarkeit und Geschwindigkeit.

Thin Provisioning lastet Speicher besser aus

Mit Hilfe von Thin Provisioning sollen Anwender die Kapazität ihrer Speichersysteme effizienter auslasten können. Nicht nur Speichersysteme, auch Energie und Stellfläche ließen sich einsparen.

Richten Storage-Administratoren Speicherressourcen auf klassische Weise ein, werden oft große Teile der vorhandenen Kapazitäten verschwendet. Im Zuge eines solchen "Hard Provisioning", das auch als "Fat Provisioning" oder "Exact Provisioning" bezeichnet wird, weisen die Speicherverantwortlichen Anwendern oder Anwendungen dediziert bestimmte Ressourcen zu. Mit diesem Vorgang - dedicate on allocation - ist die so zugeteilte Speicherkapazität fest geblockt und steht anderen Anwendern oder Anwendungen nicht zur Verfügung. Darüber hinaus lässt sich der allokierte Speicher nur aufwändig modifizieren. Wird mehr Storage benötigt, müssen alle Daten zunächst auf ein anderes Medium übertragen, die entsprechende Logical Unit Number (LUN) gelöscht und neu eingerichtet werden. Um dafür gewappnet zu sein und aufwändigen Storage-Modifikationen zu entgehen, bemessen die Administratoren den Speicher meist sehr großzügig. Die Folge:

Große Teile der eingekauften Speicherressourcen liegen ungenutzt brach.
Experten sprechen von einer durchschnittlichen Auslastungsrate vieler Storage-Systeme von gerade einmal 25 Prozent.

Diese Verschwendung soll sich durch Thin Provisioning verhindern lassen. Dabei wird der Anwendung mehr Speicher vorgegaukelt, als das System in Wirklichkeit dafür reserviert hat. Der Platz wird aber erst dann tatsächlich belegt, wenn die Anwendung Daten auf das Medium schreibt. Benötigt diese mehr Speicher, bedient sich das System automatisch aus einem freien Speicher-Pool und weist mehr Kapazitäten zu. Wann dies passieren soll, kann der Administrator über einen bestimmten Schwellenwert festlegen. Darüber hinaus müssen sich die Verantwortlichen nicht mehr um den Speicherbedarf einzelner Anwender und Anwendungen kümmern, sondern nur noch die Gesamtkapazität des Systems im Auge behalten. Erst wenn der freie Speicherplatz unter einen bestimmten Pegel zusammenschmilzt, gilt es zusätzliche Ressourcen einzukaufen. Das Speichersystem schlägt automatisch Alarm, wenn dies der Fall ist, und benachrichtigt die Verantwortlichen.

Vor- und Nachteile von Thin Provisioning

Damit erleichtert Thin Provisioning die Administration der Storage-Umgebungen: zum einen durch die automatisierte Speicherzuteilung, zum zweiten dadurch, dass von Haus aus weniger Kapazitäten benötigt werden. Letzteres hat außerdem zur Folge, dass der Energiebedarf sinkt und die Unternehmen weniger Stellplatz in ihren Rechenzentren benötigen. Darüber hinaus sparen die IT-Verantwortlichen beim Einkauf, da sie keinen Speicher mehr auf Vorrat einzukaufen brauchen, sondern erst dann Ressourcen beschaffen müssen, wenn diese wirklich benötigt werden. Gerade angesichts der drastisch fallenden Preise für Harddisks kann dieser Faktor das Budget deutlich entlasten.

Den Speicherexperten zufolge eignet sich Thin Provisioning allerdings nicht für jedes Unternehmen. "Je kleiner der Gesamtspeicherplatz ist und je weniger Systeme angeschlossen werden, umso weniger sinnvoll ist Thin Provisioning", sagt EMC-Manager Kotro. Zwar gebe es einen Trend, dass Thin Provisioning zunehmend auch auf kleineren Systemen eingesetzt werde, ergänzt Schneider von FTS. Der Nutzen der Methode sei allerdings umso größer, je mehr Applikationen und Server auf ein Storage-System konsolidiert sind, bestätigt er seinen Kollegen von EMC. Dagegen rechnet Netapp-Manager Wüst damit, dass sich Thin Provisioning auf lange Sicht auch in den Midrange- und Einstiegsspeichern durchsetzen wird.

Virtualisierung vereinfacht Speicherverwaltung

Was mit Thin Provisioning auf einzelnen Storage-Systemen beginnt, geht mit der Virtualisierung ganzer Speichernetze weiter. Mit Hilfe entsprechender Techniken lassen sich die in einem Storage Area Network (SAN) organisierten Speicherressourcen effizienter auslasten und virtuelle Kapazitäten flexibel verschiedenen Servern zuweisen. Administratoren können im laufenden Betrieb die Größe von LUNs verändern beziehungsweise diese zwischen verschiedenen Speichersystemen migrieren. Damit lassen sich so genannte Tiered-Storage-Architekturen aufbauen, in denen die Daten je nach Anforderung auf dem entsprechenden Speichertyp abgelegt werden können: Informationen, auf die schnell und oft zugegriffen wird, lassen sich zum Beispiel auf schnellen Solid State Drives (SSD) platzieren, während Daten, die nur gelegentlich aufgerufen werden ihren Platz auf herkömmlichen SATA-Festplatten finden. Moderne Management-Konsolen sind mittlerweile sogar in der Lage, diesen Prozess automatisch abzuwickeln, auf Grundlage zuvor vom Administrator festgelegter Richtwerte, was beispielsweise Zugriffszahlen anbelangt.

Darüber hinaus bieten virtualisierte Speichernetze eine Reihe weiterer Vorteile: Die IT-Verantwortlichen können Disk Arrays verschiedener Hersteller in einem gemeinsamen Speicher-Pool zusammenfassen. Im SAN verwendete Techniken und Protokolle wie Fibre Channel (FC) und Internet SCSI over IP (iSCSI) spielen für die Virtualisierungsschicht keine Rolle. Es sind also in aller Regel keine aufwändigen Vorarbeiten und Modifikationen nötig, um das Speichernetz zu virtualisieren. Funktionen wie Snapshots, Spiegelungen, Replikation und Backups, die zuvor dediziert bestimmten Maschinen zugeordnet waren, lassen sich in einer virtualisierten Umgebung flexibel verteilen.

Je nachdem, wo die Instanz sitzt, gibt es unterschiedliche Ansätze, das SAN zu virtualisieren: Host-, Storage-, Switch- oder Netz-basierend.

Host-basierende Virtualisierungslösungen eignen sich vor allem dann, wenn Anwender nur eine begrenzte Anzahl von Servern betreiben. Für ein einheitliches Storage-Management muss dabei allerdings eine homogene Server-Infrastruktur vorausgesetzt werden. Außerdem gilt es, die im SAN vorhandenen Storage-Ressourcen für alle angebundenen Server entsprechend zu partitionieren.
Auch bei Storage-basierenden Virtualisierungslösungen sind die Anwender meist gezwungen, sich auf einen Speicheranbieter festzulegen. Zwar bieten einzelne Storageanbieter inzwischen integrierte Virtualisierungstechniken an, mit deren Hilfe sich Disk Arrays von Fremdanbietern als externe LUNs mit einbinden lassen, wegen fehlender Standards ist dies jedoch nicht die Regel.
Herstellerunabhängigkeit und damit größere Flexibilität versprechen dagegen Switch-basierende Virtualisierungslösungen. Die Schaltzentralen in den Speichernetzen kommen von Haus aus mit allen gängigen Server- und Storage-Plattformen zurecht.

Virtualisierungs-Appliances

Neben diesen Ansätzen, die auf bereits vorhandener Infrastruktur aufsetzen, gibt es dedizierte Virtualisierungs-Appliances, die sich in das Netz einklinken lassen. Dabei unterscheidet man zwischen Geräten, die direkt im Datenstrom zwischen Server und Speicher hängen (In-Band oder symmetrisch), und Appliances außerhalb des Datenpfads (Out-of-Band oder asymmetrisch).

In-Band-Lösungen sind relativ einfach zu implementieren. Die Virtualisierungsinstanz ordnet die LUNs den einzelnen Servern zu und organisiert den gesamten Datenverkehr. Für die angeschlossenen Server bildet die Appliance das Speichersystem. Dort sind auch die Inhaltstabellen der logischen Laufwerke hinterlegt. Problematisch dabei: Fällt die In-Band-Appliance aus, ist das gesamte Speichernetz lahmgelegt. Um die Verfügbarkeit zu sichern, muss der entsprechende Rechner redundant ausgelegt werden. Außerdem lassen sich Management-Aufgaben wie beispielsweise Migrationen ausschließlich über die Virtualisierungslösung abwickeln, da alle dafür notwendigen Informationen von den Storage-Systemen auf die Appliance abgezogen sind. Weiterer Schwachpunkt: Da der gesamte Datenverkehr zwischen Servern und Storage über den In-Band-Rechner läuft, kann sich dieses System - sofern es nicht entsprechend performant ausgelegt ist - als Flaschenhals entpuppen.
Diesem Problem lässt sich mit Out-of-Band-Appliances begegnen. Diese sitzen außerhalb des Datenstroms und kommunizieren via LAN mit den Host-Bus-Adaptern (HBA) in den Servern. Dort hinterlegt die Virtualisierungslösung, auf welche LUNs der Host zugreifen darf. Für diese Methode müssen allerdings so genannte Agenten auf den Servern installiert werden. Dafür ist diese Konfiguration weniger anfällig als In-Band-Appliances. Das System kommt mit weniger Leistung aus, da es lediglich Metadaten verwalten muss und die Input/Output-Operationen auf herkömmlichem Weg direkt zwischen Server und SAN abgewickelt werden. Außerdem bricht bei einem Ausfall der Out-of-Band-Appliance nicht gleich die ganze Speicherarchitektur zusammen. Basisfunktionen des SAN lassen sich weiter nutzen, und auch die einzelnen Storage-Systeme bleiben ansprechbar, weil die Inhaltstabellen auf den Arrays liegen.

Virtualisierung in der Praxis

Anwenderunternehmen virtualisieren neben ihren Primärspeichern mittlerweile auch ihre Bandbibliotheken. Virtual Tape Libraries (VTLs) emulieren mit Hilfe einer speziellen Software ein Bandlaufwerk, sitzen in Wirklichkeit jedoch auf herkömmlichen Disk Arrays. Der Vorteil: Backup-Daten lassen sich so schneller ablegen, weil sie zuerst auf einer Festplatte fixiert und erst dann in einem zweiten Schritt im Hintergrund auf eine Bandbibliothek geschrieben werden. Gerade wenn das Backup-Fenster zeitlich begrenzt ist, empfiehlt sich diese Methode. Mit der Emulation müssen die Administratoren zudem ihren Backup-Prozess nicht modifizieren, da die VTL den Servern wie gewohnt ein Bandlaufwerk zum Sichern der Daten vorspielt.

Angesichts der um sich greifenden Virtualisierung scheint es nur noch eine Frage der Zeit, bis die gesamte Storage-Infrastruktur unter einer gemeinsamen Management-Schicht verschwindet. Speicherfunktionen würden dann weitgehend automatisiert abgewickelt, der Verwaltungsaufwand deutlich reduziert. Bislang fehlen jedoch die notwendigen Standards, um den Traum von einer Unified Storage Architecture wahr werden zu lassen.

Beispiele: Storage-Systeme mit eingebauter Effizienz

Viele Hersteller haben auf veränderte Storage-Anforderungen reagiert und bieten Geräte mit vorintegrierten Techniken an, die die Effizienz des Speichers verbessern sollen:

Speicher satt: Die Symmetrix V-Max soll die Speicher-Pools flexibler machen und das Management vereinfachen. (Quelle: EMC)

EMC liefert die erst jüngst vorgestellten "Symmetrix-V-Max"-Systeme mit der "Virtual Matrix Architecture" aus. Damit sollen sich alle Storage-Ressourcen in einem zentralen und flexiblen Pool integrieren lassen. Darüber hinaus sollen Anwender ihre Storage-Infrastruktur automatisiert einfacher verwalten können. Beispielsweise lassen sich mit "Auto-Provisioning" Speicherressourcen wie Ports und Host Bus Adapters (HBAs) zu Gruppen zusammenfassen. Wird ein weiteres Volume in den Speicher-Pool eingefügt, erkennen alle Ports und HBAs dies automatisch. Früher hätte der neu hinzugefügte Speicher mit wesentlich mehr Klicks und damit mehr Aufwand manuell integriert werden müssen.

Speicher-Gigant: Mit der TS 7650 ProtectTIER bietet IBM eine Storage-Lösung an, die an Anwender mit einem täglichen Backup-Volumen ab etwa 1 TByte adressiert ist. (Quelle: IBM)

IBM bietet mit der "TS 7650 ProtecTIER" eine dedizierte Deduplizierungs-Appliance an. Das Backup-Device vereint Server, Controller, Speicher und Software vorkonfiguriert in einer Maschine. Redundante Daten werden beim Sichern herausgefiltert und damit das Backup schlanker. Die TS 7650 kann laut Hersteller bis zu zwölf virtuelle Bibliotheken, 256 virtuelle Laufwerke und 125.000 virtuelle Kassetten emulieren. Mit der integrierten Virtualisierung müssten Administratoren ihre Storage-Umgebung nicht modifizieren, um die Backups effizienter zu machen.

Storage-Riese: Im Speicherschrank der EVA 8400 von Hewlett-Packard finden bis zu 324 Festplatten Platz. (Quelle: HP)

Hewlett-Packard integriert in seine aktuellen Modelle der "Enterprise-Virtual-Array-Serie" (EVA) die erweiterte "SAN Virtualization Services Platform" (SVSP). Damit ließen sich laut Hersteller mehr Produkte von Drittanbietern in einen virtualisierten Speicher-Pool einbinden. Anwendungen und Daten sollen sich im laufenden Betrieb zwischen verschiedenen Systemen hin- und herschieben lassen. Damit verringere sich der Aufwand für die Administration der Systeme sowie für Migration, Backup und Replikation von Daten. Anwender sollen die vorhandenen Kapazitäten zu mehr als 70 Prozent auslasten können. Die Wirtschaftlichkeit der gesamten Storage-Infrastruktur soll sich HP zufolge um bis zu 50 Prozent verbessern. (hal)

Dieser Artikel basiert auf Beiträgen unserer Schwesterpublikation Computerwoche.