ILM und HSM

Storage-Tipps: Wachstum unstrukturierter Daten im Griff

Das Datenwachstum in Unternehmen liegt zwischen 20 und 60 Prozent pro Jahr - Tendenz steigend. Bei Datenbeständen innerhalb von Datenbanken stehen Mechanismen bereit, mit denen sich zum Beispiel veraltete Daten archivieren oder auf andere Speichermedien verlagern lassen.

Bei unstrukturierten Daten, wie sie insbesondere auf NAS Systemen liegen, ist die Situation komplizierter. Die Daten stammen unter Umständen von Hunderten Benutzern mit unterschiedlichsten Profilen und Datentypen. Hier gilt es, die ‚richtigen’ Daten auf den ‚richtigen’ Speichermedien zu speichern.

Was unter ‚richtig’ zu verstehen ist, hängt von den Anforderungen ab. Übliche Kriterien sind Performance, Verfügbarkeit, Größe, Anwendungscharakteristik oder Benutzergruppen. Ganz häufig sind in Unternehmen ‚manuelle’ Strategien anzutreffen, die bestimmte Speicherklassen wie Tier1, Tier2 oder Tier3 definieren und bei denen dann Anwendungsdaten nach bestimmten Kriterien und / oder SLAs diesen Tiers zugewiesen werden. Diese Vorgehensweise ist aber bestenfalls suboptimal, weil sich so weder eine optimale Kosteneffizienz noch die optimale Performance eines Gesamtsystems erreichen lässt. Ferner ist eine solche Kategorisierung oft statisch, das heißt, einmal gespeicherte Daten verbleiben während ihres gesamten Lebenszyklus auf dem Medium, auf dem sie erstmalig gespeichert wurden. Typischerweise ändert sich aber bei den allermeisten Daten das Zugriffprofil über die Zeit erheblich.

Kurz nach der ersten Speicherung von Dokumenten werden diese in der Regel häufig verwendet. Dies gilt sowohl für Office-Dokumente, weil sie nach der ersten Speicherung bearbeitet werden, als auch zum Beispiel für Fotos. Diese werden nach ihrer Erstellung noch häufiger angesehen, später dann immer weniger. Es kann aber auch umgekehrt sein, denkt man etwa an Videos in entsprechenden Portalen. Zu Beginn gibt es mäßige Zugriffe, bis sich durch Empfehlungen und Soziale Netzwerke ein echter Zugriffssturm entwickelt, der dann über die Zeit wieder abklingt. Solche Zugriffsmuster sollte ein System mit integrierten Life Cycle Management berücksichtigen, damit die Daten zur richtigen Zeit auf dem richtigen Speichermedium gespeichert werden.

Ein weiteres Problem bei einer manuellen Festlegung von Daten zu bestimmten Tiers besteht darin, dass sich die Benutzer gegebenenfalls merken müssen, auf welchen Medien ihre unterschiedlichen Daten gespeichert werden, weil auch der logische Speicherort, das heißt Laufwerk beziehungsweise Verzeichnispfad, damit verknüpft ist. Wenn sich bei der Migration von Daten auch der Zugriffspfad ändert, werden viele User ihre Daten nicht auf Anhieb auf ihrem Storage finden.