ILM und HSM

Storage-Tipps: Wachstum unstrukturierter Daten im Griff

Meta-Daten scannen

Bei großen Dateisystemen mit Hunderttausenden oder Millionen von Dateien gilt es noch eine andere Problematik zu lösen. Ähnlich wie bei einem Backup-Prozess müssen alle Dateien gescannt werden, um sie mit dem Regelwerk abzugleichen und zu prüfen, welche Dateien in die Kandidatenliste für die Migration aufgenommen werden. Bei einem traditionellen Scan-Vorgang, wie er etwa auch von Backup-Software verwendet wird, würde man bei Millionen von Dateien niemals zum Ende kommen, weshalb hier ein anderes Verfahren angewendet wird.

Bei parallelen Dateisystemen werden üblicherweise die Meta-Daten aller Dateien separat verwaltet. Der Scan braucht sich also nicht durch das Dateisystem zu arbeiten, sondern kann sich direkt an den Meta-Daten-Server wenden. Im Falle von GPFS kann der Scan nun parallel auf mehreren oder allen Cluster-Nodes erfolgen, sodass der Scan um Faktoren beschleunigt wird.

Mit diesem parallelen Scan-Verfahren können circa zehn Millionen Files pro Minute und Cluster-Knoten mithilfe der Policy Engine gescannt werden. Dieses Verfahren wird zum Beispiel auch für Backup-Zwecke verwendet: Der parallele Scan erzeugt dabei eine Liste aller Dateien, die zu sichern sind. Diese Liste wird dann an die Backup-Software übergeben, die selbstständig die Dateien (ohne notwendigen eigenen Scan) sichern kann. Ohne solche Maßnahmen ist es kaum möglich, große Dateisysteme effizient zu sichern.

Freilich muss man darauf hinweisen, dass eine solche Backup Lösung zwar recht flott sichert (die Sicherung erfolgt in der Regel von mehreren Nodes parallel), aber eher nicht als Disaster-Recovery-Lösung infrage kommt, denn ein Restore würde im Fall des Falles bei Millionen von Dateien und Terabyte von Daten vermutlich viel zu lange dauern. In solchen Fällen wird man eher über sinnvolle Replikationsmechanismen nachdenken, die beim Ausfall eines ganzen Rechenzentrum eine mehr oder weniger unterbrechungsfreie Fortführung des Betriebes erlauben.