IT Desaster Recovery

So vermeiden Sie IT-Ausfälle im Unternehmen

Krisenmanagement - von A wie Alarmierung…

Viele Unternehmen und Organisationen haben sich mit ausgetüftelten Notfallhandbüchern und entsprechenden Prozessen auf die Stunde X vorbereitet, aber mit einem tagelangen Ausfall wird dennoch kaum gerechnet. Im Trockentraining werden unter theoretischen Annahmen und kaum realen Bedingungen Desaster-Tests durchgeführt, um auch die Auditoren der Revisionsabteilung und die Wirtschaftstreuhänder zufriedenzustellen. Außerdem gibt es vertragliche Werkzeuge, von der gesicherten Treibstoffversorgung bis hin zur Personalbereitstellung, an die gedacht wurde. Im nächsten Schritt beginnen bereits die ersten Unwägbarkeiten wie Vereinbarungen mit Stromlieferanten, die sich gerne schadlos halten und Haftungen genauso ausklammern wie Versicherungen. Und wer denkt an Feldbetten und Nahrungsversorgung für die IT-Mannschaften nach den ersten acht oder zehn Stunden?

Zudem befindet man sich rechtlich bereits im kreativen Raum, denkt man an Begriffe wie "Höhere Gewalt" und an die Definition von Fahrlässigkeit in allen Facetten. Tritt nun ein Elementarereignis oder technischer Schadensfall ein - oft genügt dafür schon ein Fehlalarm eines Sensors -, sollte eine Alarmierungskette in Gang gesetzt werden, die automatisiert abläuft und die Vorgänge dokumentiert. Sprich: Es bedarf einer Applikation. Diese sammelt Alarme aus vorhandenen Monitoring-Lösungen, verarbeitet diese und informiert abgesichert die Verantwortlichen via E-Mail, SMS und Voice, also über das Mobilfunknetz oder andere redundante Wege.

… bis Z wie zentrales Power-Management

Eine Applikation, die physikalische Kontakte und Sensoren genauso im Griff hat wie USV-Geräte und virtualisierte Anwendungen, ist das einzig sinnvolle Werkzeug, das in der Krise operative Maßnahmen durchführen sollte. Diese Software muss selbst abgesichert sein, als letzte Anwendung herunter-, aber auch als erste wieder hochfahren, um dann die Logik ausführen zu können, die vor dem Krisenfall definiert wurde. Gerade der geregelte Wiederanlauf ist für viele Spezialisten die eigentliche Herausforderung, weil die IT-Infrastruktur ein mehrmaliges Hochfahren nicht tolerieren und mit Sicherheit Schaden nehmen würde. Somit kann es auch in verschiedenen Szenarien möglich sein, die Infrastruktur davon "abzuhalten, sich wieder zu aktivieren". Kurz hintereinander auftretende Stromausfälle, aus welchen Gründen auch immer, können tödlich sein - und dann wäre womöglich das tatsächliche Ende des Unternehmens besiegelt.

Ein zentrales Power-Management kann für Wartungsfenster genauso genutzt werden wie für Desaster-Recovery-Tests und zur Abbildung von Katastrophenszenarien, die auch von internationalen Standards eingefordert werden. Neue Hardware oder Änderungen in wichtigen Konfigurationen sollten erkannt und eine Meldung generiert werden, damit eine Klassifizierung oder Gruppenzuteilung erfolgen kann. Natürlich müssen auch virtuelle Anwendungen, die physikalisch oft schwer zu lokalisieren sind, der richtigen Hardware zugeordnet werden können, wenn es um die Frage geht, ob dieser oder jener Server heruntergefahren oder "live-migriert" werden sollte, weil Gefahr drohen könnte.