Komplexe Überwachung

Was in einen Business-Continuity-Plan gehört

03.07.2015 von Don Jacob

Der Plan muss zwei wichtige Elemente festgelegen: den maximal vertretbaren Datenverlust und die Wiederanlaufdauer. Was und wie überwacht werden muss.

Deutschland ist einer der Pioniere in Sachen erneuerbare Energien. So sind beispielsweise Photovoltaik-Anlagen mittlerweile ein wichtiger Bestandteil unserer Stromerzeugung - und dabei steigt die Verbreitung, auch in Privathaushalten und bei Unternehmen, stetig. Dies führte im Zuge der vor kurzem stattgefundenen partiellen Sonnenfinsternis dazu, dass viele Energieversorger vor Stromknappheit und sogar Stromausfällen gewarnt hatten.

Schwankungen bei der Stromversorgung stellen jedoch nicht nur während solch seltener - jedoch gut planbarer - Ereignisse eine Bedrohung für die ununterbrochene Fortführung des Betriebs (die Business Continuity) dar. Denn die fortlaufende Neustrukturierung des Stromnetzes im Rahmen der Energiewende kann jederzeit zu Spannungsspitzen und unvorhersehbaren Stromausfällen führen.

Es wäre ein großer Fehler anzunehmen, dass ein bestehender Plan für Disaster Recovery (DR) und Business Continuity (BC) schon ausreichte. Dies gilt besonders in den Fällen, in denen dieser Plan schon seit mehreren Jahren besteht und noch nie getestet wurde.
Foto: Jochen Kost-shutterstock.com

Und da der reibungslose Betrieb der IT-Infrastruktur mittlerweile für nahezu jedes Unternehmen essenziell für die Business Continuity ist, stehen die Verantwortlichen vor der Herausforderung, genau diesen zu garantieren - nicht nur in Bezug auf die Stromversorgung.

Ausfälle der IT können dabei nicht nur zu Umsatzeinbußen und Datenverlust führen, sie können auch den Ruf eines Unternehmens empfindlich beschädigen. Daher müssen IT-Abteilungen stets alle kritischen Komponenten ihrer IT-Infrastruktur im Blick haben.

Recovery Point Objective und Recovery Time Objective festlegen

Bei der Erstellung eines Business-Continuity-Plans müssen zwei wichtige Elemente festgelegt werden: ein RPO (Recovery Point Objective, maximaler Datenverlust) und eine RTO (Recovery Time Objective, Wiederanlaufdauer).

RPO - Das maximale Datenvolumen

Der RPO ist das maximale Datenvolumen, das zu verlieren sich ein Unternehmen leisten kann. Er steht also für den Zeitpunkt, bis zu dem die vorhandenen Datensicherungen reichen. Beispielsweise muss ein Unternehmen mit einem RPO von weniger als vier Stunden alle vier Stunden eine Momentaufnahme vom Datenbestand machen. Banken dagegen verantworten Finanztransaktionen und müssen daher einen RPO von praktisch null sicherstellen (Wiederherstellungszeitraum bis zur letzten Transaktion). Dies erfordert eine kontinuierliche Datenreplikation.

Ein guter DR-Plan steht und fällt mit der Art der Datensicherung. Große Unternehmen können DR-Standorte einrichten und sich zwischen der Sicherung an einem oder mehreren Standorten entscheiden - je nachdem, wie wichtig die Daten sind.
Foto: Arjuna Kodisinghe - shutterstock.com

Beim Festlegen des RPO gilt es, einige wichtige Punkte zu beachten, um spätere Probleme zu verhindern. Zunächst einmal muss der verkraftbare Datenverlust mit der Unternehmensleitung abgestimmt werden. Dann sind Datensicherungspläne zu analysieren und die Verantwortlichen müssen ermitteln, wie die Wiederherstellung im Ernstfall beschleunigt werden kann - am besten unterteilt in Muss- und Kann-Maßnahmen. Außerdem müssen sie entschieden, ob der Datenverlust beim aktuellen RPO zu umfangreich ist, das heißt, ob die Sicherungshäufigkeit erhöht werden muss.

RTO - Die Wiederanlaufdauer

Kommen wir zum zweiten wichtigen Element: der Recovery Time Objective (RTO). Mit der RTO wird festgelegt, wie lange es dauert, bis die Server wieder in Betrieb sind, Daten auf neue Hardware übertragen wurden und wichtige Dienste wie E-Mail und Internet wieder online sind. Anhand der RTO können Sie berechnen, wie schnell die Wiederherstellung vonstattengehen muss. Das Ergebnis bestimmt dann die Vorbereitung für den Ernstfall und das nötige Budget für den Wiederherstellungsplan.

Risiken bei der Sicherung aus der Cloud

Kleinere Unternehmen profitieren jedoch eher von cloudbasierten Sicherungslösungen. Die cloudbasierte Sicherung ist erschwinglicher, als alle Daten regelmäßig an einem separaten Standort zu duplizieren, und sie ist komfortabler und sicherer als die Sicherung auf Festplatte oder Band.

Dennoch sind auch bei der cloudbasierten Sicherung einige mögliche Risiken und Probleme zu berücksichtigen: Sie muss engmaschig überwacht werden, da auch Remote-Rechenzentren von Naturkatastrophen, menschlichem Versagen und Cyber-Attacken betroffen sein können. Die zu sichernden Daten sollten daher direkt im Unternehmensnetzwerk verschlüsselt werden, nicht erst vom Serviceanbieter, um maximale Sicherheit zu gewährleisten.

Außerdem - und das wird oft vergessen - ist für die Übertragung großer Datenmengen eine leistungsfähige und stabile Internetverbindung erforderlich.

"Es ist zwingend notwendig, die Infrastruktur zu überwachen, doch einfach ist dies nicht. Zunächst einmal müssen zwei Aspekte geklärt werden: Was muss wie überwacht werden?", sagt Don Jacob, Head Geek bei Solarwinds.
Foto: Privat

Was muss wie überwacht werden?

Im Ernstfall ermöglichen Sicherungen die Wiederherstellung und Business Continuity, doch Überwachungsmaßnahmen können potenzielle Ausfallursachen in der Netzwerk- und Hardwareleistung proaktiv identifizieren. Darüber hinaus werden in überwachten Netzwerken Sicherheitsprobleme wie unerlaubte Datenzugriffe, Datendiebstahl und DDoS-Angriffe schnell entdeckt.

Es ist also zwingend notwendig, die Infrastruktur zu überwachen, doch einfach ist dies nicht. Zunächst einmal müssen zwei Aspekte geklärt werden: Was muss wie überwacht werden?

Was überwacht werden muss

Die meisten IT-Infrastrukturen weisen sich überschneidende und redundante Komponenten auf. Dieser Grad an Komplexität bleibt in der Regel verborgen oder wird zumindest von den meisten Abteilungen ignoriert. Überwachungsmaßnahmen müssen dagegen alles ans Licht bringen, um die Risiken zu minimieren. Die Überwachung umspannt alle funktionalen Silos wie kaum eine andere IT-Disziplin.

Im Bereich der Überwachung sind Router, Switch, Hypervisor, VM, Speicher-Array, Anwendung usw. Bestandteil eines Netzes von miteinander verwobenen Interaktionen und Abhängigkeiten. Wo auch immer es eine Überschneidung gibt, muss die Überwachung sie berücksichtigen.

Andernfalls könnte ein wichtiger Dienst als nicht verfügbar erscheinen und mehrere Teams unnötig in Aufruhr versetzen. Werden umgekehrt wichtige Abhängigkeiten ignoriert, könnte ein scheinbar geringfügiger Fehler mit geringer (oder ohne) Vorwarnung zu einer Kettenreaktion und einem erheblichen Ausfall führen.

Überwachungskandidaten

Welche Bereiche Ihrer Umgebung sollte man überwachen? Und wie gelangt man an alle nötigen Informationen? Einige Überwachungskandidaten sind offensichtlich: zum Beispiel Router, Switches, Firewalls, Server und Speichersysteme - und die zugehörigen Messgrößen für die Hardwareleistung, also Geräteintegrität, CPU- und RAM-Auslastung sowie die Funktion der Lüfter und Netzteile.

Andere sind weniger offensichtlich, aber möglicherweise wichtiger: zum Beispiel die verfügbare Bandbreite, der Ressourcen-Pool für den Lastausgleich, Syslog-Meldungen der Firewall oder die Gesamt-Paketverluste und -Latenz im Netzwerk.

Sogar die Überwachung des Status von Routing-Protokollen (OSPF, EIGRP und auch BGP) und die Überwachung von Route Flapping, IP-Konflikten sowie der DHCP- und DNS-Leistung können die nötigen Einblicke liefern, um die Reaktion bei einem Ausfall signifikant zu beschleunigen.

Wie zu überwachen ist

Sind die Überwachungsziele erst einmal festgelegt, heißt es, sich um das "Wie" zu kümmern. Da ist es praktisch, dass sich die meisten Überwachungstechniken bereits seit Jahrzehnten bewähren. Mit dem bekannten Ping-Protokoll lassen sich die Erreichbarkeit und Reaktionszeit eines Geräts sowie die Anzahl an unterwegs verlorenen Paketen überprüfen.

SNMP (Simple Network Management Protocol) ist das beliebteste, am häufigsten unterstützte Überwachungsprotokoll für Netzwerkgeräte. Es erfasst Gerätedaten entweder zu vorab festgelegten Abfrageintervallen (Polling) oder nur bei Überschreitung bestimmter Schwellenwerte (Traps).

Informationen über die Anwendungsleistung können aus Syslog- und Ereignisprotokoll-Meldungen von Servern und Anwendungen gewonnen werden. Darüber hinaus sind auch NetFlow, die Paketanalyse, die Windows-Verwaltungsinstrumentation (WMI) und Leistungszähler bei der Überwachung von Vorteil und sollten daher bei der Planung berücksichtigt werden.

Komplexe IT-Umgebungen brauchen komplexe Überwachung

Neben diesen grundlegenden Werkzeugen und Maßnahmen, die seit langem ausgereift, zuverlässig und gut dokumentiert sind, gibt es natürlich noch weitere Möglichkeiten, die hier aber nicht behandelt werden können. Komplexe IT-Umgebungen bedingen also eine mindestens genauso komplexe Überwachung. Doch die gute Nachricht ist: Es gibt Tools und Verfahren, um diese Aufgabe zu bewältigen.