Server wirksam schützen

Permanentes Monitoring notwendig

Mit einer reinen Materialschlacht zur Erhöhung der Serverausfallsicherheit ist es jedoch nicht getan. So müssen die Systeme regelmäßig gewartet werden. Zu empfehlen sind auch Techniken, die den Administrator auf mögliche Fehlerquellen aufmerksam machen. Dazu zählt beispielsweise intelligente Software, die den Systemstatus eines Servers permanent überwacht und Unregelmäßigkeiten sofort meldet. Wichtig sind auch Sicht- und Geräuschprüfungen, um beispielsweise schlagende Lüfter oder lose Kabel zu entdecken.

Die Monitoring-Software, die von den Serverherstellern mitgeliefert wird, kann in der Regel bereits eine ganze Reihe potenzieller Mängel aufspüren. Sie überwacht zum Beispiel Prozessortemperatur, Lüfterdrehzahlen, Netzteile oder Festplatten mittels SMART (Self-Monitoring, Analysis and Reporting Technology). Dieser von Festplattenproduzenten wie IBM und Seagate etablierte Industriestandard soll Laufwerkausfälle vorhersagen. Viele Hersteller nutzen SMART, um über die eigenen Monitoring-Tools frühzeitig Warnmeldungen zu generieren. Der Administrator kann dadurch die Platten rechtzeitig austauschen, bevor sie vollständig den Geist aufgeben.

Äußerst wichtig ist auch eine regelmäßige Überprüfung der Konsistenz des Dateisystems. Selbst wenn die Festplatten physisch noch funktionieren, droht unter Umständen ein Datenverlust, wenn das Filesystem Inkonsistenzen bildet, die sich ab einem bestimmten Zeitpunkt nicht mehr reparieren lassen.

Für Serversysteme, die sich an entfernten Standorten ohne eigene IT-Abteilung befinden, empfiehlt sich der Einsatz von so genannten Remote-Monitoring-Boards. Derartige Karten werden von den meisten Serverherstellern angeboten. Sie bestehen aus einer PCI-Einschubkarte, die über eine eigene CPU, Hauptspeicher sowie Netzwerk- und I/O-Anschlüsse verfügt. Mit eigenem Betriebssystem und separater Stromversorgung ausgerüstete Boards arbeiten innerhalb des Servers als unabhängiger Überwachungsrechner. Sie erlauben es, den Server vollständig aus der Ferne zu überwachen, zu warten, ein- und auszuschalten und notfalls sogar einen vollständigen Remote-Disaster-Recovery durchzuführen - sofern kein Hardwareaustausch nötig ist.

Ein Verfahren zur schnellen Wiederherstellung eines Servers nach einem Totalausfall sollte für alle kritischen Server vorhanden sein. Hierfür ist es sehr hilfreich, wenn alle Systeme möglichst dieselben Hard- und Softwarekomponenten verwenden. Automatisierte Installationsverfahren für Betriebssystem und Anwendungen sowie eine solide Backup- und Restore-Strategie sorgen ebenfalls für geringe Ausfallzeiten.