Ungeplante und teure Ausfallzeiten sind in Rechenzentren auf dem Vormarsch, und neue Entwicklungen wie Mobile Computing, Virtualisierung oder die Datenspeicherung in der Cloud machen die Situation nicht gerade einfacher. Untersuchungen zeigen, dass dadurch in Rechenzentren für die Wirtschaft erhebliche Kosten entstehen.
Die amerikanische Beratungsgesellschaft Aberdeen Group hat ermittelt, dass die Kosten, die durch den Ausfall von Rechenzentrumsdiensten entstehen, im Schnitt bei mehr als 1,5 Millionen US-Dollar liegen. Bei Data Centern, die über eine unzureichende Notfallplanung verfügen, sind es fast 2,9 Millionen US-Dollar. Dagegen müssen Unternehmen, die gut gerüstet sind, nur 72.000 US-Dollar aufwenden, um die Ursachen und Folgen einer Störung zu beheben. Das bedeutet für die Unternehmen beträchtliche wirtschaftliche Einbußen, einen gewaltigen Imageschaden und den Verlust von Millionen künftiger Geschäftschancen.
Und doch wäre der Betrieb eines Rechenzentrums gänzlich ohne Ausfallzeiten gar nicht möglich. So müssen wichtige Teile ersetzt, angepasst oder regelmäßig gewartet werden. Die Kunst liegt darin, dies so geschickt zu planen und dabei die richtigen Technologien einzusetzen, dass die Ausfallzeiten minimal bleiben.
Vorausschauende Monitoring-Tools nutzen
Ein Grund für ungeplante Ausfälle sind Betriebsstörungen, deren Ursachen überall im Rechenzentrum zu finden sein können. Jeder Teil der IT kann irgendwann einmal ausfallen: Geräte, Bauteile oder die elektrische Ausrüstung, das ist unvermeidlich. Der Schlüssel liegt darin, das Rechenzentrum mit entsprechend intelligenten Monitoring-Tools zu rüsten, die von sich aus das Wartungspersonal informieren, bevor überhaupt Probleme auftreten.
Intelligente Power-Leisten als wichtiger Bestandteil
In diesem Zusammenhang wird die Bedeutung der Power Distribution Unit (PDU) oft unterschätzt. Im Normalfall sitzt sie im Server-Rack. Dort misst und überwacht sie dessen Stromversorgung. Intelligente PDUs (iPDUs) können aber noch mehr: Sie halten ständig Ausschau nach möglichen Gefahren und informieren die Manager des Rechenzentrums über drohende Überlastungen oder andere Veränderungen, die sich negativ auf den Betrieb des Rechenzentrums auswirken könnten. Dazu gehören Leckagen oder Temperaturschwankungen.
Hot-Swapping - Austausch im laufenden Betrieb
Um ungeplante Ausfälle zu vermeiden und planbare auf ein Minimum zu reduzieren, muss vorausschauend und zukunftssichernd gedacht werden. Dazu gehört unter anderem der Einkauf der richtigen Technologie, damit nicht der Ausfall eines einfachen Bauteils gleich den kompletten Betrieb lahmlegt. PDU-Bestandteile, die auch im laufenden Betrieb auswechselt werden können, ermöglichen notwendige Wartungsarbeiten, ohne dass die Server heruntergefahren werden müssen.
Risikofaktor Mensch
Bei der Betrachtung von Ausfallzeiten darf auch menschliches Versagen nicht vernachlässigt werden. Umfassende regelmäßige Weiterbildung des Personals sowie klar formulierte und sorgfältig ausgearbeitete Arbeitsabläufe sollten daher Standard sein. Das Arbeiten in engen Räumen zwischen zahlreichen Leitungen und Kabeln stellt die Techniker vor die Herausforderung, unbeabsichtigte Kurzschlüsse am Sicherungsautomaten zu vermeiden.
So liegen beim Entfernen eines Servers zu Reparaturzwecken zahlreiche Kabel oft kreuz und quer übereinander. Leicht können Leitungen falsch abgesteckt oder vergessen werden mit dem Ergebnis, dass ein anderer Server plötzlich nicht mehr am Stromnetz ist. Auch hier kann Technologie helfen, diese Fehler zu vermeiden, indem man Produkte mit arretierbaren Stromkabeln wählt.
Nur wer die Fakten kennt, kann richtig reagieren
Unternehmen können ihr Strom-Monitoring über PDUs verbessern und so Einblick in die komplette Stromverteilung im Rechenzentrum gewinnen. Mit intelligenten PDUs kann das Management des Rechenzentrums Trends erkennen und Server-Ausfälle vermeiden. Ohne die in den PDUs eingebaute Intelligenz laufen die Server womöglich zu heiß, umgekehrt wird die Temperatur in der Umgebung der Server zu niedrig - bis hin zum Absturz der Geräte.
Den Stromverbrauchs im Rechenzentrum zu messen und zu überprüfen ist entscheidend für die Reduzierung von Betriebsstörungen. So hat McKinsey & Company in einer Studie festgestellt, dass nur sechs bis zwölf Prozent der Energie für den Betrieb der tatsächlich arbeitenden Server verwendet wurde, während die Server im Leerlaufbetrieb ohne Monitoring rund 90 Prozent der gesamten Energie verbrauchten.
Zu viel Kälte kann schädlich sein
Indem Unternehmen zu wenig über die Ursachen der Ausfälle in ihren Rechenzentren wissen, setzen sie ihre IT unnötigen Risiken aus. So herrschen in vielen Rechenzentren zu geringe Temperaturen. Im Irrglauben, die Geräte würden keine Temperaturen über 25 Grad Celsius vertragen, kühlen viele Betreiber ihre Rechenzentren zu stark herunter. Dabei zeigt eine Studie von Dell genau das Gegenteil: Die Systeme fallen demnach öfter aus, wenn die Umgebungstemperatur unter 16 Grad fällt, als wenn sie auf 25 Grad gehalten wird.
Dabei birgt das Anheben der Temperatur um nur ein Grad Celsius ein enormes Einsparungspotenzial bei den Energiekosten, ohne damit das Ausfallrisiko zu erhöhen. Tatsächlich hat die ASHRAE (American Society of Heating, Refrigerating and Air-conditioning Engineers) in der aktuellen dritten Ausgabe ihrer "Thermal Guidelines for Data Processing Environments" vorgeschlagen, dass die Betreiber von Rechenzentren die empfohlenen Grenzwerte für ihre IT-Ausrüstung nach oben anpassen sollten. Damit wären drastische Kosteneinsparungen möglich.
Natürlich geht das nur, wenn auch die Technologie dafür ausgelegt ist. So sind die meisten herkömmlichen PDUs lediglich für eine Betriebstemperatur bis zu 45 Grad Celsius geeignet. Einige führende Industrieunternehmen haben bereits die Temperatur in ihren Rechenzentren heraufgesetzt. Aber während die Server-Hersteller inzwischen ihre Produkte auf höhere Temperaturen auslegen, haben viele PDU-Hersteller diese wichtige Entwicklung noch nicht erkannt.
Natürlich wird ein Server auch dann ausfallen, wenn die PDU zu heiß wird und ihren Dienst versagt. Neue, intelligente PDUs vertragen daher bereits Temperaturen bis zu 55 Grad.
Fit für die Zukunft
Jeder technologische Fortschritt bedeutet Veränderung. Neue Produkte für die Infrastruktur im Rechenzentrum sind nicht nur mit Ausgaben verbunden, sondern bergen auch Wachstumspotenzial. Viele Betreiber übersehen die Notwendigkeit, im Rahmen einer Generalüberholung des gesamten Rechenzentrums auch die kleinsten Bestandteile der bestehenden Infrastruktur wie PDUs auf den Prüfstand zu stellen. Alle Beteiligten müssen bei diesen Entscheidungen mit einbezogen werden. So können sich zum Beispiel die Leiter der IT- und Facility-Management-Abteilungen besser verstehen, wenn sie bei der Erhöhung der Betriebszeiten und der Kapazitätsplanung zusammenarbeiten müssen.
Betreiber von Rechenzentren können durch proaktives Handeln das Ausfallrisiko minimieren, auch wenn die Möglichkeit dazu gering erscheinen mag. Ist aber das Personal in der Lage, die Geräte im Rechenzentrum richtig handzuhaben, und liegen genaue Angaben zum Stromverbrauch vor, müssen sich die Mitarbeiter seltener um ungeplante Ausfälle kümmern.
Natürlich werden sich die genannten Risiken nie ganz ausschließen lassen. Aber das Budget für die Behebung von Ausfällen kann durch den Einsatz intelligenter Technologien reduziert werden. Die so eingesparte Summe steht dann für das eigentliche Kerngeschäft zur Verfügung. (hal)