Hochverfügbare Data Center

Ausfallzeiten im Rechenzentrum vermeiden

04.09.2013 von Mike Jansma

Systemfehler, menschliches Versagen oder auch Naturkatastrophen führen zu ungeplanten Ausfällen in Rechenzentren. Verschärft wird diese Situation durch komplexe Technologien wie Virtualisierung und Cloud-Computing. Doch mit den richtigen Maßnahmen lassen sich derlei Notfälle kontrollieren.

Ungeplante und teure Ausfallzeiten sind in Rechenzentren auf dem Vormarsch, und neue Entwicklungen wie Mobile Computing, Virtualisierung oder die Datenspeicherung in der Cloud machen die Situation nicht gerade einfacher. Untersuchungen zeigen, dass dadurch in Rechenzentren für die Wirtschaft erhebliche Kosten entstehen.

Die amerikanische Beratungsgesellschaft Aberdeen Group hat ermittelt, dass die Kosten, die durch den Ausfall von Rechenzentrumsdiensten entstehen, im Schnitt bei mehr als 1,5 Millionen US-Dollar liegen. Bei Data Centern, die über eine unzureichende Notfallplanung verfügen, sind es fast 2,9 Millionen US-Dollar. Dagegen müssen Unternehmen, die gut gerüstet sind, nur 72.000 US-Dollar aufwenden, um die Ursachen und Folgen einer Störung zu beheben. Das bedeutet für die Unternehmen beträchtliche wirtschaftliche Einbußen, einen gewaltigen Imageschaden und den Verlust von Millionen künftiger Geschäftschancen.

Und doch wäre der Betrieb eines Rechenzentrums gänzlich ohne Ausfallzeiten gar nicht möglich. So müssen wichtige Teile ersetzt, angepasst oder regelmäßig gewartet werden. Die Kunst liegt darin, dies so geschickt zu planen und dabei die richtigen Technologien einzusetzen, dass die Ausfallzeiten minimal bleiben.

Bildergalerie: Rechenzentrum planen.

Bestandsaufnahme mit Asset-Management
Schritt 1: Die RZ-Betreiber müssen alle Geräte und Systeme, Hard- wie Software lückenlos erfassen und dokumentieren.

Outsourcing prüfen
Schritt 2: Als Alternative zum Eigenbetrieb sollte auch ein Komplett- oder Teil-Outsourcing in Betracht gezogen werden.

Standardisierung als Ziel
Schritt 3: RZ-Betreiber sollten auf eine standardisierte IT-Landschaft mit einheitlichen Lizenzen und einheitlichen Versionen hinarbeiten.

Kosten im Blick behalten
Schritt 4: Grundsätzlich sollten die Einkäufer darauf achten, möglichst schlank dimensionierte und verbrauchsarme Geräte einzukaufen.

Bessere Auslastung mit Virtualisierung
Schritt 5: Um Hardware zu optimieren, muss man sie reduzieren. Das funktioniert mit mehreren virtuellen Servern auf einem physikalischen Gerät.

Das passende Kühlkonzept
Schritt 6: Durch eine effizientere Auslastung der Rechner, lässt sich die Menge aller Stromabnehmer deutlich reduzieren.

Stromverbrauch planen
Schritt 7: RZ-Betreiber müssen die Richtwerte für den Stromverbrauch pro Quadratmeter RZ-Fläche realistisch planen.

Die richtige Dimension
Schritt 8: Ein Raumkonzept hilft, die vorhandenen Räumlichkeiten, Klimatisierung sowie Systeme und Geräte aufeinander abzustimmen.

Monitoring
Schritt 9: Ein umfassendes Monitoring sollte den Rechner-Pool, Stromversorgung, Kühlsysteme und die USV-Anlagen beinhalten.

Vorausschauende Monitoring-Tools nutzen

Ein Grund für ungeplante Ausfälle sind Betriebsstörungen, deren Ursachen überall im Rechenzentrum zu finden sein können. Jeder Teil der IT kann irgendwann einmal ausfallen: Geräte, Bauteile oder die elektrische Ausrüstung, das ist unvermeidlich. Der Schlüssel liegt darin, das Rechenzentrum mit entsprechend intelligenten Monitoring-Tools zu rüsten, die von sich aus das Wartungspersonal informieren, bevor überhaupt Probleme auftreten.

Intelligente Power-Leisten als wichtiger Bestandteil

In diesem Zusammenhang wird die Bedeutung der Power Distribution Unit (PDU) oft unterschätzt. Im Normalfall sitzt sie im Server-Rack. Dort misst und überwacht sie dessen Stromversorgung. Intelligente PDUs (iPDUs) können aber noch mehr: Sie halten ständig Ausschau nach möglichen Gefahren und informieren die Manager des Rechenzentrums über drohende Überlastungen oder andere Veränderungen, die sich negativ auf den Betrieb des Rechenzentrums auswirken könnten. Dazu gehören Leckagen oder Temperaturschwankungen.

Hot-Swapping - Austausch im laufenden Betrieb

Um ungeplante Ausfälle zu vermeiden und planbare auf ein Minimum zu reduzieren, muss vorausschauend und zukunftssichernd gedacht werden. Dazu gehört unter anderem der Einkauf der richtigen Technologie, damit nicht der Ausfall eines einfachen Bauteils gleich den kompletten Betrieb lahmlegt. PDU-Bestandteile, die auch im laufenden Betrieb auswechselt werden können, ermöglichen notwendige Wartungsarbeiten, ohne dass die Server heruntergefahren werden müssen.

Risikofaktor Mensch

Bei der Betrachtung von Ausfallzeiten darf auch menschliches Versagen nicht vernachlässigt werden. Umfassende regelmäßige Weiterbildung des Personals sowie klar formulierte und sorgfältig ausgearbeitete Arbeitsabläufe sollten daher Standard sein. Das Arbeiten in engen Räumen zwischen zahlreichen Leitungen und Kabeln stellt die Techniker vor die Herausforderung, unbeabsichtigte Kurzschlüsse am Sicherungsautomaten zu vermeiden.

So liegen beim Entfernen eines Servers zu Reparaturzwecken zahlreiche Kabel oft kreuz und quer übereinander. Leicht können Leitungen falsch abgesteckt oder vergessen werden mit dem Ergebnis, dass ein anderer Server plötzlich nicht mehr am Stromnetz ist. Auch hier kann Technologie helfen, diese Fehler zu vermeiden, indem man Produkte mit arretierbaren Stromkabeln wählt.

Nur wer die Fakten kennt, kann richtig reagieren

Unternehmen können ihr Strom-Monitoring über PDUs verbessern und so Einblick in die komplette Stromverteilung im Rechenzentrum gewinnen. Mit intelligenten PDUs kann das Management des Rechenzentrums Trends erkennen und Server-Ausfälle vermeiden. Ohne die in den PDUs eingebaute Intelligenz laufen die Server womöglich zu heiß, umgekehrt wird die Temperatur in der Umgebung der Server zu niedrig - bis hin zum Absturz der Geräte.

Den Stromverbrauchs im Rechenzentrum zu messen und zu überprüfen ist entscheidend für die Reduzierung von Betriebsstörungen. So hat McKinsey & Company in einer Studie festgestellt, dass nur sechs bis zwölf Prozent der Energie für den Betrieb der tatsächlich arbeitenden Server verwendet wurde, während die Server im Leerlaufbetrieb ohne Monitoring rund 90 Prozent der gesamten Energie verbrauchten.

Zu viel Kälte kann schädlich sein

Indem Unternehmen zu wenig über die Ursachen der Ausfälle in ihren Rechenzentren wissen, setzen sie ihre IT unnötigen Risiken aus. So herrschen in vielen Rechenzentren zu geringe Temperaturen. Im Irrglauben, die Geräte würden keine Temperaturen über 25 Grad Celsius vertragen, kühlen viele Betreiber ihre Rechenzentren zu stark herunter. Dabei zeigt eine Studie von Dell genau das Gegenteil: Die Systeme fallen demnach öfter aus, wenn die Umgebungstemperatur unter 16 Grad fällt, als wenn sie auf 25 Grad gehalten wird.

Dabei birgt das Anheben der Temperatur um nur ein Grad Celsius ein enormes Einsparungspotenzial bei den Energiekosten, ohne damit das Ausfallrisiko zu erhöhen. Tatsächlich hat die ASHRAE (American Society of Heating, Refrigerating and Air-conditioning Engineers) in der aktuellen dritten Ausgabe ihrer "Thermal Guidelines for Data Processing Environments" vorgeschlagen, dass die Betreiber von Rechenzentren die empfohlenen Grenzwerte für ihre IT-Ausrüstung nach oben anpassen sollten. Damit wären drastische Kosteneinsparungen möglich.

Natürlich geht das nur, wenn auch die Technologie dafür ausgelegt ist. So sind die meisten herkömmlichen PDUs lediglich für eine Betriebstemperatur bis zu 45 Grad Celsius geeignet. Einige führende Industrieunternehmen haben bereits die Temperatur in ihren Rechenzentren heraufgesetzt. Aber während die Server-Hersteller inzwischen ihre Produkte auf höhere Temperaturen auslegen, haben viele PDU-Hersteller diese wichtige Entwicklung noch nicht erkannt.

Natürlich wird ein Server auch dann ausfallen, wenn die PDU zu heiß wird und ihren Dienst versagt. Neue, intelligente PDUs vertragen daher bereits Temperaturen bis zu 55 Grad.

Fit für die Zukunft

Jeder technologische Fortschritt bedeutet Veränderung. Neue Produkte für die Infrastruktur im Rechenzentrum sind nicht nur mit Ausgaben verbunden, sondern bergen auch Wachstumspotenzial. Viele Betreiber übersehen die Notwendigkeit, im Rahmen einer Generalüberholung des gesamten Rechenzentrums auch die kleinsten Bestandteile der bestehenden Infrastruktur wie PDUs auf den Prüfstand zu stellen. Alle Beteiligten müssen bei diesen Entscheidungen mit einbezogen werden. So können sich zum Beispiel die Leiter der IT- und Facility-Management-Abteilungen besser verstehen, wenn sie bei der Erhöhung der Betriebszeiten und der Kapazitätsplanung zusammenarbeiten müssen.

Betreiber von Rechenzentren können durch proaktives Handeln das Ausfallrisiko minimieren, auch wenn die Möglichkeit dazu gering erscheinen mag. Ist aber das Personal in der Lage, die Geräte im Rechenzentrum richtig handzuhaben, und liegen genaue Angaben zum Stromverbrauch vor, müssen sich die Mitarbeiter seltener um ungeplante Ausfälle kümmern.

Natürlich werden sich die genannten Risiken nie ganz ausschließen lassen. Aber das Budget für die Behebung von Ausfällen kann durch den Einsatz intelligenter Technologien reduziert werden. Die so eingesparte Summe steht dann für das eigentliche Kerngeschäft zur Verfügung. (hal)