Hochverfügbarkeit: Cluster contra Server

29.11.2006 von Ulrich Lenz

Für kritische Applikationen benötigen Unternehmen hochverfügbare Rechner. In diesem Umfeld kommen vorzugsweise teure Cluster-Systeme zum Einsatz. Aber auch preiswerte fehlertolerante Server können eine Alternative sein.

In den letzten Jahren sind zahlreiche unternehmenskritische Anwendungen von Großrechnern auf Standardsysteme wie Unix, Windows und Linux verlagert worden. Die Unternehmen konnten damit nicht nur von den geringeren Hardwarekosten profitieren, sondern auch den Aufwand für Infrastruktur, Administration und Software deutlich verringern.

Ein moderner Server auf Basis der PC-Technologie kostet bei durchaus vergleichbarer Leistung heute nur einen Bruchteil dessen, was man für einen Großrechner oder ein klassisches Unternehmenssystem der mittleren Datentechnik aufzuwenden hat. Voraussetzung dieser Entwicklung waren nicht nur die ständigen Leistungssteigerungen dieser Server-Systeme, sondern vor allem auch, dass sie hinsichtlich Stabilität und Ausfallsicherheit endlich ein professionelles Niveau erreicht haben.

Mit dem anspruchsvolleren Einsatzspektrum sind allerdings auch die Anforderungen gewachsen. Es ist eben ein großer Unterschied, ob man einen PC für Textverarbeitung und Tabellenkalkulation einsetzt, oder als Server für Aufgaben, von denen Wohl und Wehe des gesamten Unternehmens abhängen. Und dabei geht es auch längst nicht mehr nur um die klassischen betriebswirtschaftlichen Anwendungen, denn heute wird nahezu alles über Windows-Server gesteuert, Hochregallager und Produktionsstraßen, ebenso wie Call-Center, Kassen, Online-Shops oder Reservierungssysteme. Von der Verfügbarkeit solcher Systeme sind die Unternehmen längst voll und ganz abhängig, "von Hand" lässt sich meist nichts mehr erledigen, steht die IT, dann steht das gesamte Unternehmen.

In unserem Artikel vergleichen wir Cluster mit fehlertoleranten Servern in Bezug auf Hochverfügbarkeit. Außerdem erläutern wir die Vor- und Nachteile sowie den grundlegenden Aufbau dieser beiden Technologien.

Weitere Details zur Hochverfügbarkeit erfahren Sie in dem Beitrag Grundlagen der Hochverfügbarkeit. Mehr Informationen über Planungen beim Totalausfall der Datenverarbeitung finden Sie in dem Artikel Katastrophenschutz mit Plan.

Server und Cluster

Viele Unternehmen gehen stillschweigend davon aus, dass moderne Server technisch so ausgereift sind, dass Ausfälle praktisch nie mehr vorkommen. Eine sehr riskante Unterstellung, die nicht nur allen Erfahrungen mit technischen Geräten widerspricht, sondern auch die bis jetzt ohne Zweifel erreichte Zuverlässigkeit weit überschätzt.

Tatsächlich erreichen Standard-Server unter Linux und Windows heute eine Verfügbarkeit von bis zu 99,9 Prozent, was im Dauerbetrieb einer durchschnittlichen ungeplanten Stillstandszeit von mehr als acht Stunden pro Jahr entspricht. So erweist sich eine auf den ersten Blick ausgezeichnete Verfügbarkeit von 99,9 Prozent bei näherem Hinsehen für wirklich unternehmenskritische Aufgaben keineswegs als ausreichend.

Verfügbarkeitsniveau und Ausfallzeit
Gerätemodell:	Stand-by

99,0 %	87,6 Stunden
99,9 %	8,8 Stunden
99,99 %	52,5 Minuten
99,999 %	5,25 Minuten

Wenn Unternehmen die Verfügbarkeit ihrer Server verbessern wollen, investieren sie nicht nur in eine unabhängige Stromversorgung, sondern üblicherweise in Cluster-Systeme. Dabei werden mindestens zwei Server durch eine Steuerungssoftware gekoppelt. Diese Cluster-Knoten werden von einem Cluster-Dienst laufend überwacht, fällt ein Knoten aus, so übernimmt der jeweils andere dessen Aufgaben. Diese Konfiguration kann auch Dutzende von Servern umfassen.

Cluster sind nicht immer hochverfügbar

Auch ein optimal funktionierender Cluster läuft im Störungsfall nicht wirklich unterbrechungsfrei weiter. Die Übernahme der Prozesse erfordert eine gewisse Failover-Zeit, während der die Anwendungen und die Daten nicht zur Verfügung stehen, weil beispielsweise Systemdienste und Programme neu gestartet oder Datenbanktransaktionen zurückgesetzt werden müssen.

Auch wenn ein solcher Failover in modernen Cluster-Systemen weit gehend automatisch erfolgt, werden je nach Komplexität der Applikationen immer mehrere Minuten vergehen, bis alle Systeme wieder uneingeschränkt zur Verfügung stehen. In Extremfällen kann die Übergabe der Prozesse sogar mehrere Stunden dauern.

Cluster-Server kommen damit nicht über eine Verfügbarkeit von rund 99,99 Prozent hinaus, was einer durchschnittlichen Ausfallzeit von einer knappen Stunde pro Jahr entspricht. Wobei je nach Anwendungsfall weniger die Länge der Ausfallzeit problematisch sein kann, sondern die unvorhersehbare Unterbrechung der Prozesse.

Aufwendige Cluster-Administration

Die mehr oder weniger lange Failover-Phase ist nicht der einzige Wermutstropfen der Cluster-Lösungen. In der Praxis erweisen sich diese Systeme aufgrund ihrer Komplexität als recht schwierig und aufwendig zu administrieren. Es müssen ja zwei voneinander ganz unabhängige Server-Systeme mit jeweils eigenem Betriebssystem und eigener Anwendungssoftware betrieben werden, dazu kommt ein logischer Server für die Cluster-Steuerung. Diesem muss der Administrator mit einem Script mitteilen, welche Aufgaben im Störungsfall wie verteilt werden müssen.

Natürlich sind zwei Systeme aufwendiger zu pflegen als eines, zumal ein Cluster nur funktionieren kann, wenn immer alles parallel erfolgt, zum Beispiel die Durchführung von Updates oder die Einführung von Sicherheitsrichtlinien.

Ist der Betrieb schon bei zwei Cluster-Knoten nicht ganz einfach, so steigt der Aufwand für die Steuerung und Kontrolle der Konten erheblich, wenn noch mehr Server in einem Cluster zusammengeschlossen sind. Ohne entsprechend fachkundiges Bedienerpersonal lassen sich solche Konfigurationen nicht beherrschen. Cluster-Lösungen weisen damit relativ hohe Gesamtkosten auf, selbst wenn für die eigentliche Server-Hardware vergleichsweise preiswerte Geräte eingesetzt werden.

Grundaufbau eines fehlertoleranten Servers

Angesichts der Schwachstellen der Cluster-Technologie - kein kontinuierlicher Betrieb im Störungsfall und aufwendige Administration - müssen Unternehmen für wirklich kritische Aufgaben andere Lösungen einsetzen. Da ein Zurück zu proprietären Spezialsystemen aus Kostengründen meist nicht in Frage kommt, bieten sich dafür vor allem die fehlertoleranten Server an.

Diese Technologie beruht zwar wie die Cluster auf Redundanz, setzt dabei aber auf einer anderen Ebene an: Hier sind nicht die kompletten Server, sondern die einzelnen Komponenten im Server redundant ausgelegt. Alle betriebswichtigen Teile sind im fehlertoleranten Server doppelt vorhanden: Prozessoren, Speicherchips und I/O-Einheiten, also nicht nur, wie sonst in Highend-Systemen üblich, nur Netzteile und Festplatten.

Sollte eine Komponente ausfallen, übernimmt die jeweilige Partnerkomponente automatisch und vom Benutzer unbemerkt den Betrieb. Die Anwendung kann somit bei jedweder Störung ohne Datenverlust oder Verlust des Status der Anwendung kontinuierlich weitergeführt werden.

Server: Das bessere Hochverfügbarkeitssystem

Trotz der durchgängigen Redundanz verhalten sich fehlertolerante Server gegenüber dem Betriebssystem wie ein einziger Rechner. Es müssen also seitens der jeweiligen Software überhaupt keine weiteren Anpassungen für den Einsatz mit den redundanten Komponenten des Servers vorgenommen werden, da die Software auf Seiten der Hardware immer nur ein einziges System sieht.

Die Steuerung erfolgt im Server durch dessen eigene Systemsoftware. Diese ist – ein weiterer Unterschied zu vielen Cluster-Lösungen – vollständig Windows-kompatibel, verträgt sich also mit allen Windows-Applikationen und -Erweiterungen. Die von vielen Anwendern nicht zu unrecht gefürchteten Betriebssystem-Updates, etwa zu Windows Vista, lassen sich mit dieser Basis ebenfalls problemlos meistern.

Anders als ein Cluster-System verhält sich ein fehlertoleranter Server damit nach außen, gegenüber dem Benutzer, wie eine Black Box. Hochverfügbarkeit ist hier eine vollständig systeminterne Angelegenheit und muss nicht erst implementiert oder sichergestellt werden.

Kostenvergleich: Server versus Cluster

Die Hochverfügbarkeit von IT-Systemen hat natürlich auch Auswirkungen auf die Kosten. Vergleicht man Cluster- mit fehlertoleranten Server-Systemen, sind Letztere in der Anschaffung etwas teurer als handelsübliche Systeme. Sie liegen aber bei den Gesamtkosten, wegen der geringeren Betriebskosten, deutlich unter denen vergleichbarer Cluster-Systeme.

In der nachfolgenden Tabelle werden die Technologien Cluster und fehlertolerante Server in Bezug auf Verfügbarkeit, Systemkosten und Downtime-Kosten miteinander verglichen.

Kosten von Systemausfällen
Gerätemodell:	Stand-by	Cluster	Server

Verfügbarkeit (%)	99,9	99,95	99,999
Systemkosten ca. (Euro)	15.400	34.400	17.800
Downtime-Kosten ca. (Euro)	180.000	90.000	2.000

(Euro pro Jahr, Nutzungszeit fünf Jahre)

Fazit und Ausblick

Überraschenderweise haben viele Unternehmen trotz aller Aufklärungen und Warnungen keine genauen Vorstellungen über die Folgen von Ausfällen ihrer eigenen Systeme. Obwohl neutrale Untersuchungen zeigen, dass die Kosten für eine Stunde IT-Stillstand von etwa 25.000 Euro in der Fertigung über 75.000 Euro im Einzelhandel bis zu mehreren Millionen bei der Verarbeitung von Kreditkartendaten reichen können.

Schutz vor solchen katastrophalen Ausfällen können Cluster- oder fehlertolerante Server-Systeme bieten. Dabei übertreffen die entsprechenden Server die Cluster-Systeme bei der Ausfallsicherheit, denn fehlertolerante Server erreichen eine Verfügbarkeit von über 99,999 Prozent ("Five Nine"), was einer durchschnittlichen Ausfallzeit von etwa fünf Minuten pro Jahr entspricht. Damit übertreffen die fehlertoleranten Server sogar die Verfügbarkeit von Großrechnern – mehr ist derzeit in der kommerziellen IT nicht erreichbar. Damit sind die Anwender immer auf der sicheren Seite. (hal)