Wege zu ausfallsicheren Systemen

Der Geschäftserfolg von Unternehmen hängt heute mehr denn je davon ab, wie sie ihre geschäftskritischen Applikationen, E-Commerce-Systeme und damit das IT-Netz ohne Unterbrechung in Betrieb halten. Ausfallzeiten müssen minimiert und eine nahezu hundertprozentige Verfügbarkeit gewährleistet werden.

Von: Jan Rottschäffer und Michael Volk

Die Analysten von IDC schätzen, dass im Jahr 2003 mehr als eine halbe Milliarde Nutzer im Internet elektronische Geschäfte im Wert von etwa 1,4 Billionen Euro abwickeln werden. Deshalb müssen Firmen und Provider dafür sorgen, dass ihre Netze ohne Unterbrechungen laufen.

Beim Thema Verfügbarkeit ist zunächst einmal die Toleranzschwelle gegenüber Ausfällen zu definieren. Eine Verfügbarkeit von 99 Prozent entspricht immerhin noch möglichen 15 Minuten Ausfall pro Tag, 1,7 Stunden die Woche oder 3,5 Tagen im Jahr. 99,999 Prozent hingegen bedeuten weniger als 1 Sekunde am Tag oder 5 Minuten im Jahr. Was müssen Entscheider bei der Betrachtung der Verfügbarkeit berücksichtigen? Beschränkt sich diese auf unerwartete Ausfälle, oder gehören geplante Downtimes, zum Beispiel für Wartung, auch dazu? Wer ist alles betroffen? Sind es nur einzelne Arbeitsplätze oder gleich alle? Nicht vorhersehbare Ereignisse sind beispielsweise defekte Geräte oder ein Softwareabsturz, hervorgerufen durch einen Programmfehler, eine falsche Konfiguration oder auch Sabotage, wie etwa ein Hackerangriff. Die Ausfallzeiten hierfür berechnen sich aus der Wahrscheinlichkeit für das Eintreten dieses Ereignisses mal der Zeit zur Behebung des Fehlers, der sogenannten "Recovery Time". Ein Maß für die Ausfallwahrscheinlichkeit einer Netzwerkkomponente ist die "Mean Time Between Failures" (MTBF). Eine durchschnittliche Systemkomponente hat eine MTBF von 200 000 Stunden, was einer Störung pro 10 Jahren oder einer Ausfallwahrscheinlichkeit von 10 Prozent pro Jahr entspricht. Getreu dem Motto "Eine Kette ist nur so stark wie ihr schwächstes Glied" addieren sich die möglichen Einzelausfälle zur Wahrscheinlichkeit für den Ausfall des Gesamtsystems bei nicht redundant ausgelegtem Design. Ein Beispiel hierfür ist ein Webserver, der über eine Firewall und einen Zugangsrouter in Reihe geschaltet ans Internet angebunden ist. Jede dieser Komponenten ist hier ein so genannter Single Point of Failure (SPF). Fällt der Webserver, die Firewall oder der Router aus, dann funktioniert das Gesamtsystem nicht mehr. Legen Netzwerkverwalter das Design dagegen redundant aus, das heißt mit Ersatzkomponenten, dann reduziert sich die sich die Ausfallwahrscheinlichkeit des Gesamtsystems.

Verfügbarkeit im Transportnetz ist gleichbedeutend mit einem guten Design auf den Layern 1 bis 3. Auf Layer 1, dem Physical Layer, gehören dazu zum Beispiel die Anzahl und die Verlegung der Kabel sowie Backplane-Strukturen. Auf Layer 2, dem Data Link Layer, sorgen für die Redundanz Protokolle wie STP in den verschiedensten Ausprägungen (DEC, IEEE 802.1d, w, s), Link Aggregation, beispielsweise Fast-Ether-Channel von Cisco, Smart Trunking von Enterasys oder LACP (=IEEE 802.3ad), et cetera. Auf Layer 3, dem Network Layer, laufen dynamische Routingprotokolle wie RIP, EIGRP oder OSPF, aber auch solche, die mehrere physikalische Devices als ein einzelnes logisches erscheinen lassen. Dazu gehören VRRP, HSRP oder LSNAT.