Wege zu ausfallsicheren Systemen

14.06.2002
Der Geschäftserfolg von Unternehmen hängt heute mehr denn je davon ab, wie sie ihre geschäftskritischen Applikationen, E-Commerce-Systeme und damit das IT-Netz ohne Unterbrechung in Betrieb halten. Ausfallzeiten müssen minimiert und eine nahezu hundertprozentige Verfügbarkeit gewährleistet werden.

Von: Jan Rottschäffer und Michael Volk

Die Analysten von IDC schätzen, dass im Jahr 2003 mehr als eine halbe Milliarde Nutzer im Internet elektronische Geschäfte im Wert von etwa 1,4 Billionen Euro abwickeln werden. Deshalb müssen Firmen und Provider dafür sorgen, dass ihre Netze ohne Unterbrechungen laufen.

Beim Thema Verfügbarkeit ist zunächst einmal die Toleranzschwelle gegenüber Ausfällen zu definieren. Eine Verfügbarkeit von 99 Prozent entspricht immerhin noch möglichen 15 Minuten Ausfall pro Tag, 1,7 Stunden die Woche oder 3,5 Tagen im Jahr. 99,999 Prozent hingegen bedeuten weniger als 1 Sekunde am Tag oder 5 Minuten im Jahr. Was müssen Entscheider bei der Betrachtung der Verfügbarkeit berücksichtigen? Beschränkt sich diese auf unerwartete Ausfälle, oder gehören geplante Downtimes, zum Beispiel für Wartung, auch dazu? Wer ist alles betroffen? Sind es nur einzelne Arbeitsplätze oder gleich alle? Nicht vorhersehbare Ereignisse sind beispielsweise defekte Geräte oder ein Softwareabsturz, hervorgerufen durch einen Programmfehler, eine falsche Konfiguration oder auch Sabotage, wie etwa ein Hackerangriff. Die Ausfallzeiten hierfür berechnen sich aus der Wahrscheinlichkeit für das Eintreten dieses Ereignisses mal der Zeit zur Behebung des Fehlers, der sogenannten "Recovery Time". Ein Maß für die Ausfallwahrscheinlichkeit einer Netzwerkkomponente ist die "Mean Time Between Failures" (MTBF). Eine durchschnittliche Systemkomponente hat eine MTBF von 200 000 Stunden, was einer Störung pro 10 Jahren oder einer Ausfallwahrscheinlichkeit von 10 Prozent pro Jahr entspricht. Getreu dem Motto "Eine Kette ist nur so stark wie ihr schwächstes Glied" addieren sich die möglichen Einzelausfälle zur Wahrscheinlichkeit für den Ausfall des Gesamtsystems bei nicht redundant ausgelegtem Design. Ein Beispiel hierfür ist ein Webserver, der über eine Firewall und einen Zugangsrouter in Reihe geschaltet ans Internet angebunden ist. Jede dieser Komponenten ist hier ein so genannter Single Point of Failure (SPF). Fällt der Webserver, die Firewall oder der Router aus, dann funktioniert das Gesamtsystem nicht mehr. Legen Netzwerkverwalter das Design dagegen redundant aus, das heißt mit Ersatzkomponenten, dann reduziert sich die sich die Ausfallwahrscheinlichkeit des Gesamtsystems.

Verfügbarkeit im Transportnetz ist gleichbedeutend mit einem guten Design auf den Layern 1 bis 3. Auf Layer 1, dem Physical Layer, gehören dazu zum Beispiel die Anzahl und die Verlegung der Kabel sowie Backplane-Strukturen. Auf Layer 2, dem Data Link Layer, sorgen für die Redundanz Protokolle wie STP in den verschiedensten Ausprägungen (DEC, IEEE 802.1d, w, s), Link Aggregation, beispielsweise Fast-Ether-Channel von Cisco, Smart Trunking von Enterasys oder LACP (=IEEE 802.3ad), et cetera. Auf Layer 3, dem Network Layer, laufen dynamische Routingprotokolle wie RIP, EIGRP oder OSPF, aber auch solche, die mehrere physikalische Devices als ein einzelnes logisches erscheinen lassen. Dazu gehören VRRP, HSRP oder LSNAT.

Auf die richtige Implementierung kommt es an

In diesem Bereich wird zwar häufig in die Hardware investiert - redundante L3-Switches im Core, redundante Routeranbindungen - jedoch lässt die korrekte Implementierung oft zu wünschen übrig. Diese ist die Vorrausetzung für ein sauberes Umschalten auf die redundanten Systeme im Falle einer Störung. Administratoren dokumentieren und aktualisieren die Konfiguration häufig nicht und führen keine Backuptests durch. Ist ein Netz nicht richtig implementiert, ist dessen Verhalten nicht mehr vorherbestimmbar, dann lässt sich auch keine Aussage über die Verfügbarkeit treffen. Es ist oft sogar mit redundanter Hardware fraglich, ob das Netz wieder hergestellt werden kann.

Häufig ist die Root-Bridge in einem geswitchten Ethernet-LAN falsch gewählt. Wer hier nicht richtig konfiguriert, bringt durch die Neuinstallation eines einfachen Etagenswitches leicht das ganze Netz zum Stillstand. Bei den Routern sind IP-Netze falsch zusammengefasst oder OSPF-Domänen schlecht entworfen. Oft kommen diese Fehler erst zum Tragen, wenn das Netz eine bestimmte Größe erreicht hat. Sie sind dann nur schwer ohne längere Ausfallzeiten zu korrigieren, da meistens ein grundsätzliches Redesign notwendig ist.

Im WAN garantieren die Serviceprovider verschiedene Verfügbarkeiten, die je nach der Höhe der Gesamtverfügbarkeit unterschiedliche Investitionen erfordern wie etwa Backup-Strategien mit mehreren parallelen Standleitungen. Als preiswerte Alternative nutzen viele Unternehmen die wenig hochverfügbaren VPNs. Weit verbreitet ist heutzutage ein ISDN-Backup zur Standleitung. Teilweise sind die ISDN-Leitungen aber mitbetroffen, wenn beim Provider ein Switch ausfällt, der über das gleiche Equipment läuft. Deshalb sind für unternehmenskritische Ressourcen, die über das WAN erreichbar sein müssen, unterschiedliche Leitungswege über getrenntes, voneinander unabhängiges Equipment zu wählen.

Zu der Verfügbarkeit der Services zählen neben der Hardware, auf der die Dienste laufen, auch die gewünschte Mindestantwortzeit und die vertraglich festgelegte maximale Belastung. Beispielsweise ist es nicht von Nutzen, wenn ein Provider zwar eine unternehmenskritische Applikation auf zwei Server verteilt, jedoch bei einem Ausfall der intakte Server unter der Last der doppelten Anfragen zusammenbricht. Daher ist ein korrektes Baselining erforderlich. Das bedeutet, dass Provider die typische Last aller Systeme im Durchschnitt und unter Spitzenlast ermitteln, um herauszufinden, ob der Rest der Geräte bei einem Ausfall die Funktionen übernehmen kann. Eine lückenlose, bedarfsgerechte Netzwerkdokumentation, von Konfigurationsdaten für Router bis zum komplexen Kabelmanagementsystem, verschafft Unternehmen auch langfristig eine Grundlage für einen störungsfreien Netzbetrieb.

Hochverfügbare Systeme richtig absichern

Viele Anwendungen setzen zusätzliche Netzwerkdienste voraus. Zum Beispiel benötigt ein InternetServiceprovider für sein Accounting und die Authentifizierung seiner Kunden ein "Radius"- oder "TACACS+"-Protokollsystem. In einem normalen LAN wäre hier der DHCP-Dienst zu nennen und der wichtige DNS-Dienst, der nicht nur für das Internet sondern auch im "Microsoft-2000"-Umfeld eine große Rolle spielt. Alle zusätzlichen Services erfordern ebenfalls Redundanz. Die Hardware der Server lässt sich leicht redundant und skalierbar auslegen: Plattenplatz über Raid-Systeme, die Erreichbarkeit mittels entsprechender Server-LAN-Karten, mit denen sich die Systeme mehrfach an LAN-Switches anbinden lassen. Der Ausfall einzelner Server lässt sich über Cluster-Systeme oder über vorgeschaltete LoadBalancer auffangen. Ein wichtiger Aspekt ist auch ein regelmäßiges Daten-Backup, das im Notfall in einer vorher festgelegten Zeitspanne einspielbar sein muss.

Die Verfügbarkeit der Endgeräte richtet sich danach, wie schnell ein System wieder einsetzbar sein muss. Sind ein paar Stunden Ausfall nicht tragisch, und fallen Workstations nur selten aus, so kann das System neu installiert werden. Bei einem Call-Center-Arbeitsplatz, an dem ohne Workstation nicht gearbeitet werden kann, lässt sich die Ausfallzeit dagegen direkt in verlorene Aufträge umrechnen. Die verfügbarste, jedoch nicht die günstigste Lösung für dieses Beispiel: Alle Daten immer auf den Netzwerkserver speichern plus redundante, identische Arbeitsplätze einrichten.

Redundanz hat oberste Priorität

Wie erhöht und kontrolliert man die Verfügbarkeit bei der Infrastruktur? Hier sind Serverräume und Rechenzentren zu nennen, die vor Sabotage, Brand, oder Wasserschäden geschützt sein müssen. Höchste Redundanz wird durch das Aufteilen der wichtigsten Systeme in getrennte Räume oder sogar Standorte erreicht - eine Lösung, die nahezu alle Banken heutzutage realisiert haben. Zwischen den Räumen und dem Rest des Netzes sollte die Kabelführung zu den wichtigsten Systemen immer über getrennte Kabelschächte laufen, ebenso Stromversorgungen über zwei getrennte Einspeisungen gelegt werden. Zusätzlich dienen USV und Generatoren als Schutz gegen Stromausfall. Ein möglicher Ausfall der Klimaanlage in Serverräumen ist ebenfalls zu bedenken, da viele Systeme ab 40 Grad Celcius nicht mehr einwandfrei arbeiten. Nach einem Stromausfall muss sichergestellt sein, dass die Sicherungen den Einschaltstrom verkraften und keine Komponenten durch Blitzschlag Schaden nehmen können.

Organisation ist alles

Die Verfügbarkeit des Netzes kann nur durch geeignete Prozesse gesteuert, überwacht und garantiert werden. Die meisten dieser Vorgänge müssen kontinuierlich wiederholt werden, da jedes Netz sich permanent verändert und damit auch die Verfügbarkeit keine statische Größe sein kann. Um die Gesamtverfügbarkeit für ein gewachsenes Netzes zu ermitteln, ist es notwendig, das Netzwerk genau zu dokumentieren und parallel die oben beschriebenen Prozesse einzuführen. Jede Veränderung muss mit einer Aktualisierung der Netzwerkdokumentation und der Prozesse für Disaster Recovery einhergehen. In vielen Unternehmen fehlen diese Prozesse völlig. Oft wird gar nicht erkannt, dass ein System schon auf Backup läuft. Ursache ist meistens, dass die Zuständigkeiten nicht geklärt wurden und die Netzwerkadministration mit alltäglichen Aufgagen überlastet ist. Oft fehlt auch ein geeignetes Netzwerkmanagementsystem. Viele Disaster-Recovery-Maßnahmen existieren nur in den Köpfen oder als mündliche Absprache und werden nicht getestet. Dies hat dann immer wieder Ausfälle zur Folge, die nicht schnell behoben werden können, da ein geeignetes Konzept fehlt. (awu)

Zur Person

Jan Rottschäffer und Michael Volk

sind beide Trainer und Network Consultants bei der Azlan GmbH Oberhaching.