Netzwerke ausfallsicher konzipieren

19.04.2004 von Christoph Lange
Für die Ausfallsicherheit der Netzwerkinfrastruktur spielt das Design eine entscheidende Rolle. Neben teuren Hochverfügbarkeitslösungen gibt es auch Konzepte, die bereits für wenig Geld einen guten Schutz bieten.

Zuverlässige Netzwerkverbindungen sind für Unternehmen aller Größenordnungen sehr wichtig. Sie stellen sicher, dass der Zugriff auf die Geschäftsdaten immer möglich ist - egal ob diese auf dem Server, dem Storage-System oder den Mitarbeiter-PCs liegen.

Spielt Geld nur eine untergeordnete Rolle, dann lässt sich eine hohe Verfügbarkeit dadurch erreichen, dass man alle Netzwerk-Komponenten mindestens doppelt ausgelegt. Dies bietet zudem den Vorteil, dass sich Wartungsarbeiten an Switches und Routern vornehmen lassen, ohne den Netzbetrieb zu unterbrechen.

Um sich darüber hinaus vor Katastrophen wie Bränden, Erdbeben oder Flugzeugabstürzen zu schützen, unterhalten die meisten Großunternehmen geografisch getrennte Ausweichrechenzentren. Für kleinere und mittelständische Unternehmen kommen solche IT-Infrastrukturen aber aufgrund der damit verbundenen hohen Kosten meist von vornherein nicht in Frage.

Wir beschäftigen uns deshalb in diesem Beitrag mit Technologien und Netzwerk-Designs, die bereits zu vergleichsweise niedrigen Kosten ein hohes Maß an Ausfallsicherheit bieten.

Voraussetzung: Management

Für den Aufbau von lokalen Netzen kommen heute aufgrund der stark gesunkenen Preise fast nur noch Switches zum Einsatz. Sie ermöglichen im Vergleich zu Hubs einen höheren Gesamtdurchsatz im Netzwerk, da sie die Daten vom Sender zum Empfänger über eine "geswitchte" Verbindung direkt übertragen. Hubs dagegen sind ein Shared-Medium-Device, das die zu übertragenden Pakete an alle angeschlossenen Devices weitergibt.

Um eine redundante Switching-Infrastruktur aufzubauen, reichen die inzwischen sehr preisgünstigen unmanaged Switches nicht aus. Sie bieten zwar Funktionen wie automatische Geschwindigkeitserkennung oder ein selbstständiges Umschalten zwischen MDI- und MDI-X-Modus für Verbindungen zu anderen Switches. Entsprechende Fast-Ethernet-Geräte mit 8 Ports sind schon für unter 40 Euro zu haben, 24-Port-Switches für etwa 100 Euro. Derartige Switches lassen sich aber nicht für redundante Netzwerkverbindungen konfigurieren.

Die notwendigen Funktionen liefern erst die teureren managed Switches. Für redundante Topologien unterstützen sie auf Layer 2 das Spanning Tree Protocol (STP, IEEE 802.1d) und dessen Nachfolger Rapid STP (RSTP, 802.1w) sowie Multiple Spanning Tree (802.1s) und das Link Aggregation Protocol (802.3ad). Diese Geräte bieten zudem meist SNMP- und RMON-Support, was die Verwaltung aus der Ferne ermöglicht. Für entsprechende managed Fast-Ethernet-Switches mit 24 Ports wandern allerdings ab 350 Euro aufwärts über den Ladentisch.

Grundregeln für das Netzdesign

Eine wichtige Grundregel des Netzdesigns besagt, dass es so einfach wie möglich gehalten werden sollte. Denn sobald ein Netz wächst, steigt zwangsläufig dessen Komplexität. Wurde bereits die Grundstruktur zu kompliziert angelegt, entwickelt sich das Ganze schnell zu einem unübersichtlichen und chaotischen Gebilde. Diese Regel erweist sich auch hinsichtlich der Verfügbarkeit als wichtig: Ein einfach strukturiertes, übersichtliches Netz lässt sich bei Problemen wesentlich schneller reparieren als ein undurchschaubares Netzwerkdickicht.

Generell gilt es zu beachten, dass auch eine redundante Auslegung aller wichtigen Hardware-Komponenten nur einen Teil der Ausfallursachen abdeckt. Häufig liegt der Grund für Netzwerkausfälle nicht in der Hardware begründet, sondern bei einer fehlerhaften Software. Auch in redundant ausgelegten Netzen kann durch Software-Fehler die gesamte Infrastruktur ausfallen, weil Switches oder Router vom gleichen Typ in der Regel dieselben Images verwenden. Um derartige Probleme so weit wie möglich zu vermeiden, sollten Administratoren nur die praxiserprobten Standardfunktionen der Switches einsetzen.

Einfache Konfiguration wichtig

Eine weitere häufige Ursache von Ausfällen stellen menschliche Bedienfehler dar. Zum Beispiel kann es schnell passieren, dass ein Administrator den Switch irrtümlich falsch konfiguriert. Insbesondere kleinere Unternehmen sollten deshalb nicht nur auf einen günstigen Preis schauen, sondern bei der Produktauswahl auch Fragen wie einfache Bedienung, Zuverlässigkeit, Support und Sicherheit berücksichtigen.

Als besonders wichtig erweist sich oft der Bedienungsaspekt, denn in kleineren Firmen betreut meist nicht ein spezieller IT-Administrator das Netzwerk. Diese Aufgabe übernehmen in vielen Fällen ein oder zwei "normale" Mitarbeiter, die sich das entweder zutrauen oder diese Aufgabe zugewiesen bekommen haben. Die Implementierung einer ausfallsicheren Netzwerkinfrastruktur erfordert allerdings schon ein gewisses Know-how, das man im Zweifelsfall von einem IT-Dienstleister beziehen sollte.

Ersatz vorhalten

Redundante Hardware allein schützt nur gegen einen Teil der Ausfallursachen. Gerade für kleinere Unternehmen stellt sich deshalb die Frage, ob der für eine doppelt ausgelegte LAN-Infrastruktur je nach Implementierung um 75 bis 100 Prozent höhere Kostenaufwand überhaupt vertretbar ist. In vielen Fällen wird die Antwort Nein lauten. Das heißt aber nicht, dass die LAN-Infrastruktur völlig ohne Redundanzmechanismen auskommen muss: Es existieren auch mehrere Verfahren, mit denen sich die Ausfallsicherheit durch einige wenige redundante Komponenten erhöhen lässt.

Für eine möglichst hohe Verfügbarkeit des Netzwerks spielt auch eine wichtige Rolle, wie schnell sich ein aufgetretenes Problem erkennen und beseitigen lässt. Auch hierfür gibt es verschiedene Konzepte, die eine rasche Wiederverfügbarkeit garantieren sollen. So können sich Administratoren gegen den Ausfall von Switches einfach und relativ kostengünstig wappnen, indem sie bei der Anschaffung der Geräte gleich einen Switch mehr ordern, der ins Ersatzteillager kommt. Diese Investition zahlt sich bei einem Switch-Ausfall schnell aus: Das Ersatzgerät wird angeschlossen, und schon nach kurzer Zeit sind alle Netzwerkverbindungen wieder verfügbar.

Müsste erst ein neuer Switch geordert werden, würden im günstigsten Fall mehrere Stunden, wenn nicht gar Tage vergehen. Und falls der eingesetzte Switch-Typ nicht mehr lieferbar wäre, bestünde zudem die Gefahr von Inkompatibilitäten, etwa aufgrund unterschiedlicher Implementierungen des Spanning-Tree- oder des Link-Aggregation-Protokolls.

Ausfallsichere Switch-Verbindungen

In redundanten Netzen mit doppelt ausgelegter Switch-Hardware sind die Server in der Regel über zwei Netzwerkkarten an die beiden Switches angebunden. Kleinere Unternehmen, die sich nur ein einfaches Switch-Design leisten wollen, können ihre Server aber ebenfalls über zwei NICs mit dem Switch verbinden. Wenn sie zudem auf dem Switch zwei unterschiedliche Port-Module für die Server-Links wählen, ist auch auf dieser Ebene für Redundanz gesorgt.

Dieses Design ist allerdings nicht bei allen Herstellern möglich. Denn die beiden parallelen Verbindungen müssen mithilfe von Redundanzmechanismen verwaltet werden. Auf dem Switch kommt hierfür entweder das Link-Aggregation-Protokoll oder eine herstellerspezifische Software für Link-Failover zum Einsatz.

Ausfallsichere Server-Verbindungen

Auf der Serverseite sind ebenfalls spezielle Netzwerkkartentreiber erforderlich, die das Zusammenspiel der beiden NICs regeln, die ein- und denselben logischen Pfad bedienen. Üblicherweise statten Administratoren die Server hierfür mit zwei identischen Netzwerkkarten aus.

Um Kosten zu sparen, besteht bei einigen Herstellern auch die Möglichkeit, das NIC-Duo aus verschiedenen Adaptern und sogar mit unterschiedlichen Geschwindigkeiten zu bilden. Da inzwischen fast alle neuen Server standardmäßig mit Onboard-Ethernet-Controllern ausgerüstet sind, können Unternehmen das Geld für einen Adapter einsparen, indem sie die Onboard-Schnittstelle für das NIC-Team nutzen.

Die meisten Hersteller bieten eine Teaming-Software an, die sich für Load Balancing oder Active-/Passive-Failover konfigurieren lässt. Beide Adapter lassen sich dabei über dieselbe IP-Adresse erreichen. Fällt eine Karte aus, läuft der gesamte Verkehr automatisch über die andere NIC.

Link Aggregation vs. Spanning Tree

Bei der redundanten Anbindung eines Servers an ein oder zwei Switches spielt neben der Link Aggregation das Spanning Tree Protocol STP beziehungsweise dessen Nachfolger Rapid STP eine wichtige Rolle.

Ist ein Server mit zwei separaten Switches verbunden, müssen auch die beiden Switches miteinander gekoppelt sein, damit eine zusammenhängende Broadcast-Domäne dieses Subnetzes erhalten bleibt. Fällt diese Verbindung aus, entstehen Routing-Probleme, weil das IP-Subnetz aus Sicht des Routers in zwei Teil-Subnetze zerfällt.

Bei einem derartigen Netzdesign ist deshalb die Querverbindung zwischen den beiden Switches als Single Point of Failure anzusehen. Sie sollte doppelt ausgelegt werden, wobei die Umschaltung auf den Stand-by-Link entweder über das (Rapid) Spanning Tree Protocol oder über Link Aggregation erfolgen kann.

Schnellere Umschaltzeiten bietet die Link Aggregation. Dieses Protokoll unterstützt zudem eine Lastverteilung auf die beiden Links und belastet die Switch-CPU deutlich weniger als der Spanning-Tree-Algorithmus. Beim Ausfall der aktiven Server-NIC und dem dadurch ausgelösten Failover auf den zweiten Adapter dauert es nur etwa fünf Sekunden, bis über den zuvor passiven Ersatzpfad alle Netzfunktionen wieder zur Verfügung stehen und alle Systeme erreichbar sind. Mit STP liegt die Umschaltzeit deutlich höher.

STP und RSTP

Auch das Spanning Tree Protocol sorgt für eine Redundanz der Netzwerkverbindungen zwischen mehreren kaskadierten oder miteinander vermaschten Switches. Zum einen stellt das Protokoll sicher, dass keine Switching-Loops entstehen. Zum anderen schaltet STP automatisch auf einen Ersatzpfad um, wenn ein Switch-Port nicht mehr verfügbar ist.

Dies dauert allerdings nach dem Standard 50 Sekunden, in größeren Netzen noch länger. Um schnellere Umschaltzeiten zu erreichen, wurde deshalb Rapid Spanning Tree entwickelt. Dieses Protokoll schaltet bei einem Port-Ausfall innerhalb von ein bis drei Sekunden um. Fällt der Root-Switch aus, benötigt RSTP eine Recovery-Zeit von etwa 10 bis 30 Sekunden.

Mit dem Multiple Spanning Tree Protocol (IEEE 802.1s) steht mittlerweile eine weitere STP-Variante zur Verfügung. Sie ermöglicht es, in Netzwerken mit mehreren VLANs für jedes virtuelle Netz einen eigenen Übertragungspfad festzulegen. Bisher mussten Netzadministratoren für jedes VLAN eine eigene STP-Instanz einrichten, was einen hohen Protokoll-Overhead auf den Switches zur Folge hatte.

Bei allen Redundanzprotokollen ist zu beachten, dass die Implementierungen je nach Hersteller voneinander abweichen können. Um diesbezüglich auf der sicheren Seite zu sein, sollten Unternehmen ihre Switches möglichst vom selben Hersteller kaufen.

Redundanz auf Layer 3

Für kleine Firmennetze ist eine Redundanz auf Layer 3 sicherlich kein Thema. In größeren Unternehmen dagegen, die eine eigene IP-Routing-Infrastruktur betreiben, hat sich ein Layer-3-Netzdesign inzwischen als Standardlösung etabliert. Für das Routing im Backbone kommen dabei meist Layer-2/3-Switches zum Einsatz, die auf beiden OSI-Ebenen arbeiten können. Sie verfügen über spezialisierte ASICs, die ein Routing in Leitungsgeschwindigkeit ermöglichen.

Für eine Redundanz der Wegewahl sorgen dabei die verschiedenen Routing-Protokolle. Damit der so genannte Default-Router nicht zum Single-Point-of-Failure wird, ist ein spezielles Protokoll nötig, das Virtual Router Redundancy Protocol (VRRP). Die meisten Endgeräte nutzen für die subnetzübergreifende IP-Kommunikation den Default-Router. Fällt dieser aus, sind Systeme in den anderen IP-Subnetzen nicht mehr erreichbar.

Deshalb wurde VRRP entwickelt, das einen virtuellen Router bereitstellt. Hinter dessen IP-Adresse verbergen sich zwei oder mehr echte Router. Die beteiligten Systeme handeln untereinander aus, wer der Master ist. Fällt dieser aus, übernimmt automatisch ein anderes Gerät die Rolle des Default-Routers und dessen IP-Adresse. Die Umschaltzeiten liegen in der Regel bei drei Sekunden. Sobald der ausgefallene Router wieder online ist, wird er automatisch erneut zum Master.

Redundanz auf Dienste-Ebene

De Kombination von VRRP mit dem jeweils eingesetzten Routing-Protokoll, zum Beispiel OSPF, gewährleistet auch auf Layer 3 eine Redundanz.

Die in einem Netzwerk implementierten Redundanz-Mechanismen auf Layer 2 und Layer 3 können noch so leistungsfähig sein - sie nützen nichts, wenn die Server ausfallen, die für wichtige Dienste wie DHCP, DNS, Webzugang oder E-Mail verantwortlich sind. Gleiches gilt für die gespeicherten Daten, die durch regelmäßige Backups gesichert werden müssen.

Ein umfassendes Netzdesign für eine ausfallsichere IT-Infrastruktur muss deshalb auch diese Bereiche berücksichtigen, um eine möglichst hohe Verfügbarkeit wichtiger Dienste und Anwendungen sicherzustellen.

Ausfallsicherheit im WLAN

Immer mehr Unternehmen setzen für die Netzanbindung von Notebooks drahtlose Netze ein. Auch diesen Bereich gilt es bei einem Hochverfügbarkeits-Design zu berücksichtigen. Normale WLAN Access Points bieten keine Redundanzfunktionen. Damit beim Ausfall eines APs trotzdem noch ein Netzzugang möglich ist, müssen an jedem Funkstandort zwei APs installiert werden, die mit derselben SSID konfiguriert sind. Dadurch können sich im Ernstfall alle WLAN-Clients automatisch am anderen AP anmelden und so ihre Netzwerkverbindungen aufrecht erhalten.

Der Parallelbetrieb zweier APs bietet zudem die Möglichkeit, im Normalbetrieb die doppelte WLAN-Bandbreite zur Verfügung zu stellen, indem man unterschiedliche Übertragungskanäle konfiguriert. Die Funk-Clients verteilen sich dann auf beide APs. Dabei ist jedoch zu beachten, dass in diesem Fall nur noch zwei weitere Kanäle für alle Nachbarzellen zur Verfügung stehen. Ein überschneidungsfreier Funkbetrieb von mehreren Zellen wäre bei einem derartigen Design nahezu ausgeschlossen.

In größeren Funknetzen ist es deshalb besser, jedes AP-Paar für die gleichen Kanalnummern zu konfigurieren. Damit steht zwar nur dieselbe Bandbreite zur Verfügung wie mit einem Access Point. Es ist jedoch nach wie vor möglich, überlappende Funkzellen auf unterschiedlichen überschneidungsfreien Kanälen zu betreiben.

Fazit

Eine Netzwerkinfrastruktur mit durchgängig doppelt ausgelegten Komponenten können sich kleinere Unternehmen häufig nicht leisten.

Es gibt aber auch eine Reihe kostengünstigerer Lösungen, mit denen sich bereits ein hohes Maß an Ausfallsicherheit erreichen lässt. Geräte der untersten Preisklasse allerdings bieten derartige Funktionen in der Regel nicht. Aber bereits eine Preisstufe darüber erhält der Kunde bei vielen Herstellern managed Switches, die sich für ein Hochverfügbarkeits-Design eignen.

Dabei darf man aber nicht außer Acht lassen, dass Netzwerkausfälle zu einem großen Teil gar nicht auf Hardware-Fehler, sondern auf Probleme mit der Software oder auf Bedienfehler zurückzuführen sind. Ein Grundsatz beim Netzdesign sollte daher immer lauten, die Lösung so einfach wie möglich zu gestalten, um potenzielle Fehlerquellen von vornherein zu minimieren. (jlu)