Auswahlkriterien für Hochverfügbarkeits-Server

12.07.2007 von Dr. Klaus Manhart
Kaum ein Unternehmen – unabhängig von der Branche – kann sich heute noch den Ausfall von Servern leisten. Dies gilt insbesondere für kritische Prozesse in Produktion und IT. Umso wichtiger ist es, bei der Auswahl dafür vorgesehener Server auf Hochverfügbarkeit zu achten. Die wichtigsten Kriterien stellen wir Ihnen vor.

Der Mail-Server antwortet stundenlang nicht, die Auftragsverwaltung gibt keinen Mucks von sich, Drucker spucken keine Lieferscheine aus. Für moderne Unternehmen sind solche Ausfälle Katastrophen, die im schlimmsten Fall die Existenz der ganzen Firma aufs Spiel setzen können.

Zumindest bei kritischen Unternehmensprozessen sind heute 24 Stunden Verfügbarkeit an jedem Tag der Woche unabdingbar. Im Idealfall dürfen Netz oder Netzzugänge nie ausfallen, Server nie stillstehen und Daten nie unerreichbar sein. In der Praxis ist perfekte Verfügbarkeit zwar nie gewährleistet, doch für viele Firmen ist es wichtig, diesem Ideal möglichst nahe zu kommen.

Einen Überblick über die finanziellen Folgen eines Ausfalls der IT liefert Ihnen der Artikel IT-Systeme: Ausfallsicherheit im Kostenvergleich. Ausführliche Informationen zum Thema Verfügbarkeit lesen Sie in dem Beitrag Grundlagen der Hochverfügbarkeit.

Verfügbarkeiten

Verfügbarkeiten werden als Verhältnis von Uptime – der Zeit, die der Server verfügbar ist – zur Gesamtzeit, also Uptime plus Downtime gemessen: Uptime / (Uptime + Downtime). Standardkomponenten erreichen heute eine Verfügbarkeit von 99,9 Prozent. Das klingt beeindruckend, reicht aber in der Praxis oft nicht. Denn immerhin lassen 99,9 Prozent einen Zugriffsverlust von 8,7 Stunden pro Jahr zu – sind es acht Stunden in der Geschäftszeit, kann dies zu lang sein.

Eine der nächst höheren Stufen der Verfügbarkeit ist eine Ausfallsicherheit von 99,99 Prozent. Dies entspricht einem Systemausfall von etwa 50 Minuten pro Jahr. Auch das ist für manche Einsatzgebiete zu wenig. Als magischer Wert gelten „Five Nine“: 99,999 Prozent Verfügbarkeit – also weniger als fünf Minuten Ausfall pro Jahr.

Ausfallsicherheit gibt es nicht umsonst, sie kostet Geld. Je höher die Sicherheit, umso mehr finanzielle Mittel müssen in die Systeme gesteckt werden. Davon sind nicht alle Unternehmen in gleicher Weise betroffen. Je kritischer aber ein Systemausfall für eine Firma ist, umso eher wird in eine höhere Ausfallsicherheit investiert.

Auf der anderen Seite gibt es viele kleinere und mittelständische Unternehmen mit geringeren Anforderungen, etwa im Bereich Dateiablage, Drucken oder E-Mail. Sie kommen mit einfacheren Mitteln aus und brauchen weniger zu investieren.

Speichersicherheit – ECC

Bei der Verfügbarkeit spielen mehrere Komponenten eine Rolle, Basis ist aber die permanente Availability der entsprechenden Server. Wichtige Auswahlkriterien bei der Server-Hardware sind vor allem die Performance, die Skalierbarkeit, die Flexibilität und der Platzbedarf.

Vom Server-Design her genügt bei kleineren Unternehmen normalerweise schon ein Tower-System den Anforderungen. Um bei solchen Systemen Ausfälle durch defekten Hauptspeicher zu vermeiden, sollte der Server rudimentäre Sicherheitsmechanismen enthalten. Dazu gehört die Ausstattung mit ECC-Speicher (Error-Correcting Code). ECC-Module haben im Gegensatz zu normalen RAM-Bausteinen zusätzlich Funktionen, die den Datenfluss überprüfen und gegebenenfalls verändern können. Sie sind damit imstande, Fehler zu korrigieren.

ECC behebt Ein-Bit-Fehler und erkennt Zwei-Bit-Defekte. Dank der Ein-Bit-Fehlerkorrektur ignoriert der Server einen Ein-Bit-Fehler des Speicherchips auf einem DIMM-Speichermodul und läuft problemlos weiter. Laut einer IBM-Laborstudie erreicht ein mit ECC ausgestatteter Hauptspeicher eine Zuverlässigkeitsrate von 91 Prozent.

Chipkill

Höhere Speicherausfallsicherheit bietet das von IBM eingeführte Chipkill-Verfahren, auch als Advanced ECC bezeichnet. Es kann bis zu vier Bitfehler korrigieren und acht Bitfehler erkennen. Bei Fehlerhäufung in einem Speicherchip kann es diesen sogar ausblenden, ohne das System herunterzufahren.

Ein Vorteil der Chipkill-Technologie: Es sind keine speziellen Speichermodule notwendig, handelsübliche ECC-DIMMs genügen. Zusätzlich arbeitet das Korrekturverfahren unabhängig vom Betriebssystem und hängt somit nur vom Chipsatz und vom BIOS ab. Das Chipkill-Verfahren erreicht nach der IBM-Studie eine Ausfallsicherheit von 99,94 Prozent.

Sollen Speicherintegrität und -ausfallsicherheit weiter gesteigert werden, bieten entsprechende Chipsätze und Betriebssysteme zusätzliche Technologien wie Hot Swap, Hot Add, Hot Spare Memory, Memory Mirroring oder ProteXion.

Ausführliche Informationen zu den genannten Technologien liefert Ihnen der Artikel Sicherer Speicher für Server und Workstations.

Festplatten – welcher RAID-Level?

Die wichtigste Methode zum Schutz vor Server-Ausfällen ist, zentrale Komponenten redundant vorzuhalten. Fällt eine davon aus, kann die zweite weiterverwendet werden. Die für den Serverbetrieb entscheidenden Komponenten wie Festplatten, Netzwerkkarten und Netzteile sollten deshalb durch Redundanzen und eine Hot-Plug-Fähigkeit gegen Ausfälle gesichert sein. Im Ernstfall kann das defekte Teil schnell ausgetauscht werden, ohne dass hierfür der Rechner heruntergefahren werden muss.

Bei internen Festplatten ist der RAID-Level entscheidend für die Verfügbarkeit. Hier werden Daten über Plattenspiegelung redundant auf physisch unterschiedlichen Platten gespeichert. Fällt eine Festplatte aus, so hat dies keinen Einfluss auf die Verfügbarkeit des Gesamtsystems: Der Festplattenspiegel fängt diesen Fehler auf. Ausführliche Informationen zu den unterschiedlichen RAID-Level bietet Ihnen der Beitrag RAID im Überblick.

RAID-1 ist der einfachste Weg, hohe Verfügbarkeit sicherzustellen. Bei dem als Mirroring bezeichneten Verfahren erfolgen Schreibzugriffe parallel auf zwei Laufwerke. Die Daten sind damit zu 100 Prozent redundant vorhanden und bei Ausfall eines Systems weiterhin verfügbar. Das defekte Laufwerk lässt sich im laufenden Betrieb austauschen, sofern der Controller dies unterstützt. Die Daten werden dann automatisch wieder auf das neue Laufwerk aufgespielt.

Bei einer Erweiterung des RAID-Systems ist allerdings jeweils die doppelte Laufwerkskapazität erforderlich. Die Schreibzugriffe erfolgen selbst im Idealfall nur gleich schnell wie bei Einzellaufwerken. Damit eignet sich Mirroring vor allem für Systeme, auf denen wichtige Daten zum hauptsächlichen Lesezugriff vorgehalten werden.

Gute Wahl: RAID-5

Zwar bietet Mirroring perfekte Redundanz, verursacht jedoch gleichzeitig einen hohen Overhead und entsprechend hohe Kosten. Um diesen Nachteil zu beheben, arbeiten die RAID-Level 2 bis 7 mit Fehlerkorrektur. Dabei setzt RAID auf eines der ältesten Verfahren zur Fehlerkorrektur, die Paritätsprüfung.

Im professionellen Umfeld ist besonders RAID-Level 5 verbreitet. RAID-5 gilt als gute Wahl, wenn es darauf ankommt, Daten auf mehr als zwei Platten redundant zu speichern. Es sichert den Verbund durch die Generierung von Paritätsinformationen. Diese stellen auch bei Ausfall einer Platte die Verfügbarkeit aller Daten sicher.

Dabei ist der RAID-Controller für die Berechnung der Redundanzdaten zuständig. Zusätzlich wird ein Index dieser Redundanzdaten erzeugt und ebenfalls über alle Festplatten verteilt gespeichert. Fällt ein Laufwerk im Betrieb aus, erzeugt das System eine Warnung, arbeitet aber dennoch weiter. Erst wenn eine weitere Festplatte streikt, gehen alle Daten verloren. Ein einzelnes defektes Laufwerk kann einfach im Betrieb ausgetauscht werden.

Da RAID-5 die Nutzdaten gleichmäßig und blockweise über die Laufwerke verteilt, sinkt die Wahrscheinlichkeit, dass gleichzeitig zwei Schreibzugriffe auf dieselbe Platte erfolgen, sodass sich Schreibzugriffe weitgehend parallelisieren lassen. Auch beim Lesen von Daten bietet RAID-5 durch die Verteilung der Daten über alle Laufwerke eine gute Performance. Dies zahlt sich insbesondere beim Zugriff auf viele kleine Datenblöcke aus. Daher kommt RAID-5 speziell bei Datenbank- oder Transaktions-Servern gern zum Einsatz.

Eine noch höhere Ausfallsicherheit bietet RAID-6. Während RAID-5 den Ausfall von maximal einer Festplatte verkraftet, gewährleistet RAID-6 den Ausfall von zwei Platten. RAID-6 berechnet hierfür zwei Fehlerkorrekturwerte und verteilt sie so, dass sie auf zwei unterschiedlichen Disks liegen. Durch diesen ausgewogenen Kompromiss wird gute Performance bei gleichzeitig hoher Ausfallsicherheit erzielt.

Datensicherung und Prozessoren

Neben möglichst ausfallsicheren, internen Speichern ist natürlich auch eine regelmäßige Datensicherung Voraussetzung für Hochverfügbarkeit. Hochverfügbare Server müssen hierfür entsprechende Kapazitäten bereitstellen. Viele Dual-Prozessor-Systeme haben Platz für bis zu acht Hot-Plug-Festplatten und ein internes Bandlaufwerk.

Sollte der Wunsch-Server nicht ausreichend Platz für Platten und Tapes bieten oder externe Speicherlösungen bevorzugt werden, müssen entsprechende Laufwerkscontroller für eine externe Datensicherung sorgen. Diese kann entweder über ein SAN und das recht anspruchsvolle Fibre-Channel-Protokoll erfolgen – wie es normalerweise große Unternehmen mit ihren riesigen Datenmengen bevorzugen. Mittelständische Unternehmen setzen kostengünstiger auf die iSCSI-Technologie, bei der sich Server in IP-basierte Netzwerke integrieren lassen.

Bei der Prozessorausstattung sind mehrere Prozessoren normalerweise Pflicht. Ob ein System ein, zwei oder mehrere Prozessoren enthält hat für die Verfügbarkeit zwar keine direkte Auswirkung. Doch in Servern höherer Leistungsklassen gehört dies inzwischen zum Standard.

Es gibt nur einige wenige Ausnahmen, bei denen Sie sich mit 1-Prozessor-Maschinen zufriedengeben sollten. Das sind beispielsweise einfache Print-Server oder Server für File-Dienste. Für die meisten anderen Anwendungen haben viele Unternehmen heute Dual-Prozessorsysteme mit Dual-Core-Technologie im Einsatz.

Server für Cluster

In größeren Unternehmen wird Hochverfügbarkeit bei kritischen Anwendungen wie Datenbank, Webserver oder E-Mail über Cluster-Lösungen realisiert. In High Availability Clustern koppelt man beispielsweise einen kritischen Datenbank-Server mit einem zweiten Rechner. Tritt auf dem Datenbank-Server ein Fehler auf, werden die auf diesem Rechner laufenden Dienste auf den anderen Knoten migriert. Das Zweitsystem übernimmt im Fehlerfall die Aufgaben des Primärsystems.

Bei Hochverfügbarkeits-Clustern unterscheidet man zwischen Aktiv/Passiv- und Aktiv/Aktiv-Clustern. Sind beide Knoten aktiv (Aktiv/Aktiv), ist eine Lastverteilung zwischen den Knoten möglich. Bei Ausfall des einen Knotens übernimmt der andere dessen Arbeit ganz. Bei einem Aktiv/Passiv-Cluster arbeitet dagegen immer nur ein Server – das Primärsystem. Der zweite, wartende Server ist das Stand-by-System und muss bei Ausfall des Primärsystems aktiviert werden.

Cluster werden vor allem über Rack- und Blade-Server realisiert. Ein Rack-Server ist kompakt, er misst meist nur eine Höheneinheit (HE). Eine HE entspricht einer Höhe von 4,45 Zentimeter. Ein handelsüblicher 19-Zoll-Standard-Rackschrank hat eine Höhe von 42 HE. Er bietet damit Platz für 42 Rack-Server mit 84 CPUs bei Dual-Prozessorsystemen. Zum Vergleich: Herkömmliche Server haben eine Höhe von drei HE, womit ein Rack maximal 14 Server aufnehmen kann.

Blade-Server – eine Alternative

Werden mehr als acht bis zehn Rack-Server benötigt, können Blades eine Alternative sein. Die Komplett-Server auf einer einzelnen Platine, die Server-Blades, sind mit ein bis zu vier meist fest eingelöteten Prozessoren bestückt – samt Speicher, eigenen Festplatten und Netzwerkanschluss. Die schmalen Boards werden senkrecht in die Einschübe speziell dafür konzipierter Gehäuse gesteckt. Wird mehr Leistung benötigt, kommt einfach ein neuer Server hinzu – das funktioniert bei allen Herstellern im laufenden Betrieb.

Verbindungssache: Beim Blade-Server Primergy BX630 von Fujitsu Siemens lassen sich vier 2-Socket-Server zu einem 8-Socket-Server verbinden. (Quelle: Fujitsu Siemens Computers)

Blades oder andere Systeme mit vier Prozessoren bilden das oberste Ende des Leistungsspektrums bei der Zuverlässigkeit. Solche Vier-Prozessor-Maschinen werden vor allem bei unternehmenskritischen SAP- und Oracle-Anwendungen eingesetzt, bei umfangreichen Migrationen oder Virtualisierung.

Blades kommen insbesondere in größeren Rechenzentren zum Einsatz. Nicht zuletzt deshalb, weil Blade-Server höhere Packungsdichten erreichen als die üblichen horizontalen Einschübe für 19-Zoll-Racks. Ein einziges Rack kann hundert oder sogar mehr Server-Blades aufnehmen. Auch beim Preis-Leistungs-Vergleich punkten Blades vor Rack-Servern, denn Blades nutzen Betriebsmittel wie Stromversorgung, Kühlung und Netzwerk-Switches gemeinsam. Und schließlich ist die Verkabelung bei Blades auch weniger aufwendig als bei normalen Servern.

IDC prognostiziert für diese Server-Gattung bis 2008 ein durchschnittliches jährliches Wachstum von über 50 Prozent. Laut den Marktforschern wird dann jeder vierte Server ein Blade-System sein. Auch in mittelständischen Unternehmen kann diese Alternative zu den klassischen Rack- oder Tower-Servern handfeste Vorteile bieten. So sinkt durch die Server-Konsolidierung der Platzbedarf drastisch.

Blade-Server gibt es unter anderem von Fujitsu Siemens, IBM, HP und Sun. Der Preis für ein komplettes Blade-Server-System hängt stark von Anzahl und Art der verwendeten Server-, Netzwerk- und Managementmodule ab. In der Regel liegen die Einstiegspreise bei mehreren Zehntausend Euro.

Ausführliche Informationen zu Blade-Servern liefert Ihnen der Artikel Blades revolutionieren die herkömmliche Server-Technologie.

Baseboard Management Controller

Gute Administrierbarkeit ist ein Auswahlkriterium für Hochverfügbarkeits-Server, dessen Bedeutung für die tägliche Praxis nicht unterschätzt werden sollte.

Grundsätzlich sollten die Rechner mit einem Baseboard Management Controller (BMC) ausgestattet sein. Der BMC ermöglicht den Fernzugriff auf den Server über das Netzwerk oder eine serielle Verbindung. Administratoren können damit den Server auch von einem entfernten Standort überwachen, verwalten und bei Bedarf sogar herunterfahren und neu starten.

Der BMC übernimmt die proaktive Überwachung und gibt eine Warnung aus, sobald das System benutzerdefinierte Schwellenwerte für eine Reihe kritischer Funktionen erreicht. Die Verwaltung des BMC erfolgt unabhängig vom Betriebssystem und vom Status des Servers. Der Administrator kann also auch dann noch über das Netzwerk auf den Server zugreifen, wenn der Server ausgefallen ist.

Wichtig dabei ist: Der BMC sollte kompatibel zu IPMI sein. IPMI (Intelligent Platform Management Interface) ist ein branchenübergreifender Standard, mit dem die Verwaltung von Servern unterschiedlicher Hersteller verbessert wird. Standardisiert wurden Verwaltungs-Hardware, Überwachung, Warnfunktionen und Kommunikation. Das kommt vor allem größeren Unternehmen zugute, weil sie ihre Server über eine gemeinsame Oberfläche verwalten können. Administratoren sind zudem produktiver, weil sie mit weniger Tools auskommen.

Fazit

Wer seine Server hochverfügbar halten will tut gut daran, bereits bei der Anschaffung auf bestimmte Kriterien zu achten. Wichtige Auswahlkriterien bei der Server-Hardware sind vor allem die Performance, die Skalierbarkeit, die Flexibilität und der Platzbedarf. Hohe Ausfallsicherheit bieten ECC-Speicher und auf Ebene der Massenspeicher RAID-1 und RAID-5.

Auswahlkriterien für Hochverfügbarkeits-Server

Kleine Unternehmen

Mittlere Unternehmen

Große Unternehmen

Haupteinsatzgebiete

Datei- und Druckdienste, E-Mail, Internet

Datenbankanwendungen, Internet, Groupware, Messaging, Abteilungsprogramme, Netzwerkinfrastruktur, Datei und Druckserver

Geschäftskritische, hochleistungsfähige Datenbankanwendungen, Server-Konsolidierung

Bevorzugtes Design

Tower-Gehäuse

Rack-Systeme

Blades für Server-Farmen

Verfügbarkeit

ECC-Speicher, Hot-Plug-fähige Netzteile, SCSI-Festplatten

Hochverfügbarkeitsfunktionen im Prozessor, Chipsatz und Speicher

Symmetrisches Multiprocessing, Cluster-Fähigkeit

Speicher

Unterstützung von RAID-1 oder RAID-5

Externe SCSI-Massenspeichersysteme, optionale Fibre-Channel-HBA und SAN-Unterstützung

Fibre-Channel-HBA und SAN-Unterstützung

Ausbaufähigkeit

Single- oder Dual-Core-Prozessoren

Doppelkernprozessoren, Rack-Systeme, Blade-Server bei großer Server-Zahl

Rack-Systeme, Blade-Server, Server-Farmen

Prozessoren

Bis zu zwei 64-Bit-fähige Prozessoren ab 2,8 GHz

Bis zu zwei 64-Bit-fähige Single- oder Dual-Core-Prozessoren mit DDR-2-Speicher und PCI-Express-Schnittstelle

Für rechenintensive Anwendungen oder Server-Konsolidierung zusätzlich Systeme mit vier 64-Bit-fähigen Single- oder Dual-Core-Prozessoren bis zu acht MB L3-Cache

Administration

Bordmittel zur Systemverwaltung

Zusätzlich Remote-Administrationsmöglichkeiten

Zusätzlich Baseboard-Management Controller, Einbindung in spezialisierte Management-Umgebung

Zu achten ist auch auf entsprechende Datensicherungsmöglichkeiten. Bei hochkritischen Anwendungen sollten Cluster-Lösungen mit mehreren Servern eingesetzt werden. Das kostet alles Geld, doch Sicherheit ist nicht umsonst zu haben. (mje)