Grundlagen, Definitionen und Lösungen zur Hochverfügbarkeit

IT ganz ohne Ausfälle

Für Anwender ist es der Normalfall: "Ihre IT" steht immer und ohne Unterbrechung zur Verfügung. Für die IT-Mannschaft bedeutet dieser Anspruch zunächst einmal viel Arbeit - hochverfügbare Systeme können da helfen.
Wichtig für die Verfügbarkeit eines Systems: Die Uptime wird immer ab dem letzten Systemstart berechnet.
Wichtig für die Verfügbarkeit eines Systems: Die Uptime wird immer ab dem letzten Systemstart berechnet.

Noch in den neunziger Jahren des letzten Jahrtausends war es durchaus nichts Ungewöhnliches für Anwender, wenn ihr Computer beziehungsweise der Dienst, den sie auf einem Computer für ihre Arbeit nutzten, einfach mal für eine Zeit nicht verfügbar war: "Der Computer geht mal wieder nicht!" lautete damals eine gängige Phrase. In den heutigen Zeiten von "Always On" und der allgewärtigen Vernetzung ist es fast undenkbar, dass ein Dienst oder gar ein kompletter Server nicht zur Verfügung stehen. So sind dann auch Systeme, die permanent und selbst im Falle eines Hard- oder Softwarefehlers ohne Unterbrechung zur Verfügung stehen, aus der Ecke der teuren Exotensysteme in den Bereich der normalen professionellen Server gewandert - sogenannte Hochverfügbarkeit ist überall anzutreffen.

Doch nicht alle Hersteller nehmen es mit den Definitionen so genau. Häufig wird dann ein System einfach mal als "hochverfügbar" bezeichnet, eine USV macht den Server zum "absolut unterbrechungsfreien System" und auch Begriffe wie "Disaster Recovery" werden in diesem Zusammenhang immer wieder genannt. Dieser Artikel soll ein wenig Klarheit in das Begriffs-Wirrwarr bringen und einige Grundlagen der Hochverfügbarkeit von Server-Systemen erläutern.

Was bedeutet der Begriff Hochverfügbarkeit?

Wer sich im Web umschaut, findet eine ganze Reihe von Definitionen für den Begriff der Hochverfügbarkeit. Dabei beziehen sich die meisten Autoren auf eine grundlegende Definition des IEEE (Institut of Electrical and Electronics Engineers): Darin wird Hochverfügbarkeit als die Verfügbarkeit der IT-Ressourcen für den Fall bezeichnet, dass Systemkomponenten ausfallen. Oder etwas direkter ausgedrückt: Es bezeichnet ein System, dass trotz dem Ausfall einer seiner Komponenten den IT-Betrieb gewährleisten kann - und zwar mit einer ziemlich hohen Wahrscheinlichkeit. Laut Wikipedia-Definition stellt die Verfügbarkeit "die Wahrscheinlichkeit oder das Maß dar, dass das System bestimmte Anforderungen zu oder innerhalb eines bestimmten Zeitrahmens erfüllt". Bei IT-Systemen wird diese Verfügbarkeit in Prozent angegeben. Gemessen wird dabei die Zeit, in der ein System läuft und alle Funktionen bereitstellt. Sie wird als "Uptime" bezeichnet und immer ab dem letzten Systemstart berechnet.

Welche Zeit ist ein System verfügbar? Diese Übersicht zeigt, welche Ausfallszeiten bei einem 24/7-Betrieb zu verzeichnen sind (mit Werten von Wikipedia).
Welche Zeit ist ein System verfügbar? Diese Übersicht zeigt, welche Ausfallszeiten bei einem 24/7-Betrieb zu verzeichnen sind (mit Werten von Wikipedia).

Unternehmen wie Stratus, die sich auf hochverfügbare Systeme spezialisiert haben, gehen davon aus, dass Standard-Server ("von der Stange") auf Basis von Windows- oder Linux-Systemen heute bereits eine Verfügbarkeit von bis zu 99,9 Prozent erreichen können. Das entspricht dann einer Ausfallszeit von etwa 8,7 Stunden pro Jahr bei einem System das an 365 Tagen im Jahr in Betrieb ist. Das klingt zunächst einmal nicht nach besonders viel, aber für Anwendungen, deren Einsatz für ein Unternehmen entscheidend sind, ist auch eine solche Zeit nicht tolerierbar und bedeutet in der Praxis echte Verluste. So werden in der Regel auch erst Systeme, die eine Verfügbarkeit von 99,99 Prozent und mehr zu bieten haben, als hochverfügbare Systeme bezeichnet. Allerdings verzeichnen im praktischen Einsatz auch Systeme mit sehr vielen "Neunern" hinter dem Komma durchaus Ausfallzeiten. 100 Prozent werden wohl Theorie bleiben, obwohl sogenannte "Always-On-" oder fehlertolerante Lösungen heute durchaus mit Werten von 99,999 oder gar 99,9999 beworben und verkauft werden. Solche Systeme weisen dann eine Ausfallzeit von fünf bis hin zu nur einer Minute pro Jahr aus.