NEC und Stratus bringen gemeinsam fehlertoleranten Quad-Core-Server

Stratus und NEC haben gemeinsam entwickelte fehlertolerante Server vorgestellt, die auf Intels Quad-Core-CPU Xeon 5300 "Clovertown" basieren.

Stratus Technology und NEC haben schon seit langem ähnliche X86-Server auf dem Markt. Diesmal jedoch handelt es sich um exakt baugleiche Systeme, den Stratus' "Ft-Server 6200" und NEC "Express 5800/320 FC". Beide Unternehmen unterstützen jedoch unterschiedliche Betriebssysteme sowie Management- und Monitoring-Software. Außerdem nutzen beide verschiedene Wege, um die Maschinen an den Käufer zu bringen.

Fehlertoleranzkonzepte unterscheiden sich von Hochverfügbarkeits-Cluster-Designs. In letzterem Fall sind zwei Maschinen mit jeweils einem eigenen Betriebssystem und zwei Sets von Applikationssoftware ausgestattet. Clustering- und Datenreplizierungs-Software sorgt hier dafür, dass im Falle von Systemstörungen die Arbeit mit laufenden Applikationen von einem Produktivsystem auf eine Backup-Maschine verlagert wird.

Bei einem fehlertoleranten System hingegen werden das Produktiv- und das Backup-System schon auf Speicherebene gekoppelt und nicht erst auf I/O-Level. Logisch handelt es sich um eine Maschine, die gespiegelte Kopien des exakt identischen Betriebssystems und der gleichen Softwareanwendungen nutzt und die die exakt gleichen Transaktionen verarbeitet. Der Benutzer bekommt im Fall von Störungen die Umschaltung nicht mit, weil im Gegensatz zu einem Hochverfügbarkeits-Cluster kein Systemübergang (ein so genanntes Failover) stattfindet. Neben Stratus ist es vor allem Marktführer Tandem Computers, der das Konzept fehlertoleranter Maschinen seit Jahren erfolgreich betreibt. Heute gehört Tandem zu Hewlett-Packard (HP).

Sowohl die Stratus- als auch die NEC-Maschine werden von den Japanern produziert. Stratus hat allerdings in hohem Maße Ingenieurentwicklungsarbeit beigesteuert. Hierzu zählt das Herzstück der Fehlertoleranztechnik, der "FT Crossbar", der zwischen Prozessoren und I/O-Subsystemen geschaltet ist und der diese Komponenten in zwei Servern kreuzweise verbindet. Auf diese Weise soll eine höchstmögliche Fehlertoleranz (no single point auf failure) erreicht werden.