Massiv: Cray XT3 Red Storm

26.10.2004 von UWE HARMS 
Die erste Cray XT3 als Nachfolger der bewährten massiv-parallelen Rechner T3D ist in Produktion. Der Red Storm getaufte Rechner besteht aus 11.646 AMD Opterons und greift auf 10 TByte Hauptspeicher zu.

Die Weichen für Amerikas neuen Supercomputer "Red Storm" hat das US Department of Energy bereits im Juni 2002 gestellt. Das zugehörige Sandia Lab wählte Cray als Partner, um einen massiv-parallelen Supercomputer zu entwickeln. Er soll den Intel-basierenden ASCI Red Supercomputer aus dem Jahr 1997 ersetzen. Der mehrjährige Weltrekordhalter belegt auch heute noch Platz 61 in der Top500-Liste der schnellsten Supercomputer. Der Red Storm bestand aus 9632 herkömmlichen Intel Pentium-II-Xeon-Prozessoren mit 333 MHz und einem schnellen, proprietären Netzwerk zur Kommunikation der Rechnerknoten.

Für den Nachfolger Red Storm bewilligte das Ministerium 93 Millionen US-Dollar. Auch hier sollten Standard-Prozessoren zum Einsatz kommen. Man entschied sich für AMDs Opterons, die Cray mit einem schnellen 3D-Torusnetzwerk verbindet. Seit September 2004 installiert Cray den Rechner, der in 140 Kabinetten 11.646 AMD Opteron-Prozessoren mit 10 TByte verteilten Speicher enthält. Dazu kommen noch 240 TByte Plattenspeicher

Auf diesem, nach Sandias Meinung ausgewogenen und hochskalierbaren System will das Lab nicht nur eine hohe Leistung in den wenig praxisrelevanten Linpack-Benchmarks erzielen. Auch die reale Applikationsleistung soll den theoretischen Spitzenwerten recht nahe kommen.

Crays Dreigestirn

Seit dem 25. Oktober 2004 finden sich Systeme nach Bauart des Red Storm als Modell XT3 in Crays Produktportfolio. Es ergänzt die Cray XD1, die als Einstiegs-Supercomputer zu sehen ist. Die XT3 zielt auf das obere Segment, was schon der Listen-Basispreis von mehr als einer Million US-Dollar verdeutlicht. Der Dritte im Bunde ist der Vektorrechner Cray X1, der wohl in Kürze durch das leistungsfähigere System Cray X1E abgelöst wird.

Nach Sandia Lab hat inzwischen auch das Oak Ridge National Lab eine Cray XT3 mit einer Leistung von 20 TFlop/s geordert. Für Anwendungen, die auf dem massiv-parallelen System nicht gut skalieren, hat das ebenfalls zum Energieministerium gehörende Lab auch gleich noch eine Cray X1E mit gleicher Leistung bestellt. Diese soll 2005 installiert werden. Der weitere Fahrplan sieht eine Erweiterung auf 100 TFlop/s im Jahr 2006 und auf 250 TFlop/s im Jahr 2007 vor. Dieser Rechner soll dann echte 100 TFlop/s in realen Anwendungen erreichen.

Daneben hat das Pittsburgh Supercomputing Center eine Cray XT3 mit 10 TFlop/s zum Preis von 10 Millionen US-Dollar bestellt. Das System soll über die Jahre hin erweitert und fächerübergreifend für Forschungszwecke genutzt werden.

Cray XT3

Die XT3 ist als Nachfolger der bewährten massiv-parallelen Rechner Cray T3D und Cray T3E zu sehen, die ebenfalls auf Standardprozessoren - Alphas von Compaq/Digital - und einem schnellen Interconnect beruhten. Sie haben sich an vielen deutschen Forschungseinrichtungen und Hochschulsupercomputerzentren bewährt.

Die neue XT3 basiert auf dem jeweils aktuellen AMD Opteron-Prozessor. So plant Cray, die CPUs der aktuellen Systeme nächstes Jahr gegen Dual-Core-Modelle zu tauschen und so die Rechenleistung annähernd zu verdoppeln. Die Rechenknoten sind Platz sparend im Viererpack auf einem Blade untergebracht. Die aktuellen Opteron-Prozessoren bieten dabei eine Rechenleistung von 4,8 GFlop/s und können mit bis zu 8 GByte Hauptspeicher ausgestattet sein. Neben den reinen Rechenknoten enthält die XT3 spezielle Service-Prozessorelemente. Diese können als Ein/Ausgabe-, Login-, Netzwerk- oder Systemknoten konfiguriert werden.

Als Betriebssystem hat Cray das eigene UNICOS/lc vorgesehen, das für komplexe Anwendungen entwickelt wurde und bis zu 30.000 Prozessoren skalieren soll. Es besteht aus zwei wesentlichen Komponenten, einem Mikrokernel für die Rechenknoten und einem kompletten Betriebssystem für die Service-Knoten. Auf den Service-Knoten läuft ein vollständiger Linux-Kernel von SuSE. Das globale Dateisystem basiert auf dem offenen Cluster-Filesystem Lustre und soll bis auf 100 GByte/s Bandbreite skalieren. So dumpt Red Storm seine 10 TByte Hauptspeicher in weniger als zwei Minuten auf die Platte.

Schlüsselstelle Interconnect

Das wesentliche Unterscheidungsmerkmal von Cray gegenüber der Konkurrenz ist das eigene Verbindungsnetzwerk mit hoher Bandbreite und niedriger Latenzzeit. Jeder einzelne Opteron-Prozessor ist direkt an das TX3 Verbindungsnetzwerk über den Seastar getauften Routing- und Kommunikationschip angebunden. Der Seastar-Router tauscht die Daten mit Hochgeschwindigkeit mit sechs benachbarten Knoten in einer 3D-Torus-Topologie aus. Die bidirektionale Spitzenbandbreite eines Links beträgt 7,6 GByte/s, die Dauerübertragungsrate bis zu 4 GByte/s.

Das Cray RAS (Reliability, Availability, Serviceability) Management System (CRMS) ist unabhängig von der TX3 und besitzt eigene Kontrollprozessoren und ein eigenes Kommunikationsnetzwerk, um die Hard- und Software-Komponenten zu visualisieren und zu managen. Das CRMS soll Probleme schon im Vorfeld erkennen und kritische Komponenten ausblenden. So sorgt es dafür, dass das restliche System ungestört weiter arbeiten kann. Cray will damit eine mittlere Zeit zwischen Fehlern von 400 Stunden (MTBF) bei 1000 Prozessoren sicherstellen. Daneben bietet RAS auch eine Wiederaufsetzmöglichkeit bei unerwarteten Hard- oder Software-Fehlern.

Bill Camp, Sandia Director of Computers, Computation, Information and Mathematics erwartet sich daher einiges von Red Storm:" Wir können durch das extrem ausgewogene System deutlich mehr echte Arbeit auf dem Rechner leisten, und das zu geringeren Gesamtkosten". Besonders erfreut ist er darüber, dass ihm im nächsten Jahr ein einfacher Prozessortausch mit dem Dual-Core Opteron annähernd die doppelte Rechenleistung bieten wird. (ala)