Cray X1: Der Griff nach den Peta-Flops

10.12.2002 von ALBERT  LAUCHNER
Das Urgestein der Superrechner ist wieder da. Mit der neuen X1 will Cray die verlorene Technologie-Führerschaft zurückgewinnen und bis 2010 in Anwendungen 1 PFlop/s (Peta-Flop) Rechenleistung bieten.

Nach der Übernahme durch SGI 1996 war es still um die Supercomputer-Traditionsfirma Cray geworden. Die letzten Jahre hielt sich Cray mehr durch Service und Wartung bestehender Systeme als durch Neuverkäufe über Wasser. Doch inzwischen hat das Unternehmen sich wieder weit gehend von SGI gelöst und nach fünfjähriger Entwicklung jetzt die X1-Produktlinie mit neuem Prozessor eingeführt. Damit will Cray mittelfristig die an Japans Earth Simulator verlorene Krone des weltschnellsten Rechners in die USA zurückholen. Nach einigen Evolutionsstufen der X1 möchte Cray mit der BlackWidow+ noch in dieser Dekade in den Peta-Flop-Bereich (10 E15) vorstoßen.

Der Kern der X1-Rechner ist der neue X1-Prozessor mit neu designtem Befehlssatz, der als Basis den MIPS Instruction Set nutzt, aber um zahlreiche Vektor-Befehle erweitert ist. Der Prozessor wird von IBM produziert und besteht aus vier Einzel-CPUs mit je zwei Vektor-Pipelines. Diese packt IBM zusammen mit 2 MByte Cache auf ein Multichipmodul (MCM). Die einzeln hergestellten Dies bringt IBM darin auf einen mechanischen Träger und verdrahtet sie untereinander. Der Aufwand hierfür ist immens: Rund 34 000 Verbindungen sind innerhalb des MCM nötig, um die CPU- und Cache-Dies zu verschalten.

Speicher und Kommunikation

Da jede der acht Pipelines innerhalb des MCM zwei 64-Bit-Floatingpoint-Operationen pro Takt bearbeitet, bietet der X1-Prozessor in Summe eine theoretische Rechenleistung von 12,8 GFlops/s bei lediglich 800 MHz Takt. Entscheidend für die tatsächliche Rechenleistung eines Multiprozessorsystems sind jedoch die Speicheranbindung und der Datenaustausch zwischen den CPUs. Immerhin will Cray im Maximalausbau 4096 der X1-CPUs zu einem System verschalten.

Der modulinterne Datenaustausch zwischen Cache und CPUs erfolgt mit bis zu 77 GByte/s. Hier hält etwa ein Pentium 4 mit 3GHz noch gut mit, der 25 GByte/s aus dem L2-Cache laden kann. Extern kommuniziert der Prozessor allerdings mit 38,4 GByte/s mit dem lokalen Speicher, rund dem 13fachen eines Pentium 4. Die Verbindung der Prozessoren untereinander erfolgt mit 25,6 GByte/s. Diese Datentransferraten erfordern einen immensen Schaltungsaufwand. Allein für die Kommunikation muss jeder Prozessor 3800 Signale nach außen führen.

Jeweils vier X1-Prozessoren sitzen auf einer Platine, dem so genannten Node. Über eine Crossbar sprechen die Prozessoren 16 unabhängige Memory Controller an. Jeder dieser Controller verwaltet bis zu 1 GByte Rambus-Speicher.

Zudem stellt jeder der 16 Memory Controller auf einem Node zwei Router-Verbindungen zum Speicher auf anderen Nodes bereit. Bei einer 16-Node-Konfiguration ergibt sich damit eine Interconnect-Bandbreite von 400 GByte/s. Schließlich bietet jeder Node noch vier unabhängige PCI-X-Kanäle zur I/O-Kommunikation etwa mit Massenspeichern.

Update: Dampfmaschine als Kühlung

Neues gibt es auch bei der Kühlung der Cray. Während bei älteren Crays noch 60 Liter Kühlflüssigkeit durch den Rechner plätscherten, übernimmt bei der X1 ein Flüssig-Gas-System mit wenigen Litern Fluorkohlenwasserstoff den Wärmetransport. Das Fluor-Inert wird in einem geschlossenen Kreislauf flüssig auf den Prozessor gespritzt, verdampft dort und wird abgesaugt.

Dieser Phasenübergang führt deutlich mehr Wärme ab als eine reine Flüssigkühlung und lässt sich damit kompakter aufbauen. Bis zu 60 kW kann dieses Kühlsystem aus einem Rechnerschrank so abführen.

.

Neu: Rechenleistung und Skalierung

Obwohl die Taktfrequenz der CPUs nur 800 MHz beträgt, bietet bereits ein X1-Prozessor eine Rechenleistung von 12,8 GFlops und damit rund das Vierfache einer Itanium2-, Power-4- oder Alpha-CPU. Da in einem Cray-Gehäuse bis zu 16 Nodes mit je vier Prozessoren Platz finden, beträgt die Rechenleistung eines solchen Schranks maximal 820 GFlops. Dieser Wert ist rund 13 Mal höher als beim NEC SX-6, der in Japans Earth Simulator zum Einsatz kommt.

Laut Cray zahlt sich die hohe Rechenleistung der einzelnen CPU vor allem bei Algorithmen aus, die schlecht mit der Anzahl der CPUs skalieren. Echte Benchmark-Daten will Cray zwar noch nicht veröffentlichen. Die beiden folgenden Diagramme zeigen jedoch schon vorläufige Ergebnisse eines Ozean-Strömungsmodells auf einer "kleinen" X1 und die dabei typischerweise auftretenden Szenarien.

Neu: Benchmarks

Das Ozean-Strömungsmodell gliedert sich in zwei Teile. In einem 3D-Simulationsabschnitt kann das Problem gut in unabhängige Datenpakete zerlegt werden, mit denen umfangreiche Berechnungen erfolgen. Bei dieser Teilaufgabe schneiden auch Supercomputer gut ab, die das Problem mit sehr vielen, aber leistungsschwachen Prozessoren berechnen. Im Beispiel bringt hier eine X1 mit 16 Prozessoren die Leistung einer IBM 690 mit 64 CPUs oder SGIs O3K mit über 128 CPUs.

Ganz anders verhält es sich in dem anschließend nötigen 2D-Simulationsschritt des Ozean-Strömungsmodells. Die Daten sind dabei stark miteinander vernetzt, zudem ist jeweils nur wenig Rechenaufwand nötig. Größtenteils wird nur über alle Daten aufsummiert. Hierbei zeigen sich die Vorteile weniger, aber leistungsstarker CPUs und der schnellen Speicheranbindung.

Bereits mit vier Prozessoren ist die X1 schneller als die Vergleichssysteme mit einer beliebigen Anzahl von CPUs. Bei den massiv parallelen Systemen tritt mit zunehmender CPU-Anzahl sogar ein Absinken der Gesamtleistung ein. Zwar flacht auch bei der Cray X1 die Leistungskurve ab 16 CPUs ab. Dennoch dürfte sie mit 32 oder 64 CPUs noch schneller werden und eine Gesamtleistung bieten, die weit über der von massiv parallelen Systemen liegt.

Verletzter amerikanischer Stolz

Derzeit liefert Cray den ersten seiner neuen X1-Rechner offiziell an das Spanische Institut für Meteorologie aus. Die Preise der X1 beginnen bei rund 2,5 Millionen Euro, der spanische Auftrag hat ein Volumen von 8,4 Millionen Euro. Bis 2005 soll die X1 in der endgültigen Ausbaustufe in Madrid laufen. Die spanische Cray ist jedoch nur offiziell das erste X1-System. Fünf Vorserienmodelle arbeiten bereits im Dienst des amerikanischen Militärs etwa an der lokalen Wetterberechnung für Kriegsschauplätze.

Großes Interesse zeigen neben dem Militär auch andere amerikanische Forschungseinrichtungen an dem nationalen Produkt. Auf Grund von Straf- und Schutzzöllen sind Hochleistungssysteme aus Japan, etwa von Fujitsu oder NEC, in den USA relativ teuer. Zudem möchten die Amerikaner ungern im Ausland, etwa auf Japans Earth Simulator, rechnen lassen. Dessen Nutzungsbedingungen fordern beispielsweise ein Arbeiten vor Ort mit einem entsprechenden "Technologie-Austausch".

Daher untersucht nun das Oak Ridge National Lab des US-Energieministeriums, ob es auf Basis der Cray X1 einen Supercomputer aufbaut, der dem Earth Simulator Paroli bieten kann. Denn dass Japans Rechner in Real-World-Anwendungen rund 20 Mal schneller ist als der schnellste US-Rechner, hat die USA ziemlich überrascht und landauf, landab die Alarmglocken läuten lassen. (ala)