Die schnellsten Supercomputer der Welt

Top500 7/2004: Supercomputing-Rangliste und HPC-Trends

15.07.2004 von UWE HARMS 
Cluster und Intel-basierte Rechner gewinnen die Oberhand in der Rangliste der schnellsten Supercomputer der Welt. Doch IBMs Blue Gene/L stiehlt mit über 130.000 Prozessoren und 367 TFlop/s allen die Show.

Die 23. Ausgabe der Rangliste der schnellsten Supercomputer der Welt präsentierte Professor Hans Meuer im Juni anlässlich der ISC2004 (International Supercomputer Conference) in Heidelberg. Und wie schon seit drei Jahren hält der japanische Earth Simulator mit 36 TFlop/s den Spitzenplatz der Top500-Liste.

Aber schon auf Platz zwei gibt es eine Üerraschung: Als Neueinsteiger landete dort ein Itanium-System mit 4096 Prozessoren. Der Rechner am Lawrence Livermore Lab kann dabei "nur" mit 20 TFlop/s aufwarten. Der bislang Zweitplatzierte, Los Alamos mit dem ASCI Q-Rechner, liegt mit knapp 14 TFlop/s jetzt auf Platz drei.

Das Sensationssystem vom letzten November, der Terascale Cluster auf Basis von 2200 Apple G5, ist nicht mehr in der Liste vertreten. Der Eigenbau-Cluster aus Desktop-PCs erreichte auf Anhieb 10,28 TFlop/s. Derzeit werden die G5-PCs jedoch durch wesentlich Platz und Energie sparendere Xserve-Modelle ausgetauscht, der Cluster ist so lange offline.

Königsmörder mit 367 TFlop/s von IBM

Einen weiten Sprung nach vorne gelang den Blue-Gene/L- Prototypen von IBM. Sie erreichten Platz vier (DD1) mit 11,7 TFlop/s und acht (DD2) mit 8,7 TFlop/s.

Der DD1-Prototyp mit der 500-MHz-CPU PowerPC440 und 256 MByte Speicher pro Knoten passt mit seinen 2048 Compute-Nodes in vier Racks. Dabei bietet er eine theoretische Spitzenleistung von 16 TFlop/s. Das zweite System, DD2, taktet mit 700 MHz und enthält 512 MByte Speicher pro Knoten. Für seine 1024 Knoten genügen lediglich zwei Racks, seine theoretische Spitzengeschwindigkeit beträgt 11,5 TFlop/s.

DD2 erreicht somit rund 75 Prozent der Leistung von DD1, kommt aber mit der halben Fläche aus. Durch den niedrigen Energieverbrauch und die dadurch mögliche hohe Packungsdichte bietet DD2 eine bislang unerreichte Rechenleistung pro Volumen.

Der voll ausgebaute Blue Gene/L soll im nächsten Frühjahr den Earth Simulator vom Thron stoßen. Geplant sind dafür 65.536 Prozessoren (bzw. 131.072 CPUs, da jeder Prozessor zwei unabhängige Recheneinheiten enthält), die eine Peak-Leistung von 367 TFlop/s bieten sollen.

55 Prozent Leistungssteigerung pro Halbjahr

Die gesamte Leistung der Top500-Liste wuchs gegenüber dem November 2003 um 55 Prozent von 528 auf 813 TFlop/s. Inzwischen muss der Letzte der Liste, die Nummer 500, immerhin noch 624 GFlop/s gegenüber 403 GFlop/s im November 2003 schaffen.

Dieser hohe Wert sorgte dafür, dass fast die Hälfte der Systeme der Novemberliste jetzt nicht mehr vertreten ist. Alle Rechner bis Platz 242 haben eine Linpack-Leistung von mehr als 1 TFlop/s. So ist zu erwarten, dass die nächste Novemberliste nur noch TFlop/s-Rechner enthält.

Als großer Renner erwiesen sich Cluster, 291 derartige Computer sind in der aktuellen Top500 vertreten. Diese Systeme haben Knoten für die Autoren der Rangliste bis zu 8 CPUs. Cluster-artig aufgebaute Systeme, deren Knoten SMP-Rechner mit 16 und mehr Prozessoren sind, werden in der Kategorie "Constellations" geführt. Davon sind 86 in der aktuellen Rangliste vertreten. Die verbleibenden 123 Systeme zählt das Top500-Team zu den massiv-parallelen Systemen.

Intel als klarer Sieger

Bei den eingesetzten Prozessoren führt Intel klar mit 226 Computern auf der IA-32-Basis und mit 61 Itanium-Systemen. Allein in den Rechnern der Top500 sind 127.060 Pentium/Xeon-CPUs und fast 22.000 Itanium-Prozessoren verbaut. Auf den weiteren Plätzen folgen IBM mit 75 Power/PowerPC- Systemen (76.602 Prozessoren), HP mit 57 PA-RISC-Maschinen (21.000 Prozessoren) und AMD mit 34 Athlon-/Opteron-Supercomputern (22.000 Prozessoren).

Betrachtet man die Hersteller der Supercomputer, so führt IBM ganz klar mit 224 Rechnern, die mit rund 50 Prozent zur Gesamtleistung der Top500 beitragen. Abgeschlagen folgt Hewlett-Packard mit 140 Rechnern und 19 Prozent der Leistung. Die Nummer 3 vertritt SGI mit 21 Computern und 3 Prozent der Leistung. Die restlichen Systeme verteilen sich auf 28 Hersteller, oft nur mit einem System vertreten.

Deutschland als Verlierer

Im Ländervergleich liegen die USA mit 255 Rechnern und 454 TFlop/s (56 Prozent der Top500-Gesamtleistung) vorn. Amerikanische Firmen stellen zudem 456 Rechner, 91 Prozent, aller Rechner der Top500 her. Gegenüber der letzten November-Rangliste hat sich Großbritannien mit 36 Rechnern und 60 TFlop/s (7 Prozent) auf Platz zwei geschoben, noch vor Japan. Deutschland fällt mit seinen verbleibenden 34 Systemen von Platz zwei auf Platz vier zurück. Auch bei der aggregierten Leistung landet Deutschland nach den USA, Japan und England auf Platz vier.

Auch neue, schnelle Rechner wie der IBM p690-Cluster am Forschungszentrum Jülich mit 9 TFlop/s Spitzen- und 5,6 TFlop/s Linpack-Leistung haben den Rückfall Deutschlands nicht verhindert. Er liegt als schnellster deutscher Rechner auf Platz 21 der Top500.

Auch die Rechner auf Platz zwei bis vier der lokalen Rangliste lieferte IBM. Weltweit auf Platz 34, Nummer zwei in Deutschland, arbeitet seit diesem Jahr bei einer großen Bank ein Blade-Center mit 3,06-GHz-Xeons. Dessen 1064 Prozessoren bieten 3,8 TFlop/s Linpack und 6,5 TFlop/s Spitzenleistung. Auf den folgenden Plätzen folgen zwei alte Bekannte, die IBM-Systeme bei der Max-Planck-Gesellschaft in Garching (2,2 TFlop/s) und beim Deutschen Wetterdienst (2,1 TFlop/s).

Der ALiCEnext-Cluster der Universität Wuppertal aus 1024 Opterons mit 1,8 GHz ist frisch installiert und leistet auf Platz 74 (Platz fünf in Deutschland) 2 TFlop/s. Es ist mit Gigabit-Ethernet ausgestattet und nutzt zur Kommunikation und für das Management die ParaStation-Software.

In der Summe liegt IBM auch in Deutschland mit 16 Rechnern und 24 TFlop/s, entsprechend 57 Prozent, klar in Front. Hewlett-Packard als Zweiter kann nur mit zehn Rechnern und 7 TFlop/s Summenleistung aufwarten.

Trends und News von der ISC2004

Vor der ISC2004-Tagung hatte der Veranstalter ein eintägiges Tutorial mit dem Titel: "Leistung in HPC: Evaluierung, Benchmarking und Vorhersage" organisiert, das 70 Teilnehmer besuchten. Zur Tagung selbst kamen fast 450 Interessenten. Zentrale Themen der diesjährigen Veranstaltung waren:

Parallel zur Tagung hatten die Veranstalter eine Ausstellung mit etwa 50 Ständen organisiert, die sich zum Teil mehrere Unternehmen teilten. Sie deckte Rechnerhersteller (Hardware), Software/Middleware/Compiler, Interconnects, Lösungen und HPC-Zentren ab.

Steve Wallach, früher Chefentwickler von Convex und jetzt bei Chiaro Networks, sprach das Problem der Software-Entwicklung für Petaflop/s-Computer an. "Wir können schnelle Hardware bauen, programmieren aber weiterhin wie vor 40 Jahren in Fortran (Formula Translator)." Er kritisierte vor allem, dass die Wertung der Top500 Liste auf einem Linpack-Fortran-Programm basiert, das ausgedruckt auf einer Seite Platz findet. Seiner Meinung nach erfordern Architekturen mit zehntausenden Knoten und den daraus resultierenden Verbindungen mit hoher Latenz neue Programmierumgebungen und komplett neue Programmiersprachen.

Rechner mit 100 TFlop/s im Vergleich

In seinem Vortrag über zukünftige Rechnerarchitekturen listete Jack Dongarra von der University of Tennessee die Spitzenleistung kommender Prozessoren und Rechner auf. So soll Intels Montecito 8 bis 12, IBMs Power5 etwa 8, der Power5+ 10 und der Power6 24 GFlop/s Spitzenleistung bieten. Bei Cray schätzt er für die X1e 19,2 und für die Cray X2 25,6 GFlop/s pro Prozessor.

Auch für Dongarra ist die Programmierung für Systeme mit hunderttausenden Prozessoren das herausragendste Problem der Zukunft. Allerdings ist dieses Gebiet nicht sehr lukrativ für kommerzielle Anbieter: Software für HPC wird traditionell nicht in die Kalkulation von Supercomputern eingerechnet wird. Sie ist bislang ein kostenloses Nebenprodukt der universitären Forschung.

Hardware-seitig ist für Dongarra die Speicherbandbreite eine Schwäche der aktuellen Cluster-Architekturen. Relativ zur Rechenleistung bieten das separate Design der Supercomputerprozessoren eine zehnmal höhere Speicheranbindung als PC-Prozessoren im Cluster-Einsatz.

Hauptspeicherbandbreite pro Flop

System

Earth Simulator

Cray X1

ASCI Q

MCR

VT Big Mac

CPU

NEC SX-6

Cray X1

HP EV68

Dual Xeon

Dual IBM PPC)

Knotenarchitektur

Vector

Vector

Alpha

Pentium

PowerPC

Taktrate

500 MHz

800 MHz

1,25 GHz

2,4 GHz

2 GHz

GFlop/s (Peak)

8

12,8

2,5

4,8

8

Relative Speicherbandbreite (Bytes/Flop)

4

2,6

0,8

0,44

0,5

In der Praxis unterscheiden sich Systeme trotz gleicher Linpack-Leistung oft erheblich, da der einfache Benchmark im Gegensatz zu aktuellen HPC-Anwendungen sehr stark im lokalen Speicher eines Knotens arbeitet. Bei der US-Supercomputerkonferenz hatten Jack Dongarra und Kollegen deshalb den HPC Challenge Benchmark vorgestellt. Er ermittelt neben dem Linpack weitere Kenngrößen wie etwa die Speicherbandbreite oder die Leistung beim Schreiben auf zufällig verteilte Speicherplätze. Dongarra präsentierte auf der ISC2004 erste Ergebnisse des neuen Benchmarks, die sich stets aktuell unter HPC Challenge finden.

Cray: Petaflops bis 2010

Cray ist wieder zurück, meinte zumindest Jim Rottsolk, Chairman und CEO von Cray, bei der ISC2004-Pressekonferenz. Mit neuen, altbekannten HPC-Mitarbeitern will Cray das Geschäft in Europa wieder ankurbeln und an alte Traditionen anknüpfen. Daneben hat das Unternehmen jetzt auch eine klare Produktpalette.

Sie beginnt bei den Vektorrechnern Cray X1 mit Unicos als Betriebssystem und einer Leistung von einem bis 50+ TFlop/s mit vier bis 4069 Prozessoren. Die bisherigen X1-Knoten wird Cray noch dieses Jahr durch leistungsfähigere X1E-Knoten ersetzen.

Das nächste Produkt basiert auf dem Projekt Red Storm mit Sandia Lab. Ein ähnliches System ist auch an das Pittsburgh Supercomputer Center verkauft worden. Der Rechner mit 40 TFlop/s Spitzenleistung soll noch in diesem Jahr in Betrieb gehen und in die Top500-Liste vom November einziehen. Red Storm nutzt Linux das Betriebssystem und basiert auf AMD Opteron-Prozessoren. Mit 256 bis 10.000+ Prozessoren erreicht das System ebenfalls eine Leistung zwischen einem und 50 TFlop/s.

Für das HPC-Einstiegssegment ab 100.000 US-Dollar hat Cray im Frühjahr 2004 die Firma OctigaBay aufgekauft. Deren Produkt auf Opteron-Basis wird jetzt als Cray XD1 vermarktet und deckt den Leistungsbereich von 48 GFlop/s bis 1,2 TFlop/s ab.

Cray stellte auch seine Roadmap für zukünftige Produkte vor. 2006 soll der Nachfolger der Cray X1 namens Black Widow erscheinen. Mit seinem Single-Chip-Vektor-Mikroprozessor in Vier-Wege-SMP-Knoten will Cray damit bis 2006 in Regionen jenseits von 100 TFlop/s vorstoßen.

Besonders interessant ist Crays Projekt mit Codenamen "Rainier". Es soll ein heterogenes Skalar-Vektor-System werden, das je nach Anforderung alle Komponenten des bisherigen Cray-Portfolios enthalten kann. Als Knoten arbeiten darin AMD Opteron-Systeme wie im Red-Storm-Nachfolger "Adams", Black-Widow-Systeme (Vektor) und auch FPGAs (Field Programmable Gate Arrays) wie in der XD1-Serie.

Cray wurde auch für die zweite Stufe des DARPA-Progamms (Defense Advanced Research Projects Agency) "High Productivity Computing Systems" zusammen mit IBM und Sun ausgewählt. Dazu erhält Cray eine Förderung von 50 Millionen US-Dollar. Gemeinsam mit dem Oak Ridge National Lab (ORNL) entwickelt Cray ein 100-TFlop/s-System für 2006 und einen 250-TFlop/s-Rechner für 2007. Noch höher hinaus will das Forschungsprojekt Cascade. Daraus soll bis zum Jahr 2010 ein Petaflop-Rechner für reale Anwendungen entstehen.

IBM: Die kommende Nummer eins - Blue Gene/L

Im Dezember 1999 startete IBM das Fünfjahresprojekt Blue Gene/L, über das William Pulleyblank, Leiter des IBM Deep Computing Institute, schon auf der ISC2000 berichtete. Auf der diesjährigen Tagung stand dieser Rechner im Mittelpunkt der Diskussionen, da alle Experten ihn im nächsten Frühjahr als Nummer eins der Top500 erwarten. Die beiden Prototypen in der aktuellen Top500-Liste unterstreichen den Anspruch, dieses Ziel zu erreichen.

Blue Gene/L soll im Vollausbau mit 65.536 Knoten (mehr als 130.000 CPUs) arbeiten. Obwohl er mit 360 TFlop/s achtmal schneller als der bisherige Top500-Leader sein soll, wird er zehnmal kleiner (64 Racks) sein und nur sieben Prozent der Energie des Earth Simulator verheizen.

Jeder Knoten besteht aus zwei PowerPC440 und basiert auf dem IBM Power4-Prozessor. Neben dem Rechenknoten enthält Blue Gene/L nur noch Speicher- und Verbindungs-Chips. Statt hoher Taktraten der Chips fügt IBM für mehr Rechenleistung einfach weitere Knoten mit geringer Leistungsaufnahme hinzu.

Nachdem IBM 1999 noch als Zielgruppe die Biotechnologie identifizierte, ist der Rechner jetzt universell einsetzbar, da als Betriebssystem Linux und als Kommunikation MPI (Message Passing Interface) verwendet werden.

Ende dieses Sommers will IBM die volle Produktion aufnehmen und den Rechner bauen. Das fertige System soll im ersten Quartal 2005 beim Lawrence Livermore National Lab in Produktion gehen.

Im Februar 2004 vereinbarten IBM und ASTRON (Netherlands Foundation for Research in Astronomy) die Verarbeitung großer Datenmengen aus der Astronomie mit Blue Gene/L. Auch Argonne National Labs ist an einem Kauf von Blue Gene/L interessiert. Dort sollen die neuronalen Vorgänge bei einem epileptischen Anfall simuliert werden. Je mehr Neuronen das Modell abbildet, desto eher glaubt man die komplexen Vorgänge im Gehirn zu verstehen.

Pulleyblank betonte, dass Blue Gene/L in jeder Hinsicht skalierbar sei und auf Kundenwünsche zugeschnitten werden kann. Als Speicher sind 256 MByte bis 1 GByte pro Knoten möglich. Zudem kann IBM bei einer hohen Anforderung an die I/O-Leistung zusätzliche Kommunikationsknoten einfügen. Normalerweise kümmert sich ein Kommunikationsknoten um 64 Compute-Knoten. Bei ASTRON muss er nur acht Compute-Knoten bedienen.

AMD und Intel

In diesem Jahr war AMD der Hauptsponsor der ISC2004. AMDs Cheftechnologe Fred Weber wies auf die Verfügbarkeit des Dual Core AMD64 hin. Das Dual-Port-Interface existiert schon seit Beginn im AMD64-Layout. Seit 14. Juni soll nun auch das Design des ersten AMD-Prozessors mit zwei Cores auf dem Die fertiggestellt sein. Dual-Core-CPUs sollen ab Mitte 2005 für den x86-Server-Markt und kurz darauf für Highend-Client-PCs verfügbar sein.

Durch die hohe Speicherbandbreite und das schnelle HyperTransport-Interface soll die CPU trotz doppelter Rechenleistung immer noch sehr gut ausbalanciert sein. Zudem können Partner durch den offenen HyperTransport-Standard eigene FPGAs einfach mit niedriger Latency an die CPU anschließen. Dadurch sind sehr schnelle und optimierte Kommunikationsnetzwerke wie etwa im Red Storm von Cray möglich.

Intel ist natürlich auf den Zuwachs der Rechner auf Basis seiner Prozessoren stolz. Waren es im November 2003 noch189, arbeiten jetzt 287 Systeme der Top500 mit Intel-Prozessoren. Einen weiteren Sprung erwartet sich Intel durch die jetzt erhältliche 64-Bit Erweiterung der Xeon-Prozessoren.

Neben der Hardware entwickelt Intel auch systemnahe Software und Compiler. Diese Aktivitäten für HPC sind in der Parallel Distributed Solution Division konzentriert. Hier entwickelt das Unternehmen Compiler (aufgekauft von Kuck&Associates), Messwerkzeuge (aufgekauft von Pallas) und optimierte mathematische Programmbibliotheken.

Fazit

Das vergangene Jahr brachte im HPC keine revolutionären Entwicklungen. Dennoch zeigten sich einige Trends auf der diesjährigen Supercomputing Conference in Heidelberg ganz klar ab:

Die Tagungs-CD kann unter http://www.isc2004.org für 50 Euro plus MwSt. erworben werden. Nächstes Jahr findet die Supercomputing Conference vom 21. bis 24. Juni wie üblich in Heidelberg statt. (ala)