Supercomputing-Rangliste und HPC-Trends

TOP500 6/2008: RoadRunner-Supercomputer durchbricht Petaflop-Schranke

24.06.2008 von Dr. Norbert Eicker

Erstmals hat mit dem IBM RoadRunner ein Rechner die Petaflop-Grenze in der offiziellen TOP500-Supercomputer-Rangliste überschritten. Mit seinem Hybridansatz aus Opteron- und weiterentwickelten Cell-CPUs geht RoadRunner dabei einen ganz neuen Weg.

Im Rahmen der Internationalen Supercomputing Konferenz wurde Mitte Juni die neueste Ausgabe der Liste der 500 schnellsten Computer der Welt veröffentlicht. Die Konferenz fand in diesem Jahr vorerst zum letzten Mal in Dresden statt. Nächstes Jahr wird sie nach Hamburg umziehen.

Für die aktuelle Liste hatten die Macher – Jack Dongarra, Hans Meuer, Horst Simon und Erich Strohmaier – ein absolutes Highlight zu präsentieren: die neue Nummer 1, das RoadRunner-System des Los Alamos National Laboratory. Dieses System hat erstmals die Petaflop-Schranke durchbrochen. Das bedeutet, dass die Maschine in der Lage ist, 10^15 Fließkommaoperationen pro Sekunde durchzuführen, um das für die TOP500-Liste zugrunde liegende Problem zu berechnen. Der sogenannte Linpack-Benchmark beschäftigt sich dabei mit dem Lösen eines riesigen linearen Gleichungssystems.

Dabei geht RoadRunner einen derzeit noch ungewöhnlichen Weg, um diese Rechenleistung zu erzeugen. RoadRunner ist ein hybrides System, bei dem in einem klassischen, mit InfiniBand verbundenen Opteron-Cluster weitere Recheneinheiten mit PowerXCell-8i-Prozessoren eingefügt sind. Diese beschleunigen die Anwendungen signifikant. Der PowerXCell-8i-Prozessor ist eine von IBM betriebene Weiterentwicklung des aus der Playstation 3 bekannten Cell Prozessors. IBM hat ihm zum einen die korrekte Rundung bei Fließkommaoperationen spendiert – eine unabdingbare Voraussetzung für jeden Einsatz im Bereich des wissenschaftlichen Hochleistungsrechnens. Zum anderen beherrscht der PowerXCell-8i jetzt Fließkommaoperationen mit doppelter Genauigkeit in Hardware. Bisherige Cell-CPUs waren nur auf die einfache Floatingpoint-Rechengenauigkeit ausgelegt, was sie für viele wissenschaftliche Anwendungen unbrauchbar machte.

Neue Nummer 1: Mit 1,4 PFlop/s Peak setzt sich der RoadRunner des Los Alamos National Laboratory deutlich an die Spitze der TOP500. (Quelle: www.lanl.gov)

Ein klarer Vorteil dieses hybriden Ansatzes ist, dass eine signifikant größere Rechenleistung bei gegebenem Budget erreicht wird. Auch nimmt die Energieeffizienz in der Regel deutlich zu. So ist der RoadRunner nicht nur führend bei der Rechenleistung, sondern auch auf Seite der Energieausbeutung deutlich besser positioniert als sogar die BlueGene-Systeme, die bisher das Maß der Dinge waren.

Probleme bei der Softwareoptimierung

Wie so oft muss man bei dem neuen Hybridansatz aber auch Kompromisse eingehen. Vor allem der Aufwand, reale Anwendungen jenseits des Linpack-Benchmarks auf einem Hybridsystem mit hoher Rechenleistung zum Laufen zu bekommen, darf nicht unterschätzt werden. Dies wurde im Rahmen einer gesonderten Sitzung der ISC deutlich. So berichteten die Macher des RoadRunner-Projekts, dass auf dem System letzten Endes nur eine Handvoll Anwendungen laufen sollen.

Die Portierung dieser ausgesuchten Anwendungen wurde gleichzeitig mit der Verwirklichung des Hardwareprojekts in den letzten zwei Jahren mit erheblichem Personalaufwand vorangetrieben und ist noch nicht abgeschlossen. Das macht klar, dass eine solche hybride Lösung noch nicht als Arbeitspferd in einem „normalen“ Supercomputerzentrum eingesetzt werden kann. Dort arbeiten meist Hunderte von Benutzern und Dutzende von unterschiedlichsten Anwendungen.

Komplexe Architektur: Je ein Opteron-Blade als Kontrollrechner und zwei Cell-Blades für die Rechenarbeit bilden beim RoadRunner eine Einheit. (Quelle: IBM)

Dieses Problem wird sich erst dann entspannen, wenn deutlich bessere Entwicklungswerkzeuge für die Portierung einer gewachsenen Anwendung auf eine solche Plattform existieren. Gleichzeitig stellt sich die Frage, ob das aktuelle Programmierparadigma im HPC (High-performance computing) auch weiterhin geeignet ist. Dabei kombiniert man klassische Programmiersprachen wie Fortran, C oder C++ mit MPI-Befehlen. MPI (Message Passing Interface) ist eine im HPC etablierte Standardschnittstelle, die explizite Kommunikationsoperationen zwischen den Rechenknoten in die Programmlogik integriert.

„Hello World“ mit MPI: Bei MPI muss man den eigentlichen Programmcode mit Verwaltungsanweisungen für die Rechenknoten mischen. (Quelle: rac.uits.iu.edu/hpc/mpi_tutorial/index.shtml)

In den USA werden daher bereits seit einiger Zeit Forschungsprogramme für neue Programmierparadigmen und -konzepte vorangetrieben. Dadurch soll die Programmierung der immer komplexer werdenden Höchstleistungsrechner wieder vereinfacht werden. Die Wissenschaftler sollen so wieder mehr Zeit für ihr eigentliches Problem haben und sich weniger um die Verwaltung der Rechnerknoten kümmern müssen.

300 neue Systeme in der TOP500

Auch jenseits von RoadRunner hat sich auf der aktuellen Liste eine Menge bewegt. So fielen erstmals mehr als 300 Systeme, die noch im November letzten Jahres in der Liste zu finden waren, aus der neuen Liste heraus. Ihre Leistung war für eine Notierung nicht mehr ausreichend. Dies spiegelt zum einen die große Dynamik dieses Marktes wieder, zum anderen zeigt es aber auch, dass die Leistungsdichte in der Liste immer größer wird. Auch unter den ersten zehn Systemen gab es große Veränderungen. So waren nur fünf dieser Systeme bereits auf der letzten Liste zu finden, eines davon konnte sich nur deshalb in der Top 10 halten, da eine Erweiterung vorgenommen wurde.

Auf Platz 2 ist der Spitzenreiter der letzten Liste zu finden, das BlueGene/L-System des Lawrence Livermore National Labs, nun jedoch dicht gefolgt von einem BlueGene/P-System am Argonne National Lab. BlueGene/P ist die technologische Weiterentwicklung des BlueGene/L-Konzepts. Es wurde pünktlich zur letzten Liste im November 2007 von IBM vorgestellt.

Eine BlueGene/P-Installation im Forschungszentrum Jülich sorgte erstmalig dafür, dass ein europäisches System den zweiten Platz in der Liste belegen konnte. Diese Platzierung konnten die Jülicher jedoch nur ein halbes Jahr halten. In der Zwischenzeit ist dieses System bereits auf den sechsten Platz zurückgefallen. Davor konnte sich nun das Ranger-System des Texas Advanced Computing Center an der Universität von Texas schieben. Es ist damit zugleich das leistungsfähigste zivile System. Zugleich stellt diese Installation endgültig die Rückkehr SUNs in den Kreis der Hersteller von Hochleistungsrechnern dar.

Top 10: Sechs der zehn schnellsten Rechner stehen in den USA. RoadRunner erreicht seine 1,376 PFlop/s mit „nur“ 122.400 CPU-Cores. (Quelle: TOP500.org)

Tatsächlich war das Ranger-System eigentlich schon auf der letzten Liste erwartet worden, AMDs Probleme mit den Barcelona-Prozessoren und weitere Schwierigkeiten machten den dortigen Machern jedoch einen Strich durch die Rechnung. In der Zwischenzeit wurden alle Unzulänglichkeiten beseitigt, und nun ist dieses System das schnellste konventionelle Cluster-System in der Liste.

Komplettiert wird die Top 5 durch ein System der Firma Cray am Oak Ridge National Lab, das auf der letzten Liste noch auf Rang 7 positioniert war. Die Verbesserung kam durch einen Ausbau des Systems zustande.

Auf den Plätzen

Keine Hardwareveränderung des Systems gab es in Jülich, sodass die dortige BlueGene/P-Installation zwar um vier Plätze zurückgefallen, gleichzeitig aber immer noch das schnellste System außerhalb der USA ist. Durch fortlaufende Verbesserungen an der Systemsoftware ist es dem Jülicher Team dennoch gelungen, die im Linpack gemessene Rechenleistung von 167 TFlop/s auf nun 180 TFlop/s zu steigern.

Zwei weitere Systeme folgen, die ebenfalls bereits auf der letzten Liste waren und deren Leistung sich seitdem aufgrund von Optimierungen verbessert haben: ein System der Firma SGI, installiert am New Mexico Computing Applications Center (NMCAC) in Rio Rancho im US-Bundesstaat New Mexiko sowie ein Clustersystem der Firma HP. Dieses ist für die Tata Sons Ltd. im indischen Pune installiert und stellt zugleich das stärkste asiatische System sowie das stärkste System eines industriellen Betreibers dar.

Komplettiert wird die Top 10 durch zwei französische Systeme, einem BlueGene/P-System am Institut du Dèveloppement et de Ressources en Informatique Scientifique (IDRIS) sowie einem System vom Typ SGI Altix. Dieses nutzt der Total Konzern zur Exploration und Erschließung von Fördergebieten für die Erdölproduktion.

Top 20: IBM stellt zehn der Top-20-Supercomputer. (Quelle: TOP500.org)

Bemerkenswert ist, dass es kein japanisches System in die Top 10 geschafft hat. Das erste japanische System ist nun ein Opteron-Cluster der Firma Hitachi des Todai genannten Open Supercomputer Project auf Rang 16. Nichtsdestotrotz werden japanische Wissenschaftler nicht müde zu betonen, dass dies nicht so bleiben soll. So wird derzeit in Kobe ein neues Institut für Supercomputing gegründet.

Japan will dort in den kommenden Jahren bis zu einer Milliarde Dollar investieren. Das erklärte Ziel ist, bis in fünf Jahren ein System zu etablieren, das den Wissenschaftlern auch bei realen komplexen Anwendungen mehrere PFlop/s zur Verfügung stellt. Typischerweise erreichen echte Anwendungen nur 10 bis 20 Prozent der Leistung des synthetischen Linpack-Benchmarks.

Europa und Deutschland

Aber auch in Europa ist derzeit ein verstärkter Aufbruch zu verspüren. So widmete sich die Konferenz in Dresden am Donnerstagmorgen einer neuen Initiative der europäischen Supercomputerzentren. Diese will mittelfristig eine europäische Infrastruktur im Supercomputing etablieren. So soll sichergestellt sein, dass kontinuierlich europäische Systeme in der absoluten Spitzengruppe vorhanden sind.

Prof. Dr. Achim Bachem, der Vorstandsvorsitzende des Forschungszentrums Jülich und derzeitige Leiter dieses PRACE (Partnership for Advanced Computing in Europe) genannten Projekts erläuterte, dass nur so Europa in dieser zukünftigen Schlüsseltechnologie konkurrenzfähig bleiben kann. PRACE soll die organisatorischen Voraussetzungen für bis zu vier europäische Supercomputerzentren schaffen. Die Zentren sollen ab 2010 die absolute Spitze der Leistungspyramide in Europa darstellen und noch vor den jeweiligen nationalen Zentren rangieren. Ergänzend zielt das Projekt PROSPECT (Promotion of Supercomputers and Petaflop Computing Technologies) darauf, die Betreiber und Nutzer solcher Systeme mit den in Europa aktiven Herstellern zusammenzuführen. Das soll Impulse für gemeinsame Forschungs- und Entwicklungsinitiativen in diesem wichtigen Zukunftsfeld geben.

Dass bis dahin noch eine Menge zu schaffen ist, zeigt jedoch ein Blick auf die aktuelle TOP500-Liste. So ist sowohl die Zahl der Systeme als auch die installierte Leistung in Europa seit der letzten Liste zwar jeweils leicht angestiegen, die Dominanz der USA nicht zuletzt aufgrund des starken Engagements des Department of Energy bleibt jedoch unübersehbar.

Nordamerika dominant: 259 der TOP500-Rechner stammen aus Nordamerika, vornehmlich den USA mit 257 Systemen. (Quelle: TOP500.org)

Nordamerika noch dominanter: 60 Prozent der weltweiten Supercomputer-Rechenleistung sind in den USA (und Kanada) installiert. (Quelle: TOP500.org)

Vergleicht man die Rangfolge innerhalb Europas, so konnte Deutschland Boden gegenüber Großbritannien gutmachen und rangiert bei der Zahl der Systeme mit 46 zu 53 nun nur noch knapp dahinter. Nicht zuletzt aufgrund von JUGENE in Jülich und des neuen Systems im Rechenzentrum Garching der Max-Planck-Gesellschaft konnte sich Deutschland bei der installierten Leistung wieder an die Spitze Europas setzen. Dabei ist das Garchinger System, das die neuesten IBM-Power6-Prozessoren sowie InfiniBand als Netzwerk verwendet, erst kurz vor Bekanntgabe der TOP500-Liste fertiggestellt worden.

Länderstatistik: Die USA stellen 59,8 Prozent der weltweiten Rechenleistung, dann folgen Deutschland (8,2), Großbritannien (7,2), Frankreich (6,1) und Japan (4,7). (Quelle: TOP500.org)

Exaflop bis 2019?

Ein beliebtes Spiel der Macher der Liste ist es, aus den nun mehr als 15 Jahren gesammelten Daten aktuelle Trends abzulesen und gleichzeitig Projektionen in die Zukunft zu wagen. Die Statistik zeigt, dass mit dem ersten Exaflop-System im Jahr 2019 zu rechnen sein wird. Allerdings waren auf der Konferenz auch kritische Stimmen zu solchen Voraussagen zu hören. So wurde in den letzten 15 Jahren ein wesentlicher Teil der Leistungssteigerung durch die Erhöhung der Taktfrequenz der einzelnen Prozessoren erzielt. Dieser Trend hat aber in den letzten Jahren deutlich an Schwung verloren. So wurden etwa die von Intel vor wenigen Jahren angekündigten Prozessoren mit einer Taktfrequenz von 4 GHz niemals in signifikanter Stückzahl gebaut.

Trend: Hält das exponentielle Wachstum wie die letzten 15 Jahre an, wird 2019 die Exaflop-Marke durchbrochen. (Quelle: TOP500.org)

Derzeit sucht man einen Ausweg in einer wachsenden Anzahl an Cores und damit zunehmender Parallelität. Glaubt man den Ankündigungen von AMD und Intel, so wird in Zukunft dieser Trend eher noch zunehmen. Gleichzeitig ist mit einer Spezialisierung der einzelnen Cores zu rechnen. In zukünftigen Prozessoren sollen neben den heute üblichen universellen Cores auch spezialisierte Rechenelemente wie GPUs oder reduzierte, aber extrem schnelle Fließkommaeinheiten zu finden sein. Einen Prototyp solcher Systeme stellt der im RoadRunner verwendete und von IBM entwickelte Cell-Prozessor dar.

Das wesentliche Problem bei der effizienten Nutzung solcher Systeme wird aber die Software sein, und auf diesem Gebiet gibt es einen deutlichen Nachholbedarf. In Zukunft wird sich dieses Problem jedoch zunehmend von der Nischenanwendung des Hochleistungsrechnens in normale Server und Desktop-Rechner ausbreiten. Dies dürfte zu verstärkten Forschungsanstrengungen im Bereich von Programmierwerkzeugen führen, von denen dann auch der Bereich des HPC profitieren kann.

Intel absolut führend bei Prozessoren

Wie stark der Trend zu immer mehr Kernen bereits ist, kann auch an der aktuellen Liste abgelesen werden. So sind schon 283 Systeme mit Quad-Core-Prozessoren ausgestattet, nur noch zehn Installationen basieren auf Single-Core-CPUs. Eine direkte Folge dieses Trends ist, dass AMD nicht zuletzt aufgrund des Barcelona-Desasters zunehmend an Boden gegenüber Intel verliert. So sind mittlerweile mehr als zwei Drittel aller Systeme mit Intel-CPUs ausgestattet, IBM ist mit seinen Power-CPUs an AMD vorbeigezogen. AMD Prozessoren arbeiten derzeit nur noch in 55 Systemen der Liste. Ob eine solch große Dominanz eines Herstellers gesund ist, bleibt dabei abzuwarten.

Intel führend: 71 Prozent aller Supercomputer basieren auf Intels EM64T, dann folgt IBM mit 14 Prozent, AMDs x86_64 mit nur noch 11 Prozent und Intels IA- 64 (Itanium) mit 3 Prozent. (Quelle: TOP500.org)

Weitgehend stabil ist hingegen die Verteilung bei den verwendeten Netzwerken. Hier ist gut die Hälfte der Systeme mit Gbit-Ethernet ausgestattet. Dies ist ein deutliches Indiz dafür, dass dort keine enggekoppelten parallelen Anwendungen zum Einsatz kommen, die deutlich leistungsfähigere Netzwerke voraussetzen. Ein Großteil der Systeme aus dem Bereich „finance“ dürfte mit Ethernet vernetzt sein.

Zwei Player: Ethernet eignet sich für lose gekoppelte Systeme, InfiniBand dominiert, wenn ein schneller Datenaustausch nötig ist. (Quelle: TOP500.org)

Ein knappes Drittel der Systeme ist hingegen mit InfiniBand ausgestattet, das sich damit zum De-facto-Standard in diesem Bereich entwickelt hat. Den restlichen Markt teilen sich Speziallösungen, wobei ein Gutteil davon die Netzwerke der BlueGene-, Cray- und SGI-Altix-Systeme stellen. Das vor einigen Jahren noch sehr weit verbreitete Myrinet ist hingegen nur noch auf zwölf Systemen zu finden. 10-Gbit-Ethernet spielt bei Supercomputern noch gar keine Rolle.

Energieeffizienz im Fokus

Da die Systeme immer größer werden, rückt auch das Thema Energieeffizienz immer weiter in den Fokus der TOP500-Liste. So gab es parallel zu den letzten TOP500-Listen eine Initiative für die energieeffizientesten Systeme. Das Thema haben jetzt aber auch die Autoren der TOP500-Liste aufgegriffen. Sie geben mit der aktuellen Liste auch den Energiebedarf der Systeme an.

Eine grundsätzliche Problematik in diesem Zusammenhang ist der Maßstab, den man hier anlegen möchte. So bevorzugt der reine Quotient aus Energiebedarf und Rechenleistung kleine Systeme, da der Energiebedarf eines Systems mit der Größe skaliert, die Rechenleistung aufgrund des Amdahlschen Gesetz jedoch nicht. Überspitzt gesagt: Ein Mobiltelefon ist extrem energieeffizient, allerdings lässt die Eignung als Höchstleistungsrechner doch sehr zu wünschen übrig.

Eine noch weiter zu diskutierende Frage ist, welche Komponenten eines System in der TOP500-Liste bei der Bestimmung des Energiebedarfs außen vor bleiben. So wird je nach Anwendungsfeld eine unterbrechungsfreie Stromversorgung benötigt, die die Effizienz verschlechtert. Auch die Größe der Storage-Systeme kann über einen weiten Bereich variieren. Entscheidend ist auch, in welchem Zustand des Systems der Energiebedarf ermittelt wird. Strittig ist zudem, ob wirklich das gesamte System vermessen werden muss. Bei Leistungsaufnahmen von einige MW kann das durchaus eine technische Herausforderung darstellen.

Die Macher haben sich derzeit auf die folgenden Kriterien geeinigt:

Leistungsmessung mit Linpack als Workload, was üblicherweise die CPU in die Nähe der TDP (thermal design power) bringt
Einbeziehen aller wesentlichen Teile eines Systems (Prozessor, Speicher, Systemplatten etc.)
Nicht berücksichtigt werden Umgebungseigenschaften wie Kühlung, Storage-Systeme, UPS
Messung des vollen Systems oder hinreichend großer Teile unter Beachtung aller geteilten Komponenten wie Lüfter und Netzteile

Ausblick

Betrachtet man die mit diesen Kriterien ermittelten Daten der Energieeffizienz, so ergeben sich drei Kategorien. Eine der Kategorien wird allein durch das RoadRunner-System und zwei weitere kleine Supercomputer auf Basis des PowerXCell 8i repräsentiert. Während die durchschnittliche Energieeffizienz in der TOP500 bei 122 MFlop/W liegt, erreichen diese drei Systeme mehr als 430 MFlop/W.

Drei Klassen: Bei der Effizienz dominieren die PowerXcell 8i mit über 430 MFlop/W (letzte Spalte). PowerPC 450 mit BlueGene/P bildet eine eigene Gruppe auf Platz 2, dann folgt das große Hauptfeld.

Auf den Fersen folgen Quad-Core-Systeme mit BlueGene/P, die bei rund 360 MFlop/W liegen. Dann tut sich erneut eine Lücke auf, und dann folgt ein kontinuierlich abfallendes Hauptfeld. Bemerkenswert ist jedoch, dass Cluster mit Intels Quad-Core-Harpertown-Prozessoren dieses Feld anführen. Sie haben eine bessere Energieeffizienz als die mittlerweile einige Jahre alten BlueGene/L-Systeme. Harpertown erreicht bis zu 266 MFlop/W, BlueGene/L nur 211 Mflop/W. Dies ist ein deutliches Indiz, dass die großen Prozessorhersteller das Thema Energieeffizienz aufgegriffen und ihre Produkte optimiert haben.

Es bleibt abzuwarten, ob sich dieser positive Trend bei der Energieeffizienz weiter fortsetzen wird. Erste Anzeichen wird hier die nächste TOP500-Liste liefern, die im Rahmen der Supercomputer Conference im November dieses Jahres in Austin/Texas veröffentlicht wird. (ala)