Leistungsaufnahme wird zum Thema bei Supercomputer-Rangliste

Top500 11/2008: PetaFlop-Supercomputer mit Megawatt-Leistung

26.11.2008 von Dr. Norbert Eicker
In der neuen Rangliste der Top500 Supercomputer durchbrechen zwei Systeme die PetaFlop-Grenze. Bei Leistungsaufnahmen von bis zu sieben Megawatt explodieren aber auch die Betriebskosten. Green IT hält daher auch im Bereich Supercomputing Einzug.

Zweimal jährlich erscheint die Rangliste der 500 schnellsten Rechner der Welt. Das Top500-Ranking wird jeden November im Rahmen der Supercomputer-Conference SC in den USA veröffentlicht. Die Juni-Ausgabe hingegen erscheint auf der Internationalen Supercomputer Conference (ISC), die 2009 in Hamburg stattfinden wird. Die Konferenz, eine Mischung aus wissenschaftlicher Fachtagung und Industriemesse, ist im Laufe ihres 20-jährigen Bestehens auf nun mehr als 10.000 Teilnehmer gewachsen.

Im Herbst 2008 machte der Tross der Benutzer, Betreiber, Entwickler und Hersteller im texanischen Austin Station. In der Top500-Liste vom Frühjahr konnte mit dem RoadRunner erstmals ein System die magische Marke von einem PFlop (PetaFlop, 10^15 Fließkommaoperationen pro Sekunde) durchbrechen. In Austin war mit ähnlich spektakulären Ergebnissen nicht zu rechnen. Trotzdem zeichnet sich auch die Herbst-Liste durch viele neue Systeme und interessante Trends aus.

Die TOP500 Liste geht auf eine Initiative von Jack Dongarra, Hans Meuer und Erich Strohmaier vor mittlerweile 16 Jahren zurück. Damals wurde die Idee geboren, die existierenden Supercomputer mittels eines einheitlichen Benchmarks zu vermessen, die Resultate im Rahmen einer Liste zu veröffentlichen und somit einen Überblick über die Leistungsfähigkeit der Systeme zu erhalten. Vor einigen Jahren stieß Horst Simon zu der Gruppe, die seitdem zweimal jährlich eine Aktualisierung der Liste durchführt.

Damals wurde auch das sogenannte Linpack-Programm als Benchmark ausgewählt. Es misst die Leistung eines Computers bei einem ganz speziellen Problem der linearen Algebra. Tatsächlich erlaubt dieser Benchmark eine recht gute Abschätzung der Leistungsfähigkeit eines Supercomputers bei den realen Aufgaben, die Wissenschaftler und Ingenieure tagtäglich auf solchen Maschinen lösen. Dennoch ist der Linpack umstritten, wie Sie in unserem Artikel Supercomputer-Benchmarks nachlesen können.

Die Top-Systeme

Die neue Nummer 1 der Liste ist auch die alte: das RoadRunner System, das vor einem guten halben Jahr von der Firma IBM am Los Alamos National Laboratory aufgebaut wurde. Das System besteht aus 3240 Blade-Knoten mit jeweils zwei Dual-Core-Opterons, wobei jedem dieser Knoten zwei Blades mit jeweils zwei Cell-Prozessoren zur Seite gestellt sind. Dieser komplexe Aufbau des Systems sorgt auf der einen Seite für eine extrem hohe Energieeffizienz.

Komplexer Aufbau: IBMs RoadRunner ist ein Hybridsystem, bei dem sich unterschiedlich spezialisierte Prozessoren die Arbeit teilen. (Quelle: lanl.gov)

Auf der anderen Seite verursacht er jedoch einen sehr großen Aufwand bei der Portierung von Programmen auf diese Maschine: Letzten Endes ist das Programm in drei Teile zu teilen, wobei eines auf den Opteron-CPUs läuft und die beiden anderen jeweils eine Sorte der heterogenen Kerne der Cell-CPUs programmieren. Es überrascht daher nicht, dass nur eine Handvoll Anwendungen auf dieses System portiert wurden, die es jedoch extrem effizient nutzen können. Mehr zum RoadRunner lesen Sie in unserem Beitrag zur Top500-Liste aus dem Juni 2008.

Top 10: Die beiden Top-Systeme erreichen ein R(max) von mehr als 1 PFlop/s, der Jaguar verheizt dazu knapp 7 MW elektrische Leistung.

Einen diametralen Ansatz verfolgt hingegen das Jaguar-System, das von Cray am Oak Ridge National Laboratory installiert wurde. Dies ist einer der ersten Vertreter der neuen XT5-Maschinen des Supercomputer-Pioniers. Es verlässt sich allein auf Opteron-CPUs und ist dementsprechend leichter zu programmieren. Letzten Endes unterscheidet sich ein solches System aus Benutzersicht nicht signifikant von den Cluster-Systemen, die seit einigen Jahren die Liste anführen.

Auch was für die Optik: Cray hat dem Jaguar optisch aufgepeppte Server-Racks spendiert. (Quelle: nccs.gov)

Die Rechnung für diese einfachere Programmierbarkeit des Systems kommt jedoch vom lokalen Energieversorger: Während sich etwa das RoadRunner-System mit knapp 2,5 MW elektrischer Leistung "begnügt", um die Spitzenleistung von 1,105 PFlop/s zu realisieren, benötigt Jaguar für nur marginal weniger – 1,059 PFlop/s – schon knapp 7 MW. Das drittplazierte Pleiades System der Firma SGI am NASA/Ames Research Center erreicht 487 PFlop/s. Obwohl es weniger als die Hälfte der Rechenleistung des RoadRunner erreicht, liegt es mit 2,1 MW bei einer vergleichbaren Leistungsaufnahme.

SGI-Erfolg: Das Pleiades-System der NASA rechnet mit Quad-Core-Xeons. (Quelle: nasa.gov)

Mit Windows auf Platz 10

Auch die nächsten sechs Systeme sind alle in den USA beheimatet. Darunter ist das IBM-BlueGene/L-System am Lawrence Livermore Naional Laboratory, das noch vor einem Jahr die Liste angeführt hat und mittlerweile auf Rang 4 zurückgefallen ist. Mehr zu BlueGene/L lesen Sie in unserem Beitrag Top500 7/2007: Supercomputing-Rangliste und HPC-Trends. Auch in den Top 10 befindet sich das Ranger-System des Texas Advanced Computing Center/Univ. of Texas in Austin. Es hatte bei der diesjährigen Konferenz eine Art Heimspiel und ist nun auf Platz 6 gelistet. Unter den ersten zehn sind drei weitere Systeme von Cray der älteren XT4 Generation vertreten. Damit hat Cray in den Top 10 mit vier Systemen knapp die Nase vorn vor IBM mit drei Systemen.

Cray is back: Obwohl der Supercomputer-Pionier nur 22 Systeme in den Top500 hat, erreicht er damit doch fast 15 Prozent der gesamten Rechenleistung. Führend sind in dieser Disziplin IBM mit 38 und HP mit 25 Prozent. (Quelle:Top500.org)

Das erste außeramerikanische System folgt erst auf Platz 10 und steht nicht etwa in Europa, sondern in China am Shanghai Supercomputing Center. Dieses Cluster-System, das von der chinesischen Firma Dawning aufgebaut wurde, verwendet wie auch die Cray-Systeme in den Top 10 Quad-Core-Opteron-Prozessoren von AMD. Anders als bei Cray wird hier allerdings InfiniBand zur Verbindung der Prozessoren verwendet. Eine Besonderheit dieses Systems ist, dass es unter Windows HPC 2008 (High Performance Computing) betrieben wird. Damit ist dies das erste System in den Top 10, das dieses Betriebssystem verwendet. Das mag ein Indiz dafür sein, dass die Bemühungen Microsofts, auch bei Supercomputern Fuß zu fassen, erste Früchte tragen.

OS-Verteilung: Zwar läuft eines der Top-10-Systeme mit Microsoft Windows HPC. In der Gesamtstatistik geht Microsoft aber mit fünf von 500 Systemen in der Rubrik „Others“ unter. Hier dominiert eindeutig Linux. (Quelle:Top500.org)

Damit ist erstmals seit fünf Jahren wieder kein europäisches System in den Top 10. Die schnellste Maschine in Europa bleibt weiterhin das Jülicher BlueGene/P System, das am dortigen Jülich Supercomputing Centre (JSC) vor einem Jahr installiert wurde und sich mit einem Paukenschlag als erstes europäische System überhaupt auf Rang 2 platziert hatte (siehe auch: Top500 11/2007: Deutscher Supercomputer „JUGENE“ landet auf Platz 2) . Bereits ein Jahr später reicht die Rechenleistung von 180 TFlop/s jedoch nur noch für Platz 11 – auch wenn man nur denkbar knapp von dem chinesischen System mit 180,6 TFlop/s geschlagen wurde.

Allerdings hat das Forschungszentrum Jülich -– die Heimat des JSC – angekündigt, dass im kommenden Jahr signifikante Ausbauten geplant sind. Zum einen soll bereits im Frühjahr ein JUROPA genanntes Cluster-System installiert werden, das dann eine Spitzenleistung von mehr als 200 TFlop/s liefern soll. Zum anderen will man noch im kommenden Jahr einen Rechner mit einer Spitzenleistung von 1 PFlop/s installieren, der dann der europäischen Wissenschaftsgemeinde zur Nutzung bereitgestellt wird.

Europäisches Supercomputing-Zentrum PRACE

Darüber hinaus versuchen die nationalen Supercomputing-Zentren in Europa derzeit, eine nachhaltige HPC-Infrastruktur für Europa zu implementieren. Dies geschieht im Rahmen eines PRACE genannten Projekts, das die juristischen und organisatorischen Hürden für die Errichtung europäischer Zentren überwinden soll. Diese Zentren sollen dann der hiesigen Wissenschaftsgemeinde und industriellen Anwendern offenstehen. Mit dieser Initiative hofft man den Anschluss an die USA in diesem strategisch wichtigen Technologiefeld halten zu können.

Verteilung der Systeme nach Ländern: Die USA dominieren die Top-500-Liste mit 290 Supercomputern. (Quelle: Top500.org)

Weiterhin führen die USA die Liste der 500 schnellsten Computer an, sowohl was die Zahl der Systeme angeht – mit nun 290 Maschinen – als auch in puncto installierte Rechenleistung mit einem Anteil von nun 66 Prozent. Weitere 153 Systeme sind in Europa anzutreffen (mit einem Rechenleistungsanteil von 24 Prozent), der Rest steht im Wesentlichen in Asien. Dort ist der Trend festzustellen, dass China mehr und mehr auf Japan aufschließen kann. Gleichzeitig hat sich Indien mittlerweile in der Ersten Liga etabliert und ist seit 2002 permanent mit Systemen vertreten. Dies ist nur möglich, wenn permanente Investitionen in diesem Technologiebereich erfolgen – eine Voraussetzung, die offensichtlich in Indien erfüllt ist.

In Europa gab es erneut Gewichtsverschiebungen. Sah es auf der Juni-Liste noch so aus, als könnte Deutschland wieder zu Großbritannien aufschließen, ist Deutschland mittlerweile auf Rang 3 sogar noch hinter Frankreich zurückgefallen. Allerdings macht die Tatsache, dass der Anteil an industriellen Systemen in der Finanzbranche in Großbritannien ausgesprochen hoch ist, neugierig darauf, ob sich dieser Trend auch in den kommenden Listen so weiter beobachten lässt.

Hersteller und CPU-Verteilung

Verschiebungen im Vergleich zur Vorgängerliste hat es auch im Bereich der Systemhersteller gegeben. So kann sich bei der Zahl der Systeme HP zum ersten Mal seit einigen Jahren wieder gegen IBM durchsetzen und führt nun mit 209 zu 186 Systemen. Die weiteren Plätze werden von Cray (22), Dell (19) und SGI (17) belegt. Schaut man hingegen auf die Rechenleistung, mit der diese Hersteller zur Liste beitragen, so ergibt sich ein anderes Bild: Nun führt IBM deutlich mit knapp 40 Prozent, HP steuert hingegen nur 25 Prozent bei. Cray kann mit seinen wenigen Systemen respektable 15 Prozent darstellen.

Die Erklärung ist klar: Während IBM mit RoadRunner und den BlueGene-Systemen sowie Cray mit den XT4- und XT5-Systemen im vorderen Teil der Liste stark vertreten sind, liefert HP vor allem Systeme mittlerer Größe. Diese sind natürlich nicht in der absoluten Spitze der Leistungspyramide zu finden, stellen aber trotzdem einen lukrativen Teil des Marktes dar.

CPU-Verteilung: Intel-Xeons laufen in 74 Prozent aller Supercomputer, AMDs Opterons teilen sich mit je 12 Prozent den zweiten Platz mit IBMs Power-CPUs. (Quelle: Top500.org)

Bei den Prozessorherstellern dominiert weiterhin Intel mit über 70 Prozent der Systeme den Markt, AMD konnte sich bei gut 12 Prozent stabilisieren und liegt nun gleichauf mit IBMs Power-Architektur, die vor allem in den BlueGene-Systemen zu finden ist. Weniger dominant ist der Anteil Intels bei der installierten Rechenleistung. Hier profitiert AMD davon, dass in Cray-Systemen weiterhin nur Opteron-Prozessoren zum Einsatz kommen. In den Cluster-Systemen hingegen, die überwiegend außerhalb der Top 20 anzutreffen sind, hat Intel derzeit klar die Nase vorn.

Es wird spannend, wie sich die Prozessorverteilung bis zur nächsten Liste verschiebt. So zeigen die von AMD gerade vorgestellten Shanghai-Prozessoren, mit denen AMD auch endlich 45-nm-CPUs im Programm hat, eine deutlich größere Speicherbandbreite als die älteren Barcelona-Prozessoren. Bei Intel wird dagegen im kommenden Jahr die neue Nehalem-EP-CPU erwartet. Damit verabschiedet sich Intel von der Frontsidebus-Architektur und lässt, ähnlich wie AMD vor einigen Jahren, die Speicherschnittstelle direkt in den Prozessor wandern. Erste Benchmarks des Shanghai finden Sie in unserem Beitrag Test: AMD Opteron 2384 – neue CPU-Generation Shanghai. Vielversprechend sind auch die Leistungswerte der kommenden Intel-Generation, die Sie in unserem Beitrag Test: Intel Core i7 mit Nehalem-Quad-Core finden.

Multi-Cores und Parallelitätsebenen

Insgesamt geht der Trend weiter deutlich in Richtung Systeme mit Multi-Core-CPUs. Mittlerweile sind kaum noch Systeme in der Liste zu finden, in deren CPUs einzelne Cores arbeiten. Die Verschiebung von Dual-Core- zu Quad-Core-Prozessoren ist in vollem Gange. Darüber hinaus gibt es Systeme wie den führenden RoadRunner, deren Cell-Prozessoren über neun Cores verfügen.

Der Trend zu immer mehr Cores sorgt damit auch für eine weiter zunehmende Parallelität der Systeme – ein Trend, der den Aufwand bei der Portierung von Anwendungen auf solche Systeme anwachsen lässt. Früher war durch die ständig wachsende Taktfrequenz eine Leistungszunahme existierender Anwendungen fast ohne Mehraufwand möglich. Derzeit erfordert die zunehmende Zahl an Parallelitätsebenen – mehrere Cores in einem CPU-Sockel, mehrere Sockel pro Knoten, viele Knoten im Gesamtsystem – einen nicht zu unterschätzenden Aufwand bei der Optimierung. Hier bleibt abzuwarten, ob das "klassische" Programmierparadigma, bestehend aus einer seriellen Programmiersprache wie Fortran oder C/C++, kombiniert mit MPI, weiterhin für die Zukunft trägt.

Neben der Möglichkeit, die lokale Parallelität im Knoten durch Erweiterungen wie OpenMP zu nutzen, könnten völlig neue Programmierparadigmen wie Unified Parallel C oder Co-Array Fortran zum Einsatz kommen. Vor allem heterogene Systeme wie RoadRunner oder auch künftige Cluster, die Nvidias Tesla-GPU als Beschleuniger verwenden, machen die Verwendung solcher Ansätze vermutlich unvermeidlich.

Keine neuen Netzwerktrends

Bei der zweiten wesentlichen Komponente aktueller Supercomputer – dem Netzwerk – gibt es keine neuen Trends. Weiterhin sind rund 56 Prozent der Systeme nur mit einem Gigabit-Ethernet-Netzwerk verbunden. Dies erlaubt bei einem Lauf des Linpack-Benchmark eine Effizienz von nur 55 Prozent. Diese Systeme sind daher meist nicht im ersten Drittel der Liste zu finden. Sie sind aber auch gar nicht für die klassischen Numbercrunching-Anwendungen aus den Natur- und Ingenieurwissenschaften entwickelt, sondern berechnen innovative Anwendungen etwa in Banken und Versicherungen. Da solche Anwendungen auch ohne Hochleistungsnetzwerke auskommen, spart man sich an dieser Stelle die Investition in ein solches Netz.

Schnell genug: Das billige Gigabit-Ethernet reicht für Supercomputer im Finanzsektor meist aus, Infiniband ist bei Numbercrunchern erste Wahl. (Quelle: Top500.org)

Bei der Verwendung deutlich leistungsfähigerer Netzwerke kann die Effizienz des Linpack-Benchmark auf über 80 Prozent gesteigert werden. Diesen Numbercrunching-Markt dominiert mittlerweile InfiniBand. Myrinet, das diese Rolle noch vor wenigen Jahren eingenommen hat, ist mittlerweile nur noch in zehn Systemen zu finden. Die proprietären Netzwerke der BlueGene- und Cray-Systeme spielen bei der absoluten Zahl der Systeme zwar keine wesentlichen Rolle. Allerdings stellen die 42 damit ausgestatteten Systeme fast die gleiche Rechenleistung dar wie die 281 Systeme mit Gigabit-Ethernet.

Zukunftsperspektiven

Ein beliebtes Spiel der Macher der TOP-500-Liste ist die Projektion der Trends in den 32 bisherigen Listen in die Zukunft. So prophezeite Erich Strohmeier in seiner aktuellen Präsentation, dass im Jahr 2020 etwa 10 PFlop/s notwendig sein werden, um überhaupt unter die Besten zu kommen. Dies entspricht beinahe der akkumulierten Leistung aller Systeme der aktuellen Liste: 16,9 PFlop/s. Das dann aktuelle Nummer-1-System würde – ein Anhalten der Entwicklung der vergangenen 15 Jahre vorausgesetzt – eine Leistung von etwa 1 ExaFlop/s liefern. Das entspricht 10^18 Fließkommaoperationen pro Sekunde.

Exponentielles Wachstum: Seit 15 Jahren steigt die Rechenleistung exponentiell an. Hält der Trend, sind bis 2020 1 ExaFlop/s möglich. (Quelle: Top500.org)

Ein Problem, das bis dahin sicherlich noch behoben werden muss, ist der zunehmende Leistungshunger der Systeme. In der aktuellen Liste stechen dabei vor allem zwei Systeme hervor. Zum einen das zweitplazierte Jaguar-System, das mit seinen 7 MW Leistungsaufnahme mehr als doppelt so viel Wärme erzeugt wie jedes andere System. Zum anderen Platz 74: Hier ist mittlerweile der EarthSimulator zu finden, der zwischen 2002 und 2004 die Liste angeführt hat. Diese sechs Jahre alte Technologie benötigt für ihre 36 TFlop/s eine elektrische Leistung von 3,2 MW, sodass sich sein Betrieb schon bald nicht mehr rechen dürfte. Von den etwa 300 Systemen, bei denen der Energiebedarf veröffentlicht ist, haben nur 14 einen Leistungsbedarf von mehr als einem MW.

Energieeffizienz und die Green500

Mit der Erhebung des Stromhungers der Systeme stellt sich das TOP500 Projekt in klare Konkurrenz zum Green500-Projekt. Dieses hatte bereits vor einigen Jahren mit dem Sammeln der entsprechenden Daten begonnen. Die Hauptkritik an Green500 ist die Verwendung des Kriteriums „Rechenleistung pro Energieverbrauch“ zur Einordnung der Systeme.

Green500: Betrachtet man die Rechenleistung pro Watt, liegen Systeme mit Cell-Blades und dem PowerPC 450 im BlueGene/P ganz vorne. Während sie 500 MFlops/W erreichen, liegt beispielsweise der Earth Simulator mit 11 MFlops/W auf Platz 499 der Green500 (Top500 Platz 74). (Quelle: green500.org)

In seiner Präsentation führte Erich Strohmaier aus, dass bei diesem Kriterium große Systeme immer benachteiligt würden. Daher seien MFlops/W für eine objektive Rangliste nicht geeignet. Gleichzeitig zeigt er drei Strategien, wie die Platzierung eines Systems in einer derart geordneten Liste verbessert werden könne: So ist in der Liste ein IBM-BladeCenter-HS21-System zu finden, das durch die Verwendung von low-power-Intel-Harpertown-Prozessoren die Leistungsaufnahme begrenzt. SGI hat bei seinem Altix-ICE-8200-System hingegen die Effizienz der Linpack-Implementierung gegenüber den Systemen der Wettbewerber signifikant gesteigert und punktet damit in Sachen Energieeffizienz. HP verfolgt hingegen die Strategie einer gesteigerten Packungsdichte der Komponenten, sodass etwa ein Teil der Netzteile eingespart werden kann, was ebenfalls die Effizienz steigert.

Unangefochtener Spitzenreiter in Sachen Energieeffizienz ist bei den großen Systemen nach wie vor das RoadRunner-System, das mit 445 MFlops/W in der Green500 zumindest auf Platz 7 liegt. Auch die BlueGene/P-Architektur, die mit einem System am Argonne National Laboratory Platz 5 der Top500 erreicht, liegt mit 357 Flops/W nicht schlecht im Rennen: In der Green500 schafft es dieser Supercomputer auf Platz 16. Negativbeispiel bei den großen Systemen ist der Earth Simulator. Mit 11 MFlops/W landet der in der Top500 noch auf Platz 74 gelistete Rechner in der Green500 auf Rang 499.

Ausblick

Einen Ausblick auf die Zukunft gab schließlich noch Jack Dongarra, der „Vater“ des Linpack-Benchmarks. Neben aller Kritik, die dieser Benchmark in den zurückliegenden Jahren über sich ergehen lassen musste – so repräsentiert er nicht wirklich den Großteil der Anwendungen, die tatsächlich auf Supercomputern laufen –, scheint sich nun ein echtes Problem zu ergeben: Mit wachsender Problemgröße N wächst der Speicherbedarf des Linpack mit N^2, die Zahl der notwendigen Fließkommaoperationen jedoch mit N^3. Da ein größeres Problem effizienter zu lösen ist, kann man sich eine höhere Linpack-Leistung durch einen größeren Speicher erkaufen. Doch damit geraten nun die Gesamtlaufzeiten des Linpack außer Kontrolle.

So benötigt das derzeitige Nummer-1-System aufgrund seines (im Vergleich zur Rechenleistung) recht kleinen Speichers "nur" zwei Stunden für einen Lauf. Jaguar auf Platz 2 mit seinem deutlich größeren Speicher von 300 TB läuft jedoch bereits 18 Stunden für einen Benchmark-Durchgang. Projiziert man dies vier Jahre in die Zukunft und geht von einer Verfünffachung von Rechenleistung und Speichergröße aus, so ergibt sich damit bereits eine Laufzeit von 2,5 Tagen. Da die Linpack-Leistung von vielen Parametern abhängig ist, benötigt man zur Optimierung aber deutlich mehr als einen Lauf. Dadurch wird dieser Benchmark inakzeptabel: Kein Betreiber eines Supercomputers wird sein teures System mehrere Wochen allein für den Linpack reservieren.

Die Macher überlegen nun, nur Teile des Benchmarks laufen zu lassen und daraus die Linpack-Leistung abzuleiten. Allerdings variiert die Rechnerauslastung während der Laufzeit signifikant. Derzeit ist noch unklar, wie dieser Tatsache Rechnung zu tragen ist. Bereits bei der nächsten Präsentation der TOP500-Liste bei der ISC 2009 im kommenden Juni in Hamburg wollen sie jedoch erste Resultate dieser Überlegung präsentieren. (ala)