Supercomputing-Rangliste und HPC-Trends

Supercomputer Top500 11/2006: Dual-Core-Turbo statt Neuinstallation

21.11.2006 von Dr. Norbert Eicker
Im November 2006 wurde auf der Supercomputing Conference die 28. Ausgabe der TOP500-Rangliste präsentiert. Während bislang neue Systeme hervorstachen, punkten jetzt ältere Supercomputer, die mit Dual-Core-CPUs nachgerüstet wurden. Zudem wird der Supercomputer grün.

Die neue Top500-Liste wurde im Rahmen einer BoF (Birds of a feather, Zusammenkunft Gleichgesinnter) auf der Supercomputing Conference (SC06) in Tampa, Florida, vorgestellt. Der Maßstab zur Einordnung der Computer ist das nicht unumstrittene Linpack-Programm. Dieser synthetische Benchmark aus dem Bereich der linearen Algebra ermittelt die Lösung eines großen, dichtbesetzten linearen Gleichungssystems. Die Köpfe hinter dem Top500-Projekt sind seit langem Hans Meuer (Universität Mannheim), Erich Strohmeier und Horst Simon (beide NERSC/Lawrence Berkley National Laboratory) sowie Jack Dongarra (University of Tennessee, Knoxville), der auch der Vater des Linpack-Benchmarks ist.

Traditionell erscheint die Liste halbjährlich: im November im Rahmen der SC in den USA sowie im Juni auf der Internationalen Supercomputer Conference (ISC), die im letzten Sommer von Heidelberg nach Dresden übergesiedelt ist.

Auch wenn der schnellste Computer der Welt weiterhin das BlueGene/L am Lawrence Livermore National Laboratory (LLNL) ist, hat es auf den ersten zehn Plätzen deutliche Verschiebungen gegeben. Interessanterweise sind dieses Mal die Gründe der Neuplatzierungen nicht nur in der Installation neuer Systeme zu finden, sondern vielmehr auch in Erweiterungen und Verbesserungen von bestehenden Systemen.

Dreifache Leistung durch schnelle Dual-Core-CPUs

Das bereits erwähnte BlueGene/L-System am LLNL wurde von IBM entwickelt und arbeitet mit 131.072 Prozessoren, die mit einer relativ niedrigen Frequenz von nur 700 MHz getaktet sind. Während die Leistung einer einzelnen CPU damit relativ gering ist, gewinnt das Gesamtsystem seine große Kraft aus der schieren Anzahl an Prozessoren sowie ihrer engen Koppelung durch das verwendete dreidimensionale Torus-Netzwerk.

Diese Kombination ermöglicht die enorme Rechenleistung beim Linpack-Problem von 280 TFlops, also 280 Billiarden Fließkomma-Operationen pro Sekunde. Zum Vergleich: Ein typischer, heute aktueller PC-Prozessor erreicht bei diesem Problem eine Leistung von etwa 4 GFlops. Um überhaupt in die Liste zu gelangen, sind mittlerweile bereits 2727 GFlops nötig, knapp 35 Prozent mehr als bei der letzten Liste vom Sommer 2006.

Auf Platz 2 ist nun das RedStorm-System im Sandia National Laboratory zu finden. Es ist das zweite System, das mit 101 TFlops in den dreistelligen TFlop-Bereich vorstößt. Noch im Sommer war dieses von der Firma Cray entwickelte System mit nur 44 TFlops auf Platz 9 zu finden.

In der Zwischenzeit wurden jedoch zum einen die bisher verwendeten 10.880 Opteron-Prozessoren mit 2,0 GHz durch höher getaktete Dual-Core-CPUs mit 2,4 GHz ersetzt. Zum anderen hat Cray die Anzahl der Prozessoren auf 26.544 erhöht. So konnte beinahe eine Verdreifachung der Leistung erreicht werden und der Einbruch in die Phalanx der BlueGene/L-Systeme gelingen. Trotzdem hält es bei einer Leistung von etwa 100 TFlops immer noch einen gebührenden Abstand zum erstplatzierten BlueGene/L-System.

Europa auf Platz 5

An fünfter Stelle rangiert bereits das erste europäische System, die runderneuerte Version des Mare Nostrum System des Barcelona Supercomputing Centers in Spanien. Auch hier wurde die Leistungssteigerung von 27,9 auf 62,3 TFlops im Wesentlichen dadurch erzielt, dass die ursprünglichen 4800 Power-PC-Prozessoren mit 2,2 GHz durch 10.240 Dual-Core-CPUs mit 2,3 GHz ersetzt wurden.

Auf dem sechsten Rang erscheint ein System, dessen Hersteller man zunächst nicht in den oberen Regionen der TOP500-Liste erwarten würde, da er sich bisher nicht als ausgewiesener Spezialist im Höchstleistungsrechnen hervorgetan hat: das Thunderbird-System, das ebenso wie das zweitplatzierte RedStorm-System in Sandia beheimatet ist, wurde von Dell geliefert. Dies ist auch eine Folge der Entwicklung hin zu Cluster-Systemen. Die Cluster sind aus handelsüblichen, preiswerten Komponenten zusammengesetzt und dominieren mittlerweile die Liste mit etwa 70 Prozent Anteil.

Während sich die Cluster früher meist in den unteren Rängen der Top500 tummelten, setzen sie sich durch ihre wachsende Knotenanzahl mehr und mehr auch in den oberen Regionen durch. Gleichzeitig ist jedoch zu beobachten, dass der Anteil der massiv parallelen MPP-Systeme durch die Verbreitung der BlueGene/L-Systeme auf Kosten der Cluster leicht steigt.

Der bisher schnellste Rechner Europas, das von der französischen Firma Bull gefertigte System Tera-10 des Commissariat à l'Energie Atomique (CEA) ist auf Platz 7 zurückgefallen. Dies geschah, obwohl es mittlerweile die finale Ausbaustufe erreicht hat und dabei sogar das bisher höher platzierte Columbia-System (bisher auf Rang 4, nun auf 8) hinter sich lassen konnte.

Hybridansatz aus Japan

Auf Platz 9 folgt das schnellste japanische System, das TSUBAME Grid Cluster des Tokyo Institute of Technology. Dies ist gleichzeitig der leistungsstärkste Vertreter einer interessanten Klasse neuer Systeme: So genannte Hybridsysteme besitzen neben der "normalen" CPU noch Spezial-CPUs, die als mathematische Coprozessoren genutzt werden. Im Fall des TSUBAME-Systems sind dies CSX600-Beschleuniger der britischen Firma ClearSpeed, die bei einer Rechenleistung von 25 GFlops nur 5 Watt Leistungsaufnahmen besitzen sollen.

Auf diese Beschleuniger können einzelne Kernfunktionen eines Programms ausgelagert werden. Dabei identifiziert man zunächst die Teile des Programms, deren Abarbeitung auf der Haupt-CPU nicht sonderlich effektiv ist. Für diese Funktionen entwickelt man dann schnelle Softwareroutinen, die auf dem Accelerator Board laufen.

Noch ist unklar, ob sich ein solches Architekturmodell auch bei allgemeinen Höchstleistungsrechnern durchsetzen kann. Eine ähnlich leistungsfähige Infrastruktur an Entwicklungswerkzeugen, wie sie auf "normalen" Höchstleistungsrechnern heute anzutreffen ist, ist für die hybriden Architekturen bei weitem noch nicht in Sicht. Unter Umständen müssen für solche Systeme komplett neue Programmierparadigmen entwickelt und durchgesetzt werden. Bei den bisher geplanten und realisierten Systemen beschränkt man sich noch auf eine einzige, ganz spezielle Anwendung. Diese wird dann mit großem Aufwand auf das Zielsystem portiert und optimiert.

Auf den Plätzen 169 bis 184 scheint ein weiteres Projekt mit hybrider Architektur seine Schatten vorauszuwerfen: Die dort aufgelisteten Systeme sind mutmaßlich alle Teil des am Los Alamos National Laboratory geplanten RoadRunner-Systems. Dabei werden einem Opteron-Knoten mehrere Cell-Prozessoren als Beschleuniger zur Seite gestellt. Derzeit ist der Cell-Prozessor eher dadurch im Gespräch, dass er in Sonys PlayStation 3 seinen Dienst verrichtet. Das könnte sich mit dem RoadRunner ändern, denn er soll als erster Rechner die PFlop-Grenze durchbrechen. Mehr zu diesem Prozessor lesen Sie in unserem Beitrag Alleskönner oder Hype - der Cell-BE-Prozessor.

Deutschland schwächelt immer noch

Der schnellste Rechner Deutschlands ist weiterhin das BlueGene/L-System JUBL am Forschungszentrum Jülich, das mit seinen gut 37 TFlops jedoch mittlerweile nur noch auf Platz 13 rangiert. Der HLRB-II-Rechner am Leibniz Rechenzentrum in München hat noch nicht seine volle Ausbaustufe erreicht und ist daher unter JUBL auf Platz 18 in die Top500 eingestiegen.

Wie wichtig eine beständige Investition in HPC-Systeme ist, um kontinuierlich den Benutzern in Deutschland kompetitive Systeme anbieten zu können, lässt sich gut an dem zweiten System des Forschungszentrums in Jülich festmachen: Das JUMP-System ist im Juni 2004 an Platz 21 in die TOP500 eingestiegen. Gut 2,5 Jahre später rangiert es jedoch nur noch auf Rang 119.

Insgesamt hat sich die Situation in Deutschland seit der letzten Liste im Sommer nur unwesentlich verbessert. Zwar konnte sowohl, was die Zahl der Systeme angeht, als auch bei der installierten Rechenleistung ein leichter Zuwachs verzeichnet werden. Trotzdem hat Deutschland die Führungsposition in Europa an Großbritannien abgegeben.

Immer mehr CPUs pro System

Auch in der aktuellen Liste ist die mittlere Zahl der Prozessoren pro System wieder gestiegen. Sie liegt inzwischen bei mehr als 2000 CPUs. Interessant ist hier, dass die Zahl der CPUs im letzten noch in der Liste geführten System seit etwa zwei Jahren sinkt, während gleichzeitig die mittlere Zahl der CPUs im selben Zeitraum ein deutlich stärkeres Wachstum gezeigt hat. Letzteres ist wohl vor allem auf die verstärkte Präsenz von BlueGene/L-Systemen zurückzuführen.

Bei den CPU-Herstellern konnte AMD mit seinen Opteron-Prozessoren IBM mit den Power-CPUs von Platz 2 verdrängen – wenigstens wenn man nur die Zahl der Systeme betrachtet. Gewichtet man die Systeme jedoch nach ihrer Leistungsfähigkeit, ergibt sich ein etwas anderes Bild: Dann kann IBM sogar dem Platzhirsch Intel Konkurrenz machen. Hier sammelt IBM mit seinen schnellen BlueGene/L-Systemen Punkte.

Einen neuen Stern am Cluster-Himmel scheint Intel mit der Woodcrest-CPU geschaffen zu haben: Praktisch aus dem Stegreif heraus konnte diese neue Dual-Core-Prozessorarchitektur 6,2 Prozent der Systeme für sich erobern. Jedoch kann Intels Woodcrest noch nicht die Erfolgswelle brechen, die AMD mit seinen Opteron-Prozessoren reitet. Unerfreulich für Intel ist auch, dass die Verbreitung der Itanium-CPU im HPC-Bereich stagniert. Dies wird die Diskussionen um die Zukunft der IA64-Plattform in Höchstleistungsrechnern sicherlich nicht verstummen lassen.

Kampf der Netzwerke, Hersteller und Betriebssysteme

Betrachtet man den Markt der Verbindungsnetzwerke, so kann InfiniBand leicht auf Kosten von Gigabit-Ethernet gewinnen. Trotzdem bleibt Gigabit-Ethernet die dominierende Technologie in diesem Umfeld - wenigstens solange man sich im mittleren und unteren Drittel der Liste bewegt. Bei den wirklich großen Systemen, bei denen verstärkt Probleme der Skalierbarkeit auftreten, herrschen deutlich leistungsfähigere und teurere Systeme vor. Hauptproblem hier ist in der Regel auch nicht der schiere Durchsatz eines Netzwerks, sondern vielmehr eine möglichst geringe Latenzzeit.

Bei den Herstellern dominiert IBM mit einem Marktanteil von fast 50 Prozent der verkauften Leistung die Szene. HP, die unmittelbar nach der Akquisition von Compaq kurzfristig mehr Systeme in der Liste hatten als IBM, ist mittlerweile auf einen Anteil von etwa einem Drittel der Leistung zurückgefallen.

Das Feld der Betriebssysteme ist weiterhin von Linux dominiert. So läuft sogar auf einem Teil der Knoten eines BlueGene/L-Systems Linux als Betriebssystem. Gleichzeitig hat es Microsoft trotz eines nicht unerheblichen Marketingaufwands für Windows Computer Cluster Server nicht geschafft, einen Top500-Rechner mit seinem für HPC optimierten Betriebssystem auszustatten.

Fazit: Der Supercomputer wird grün

Die Zeit scheint vorbei zu sein, in der eine Leistungssteigerung der Systeme durch einfache Adaption der nächsten Prozessorgeneration zu erzielen war. Hier macht sich die Stagnation bei der Taktfrequenz ebenso bemerkbar wie der zunehmende Leistungshunger der Systeme. Den Problemen mit der nicht weiter wachsenden Taktfrequenz weichen die Prozessorhersteller aus, in dem sie mehrere Cores in einem Prozessor unterbringen: Der Trend geht von Dual-Core- über Quad-Core- zu Many-Core-Architekturen. Gerade im Umfeld der Höchstleistungsrechner kommt es nicht nur auf die reine Rechenleistung an. Vielmehr sind hier viele Anwendungen auf eine möglichst große Speicherbandbreite angewiesen. Und diese wächst nicht, wenn man nur mehrere Kerne in ein Prozessorgehäuse packt.

Dem steigenden Leistungshunger der Prozessoren begegnen die Hersteller mit einem verbesserten Power-Management, das große Teile des Prozessors heruntertaktet oder sogar komplett ausschalten kann, wenn sie nicht benötigt werden. Während dies bei einem Desktop-System eher die Regel als die Ausnahme sein mag, sind die Voraussetzungen bei Höchstleistungsrechnern genau umgekehrt: Man setzt hier alles daran, die Prozessoren vollständig auszulasten. Letzten Endes ist man im HPC daher mit einem immer weiter anwachsenden Bedarf an elektrischer Leistung konfrontiert. Bei einem Cluster-System mit einer projektierten Laufzeit von drei Jahren muss man inzwischen mit denselben Kosten für Energieversorgung und Kühlung rechnen, wie sie für die Beschaffung der Hardware anfallen.

Durch diese Kostenstruktur wird klar, dass Energieeffizienz bei HPC eine immer größere Rolle spielen wird. Genau dieser Gedanke spiegelt sich auch in einer Energie-Initiative wider. Sie will entsprechend der TOP500 eine Rangliste schaffen, die die Energieeffizienz der Supercomputer widerspiegelt.

Erste Versuche, eine solche Liste aufzustellen, wurden in Tampa präsentiert und sind im Internet unter http://www.green500.org zu finden. Auch diese Liste führt übrigens IBM mit dem BlueGene/L bei 112 MFlops/W an. Zum Vergleich: Der noch 2004 drittschnellste Supercomputer ASCI Q verschlingt mit 1,4 MFlops/W über 80-mal mehr Energie pro Rechenschritt. (ala)