Petaflop-Könige

Top500 7/2007: Supercomputing-Rangliste und HPC-Trends

09.07.2007 von Dr. Norbert Eicker
Die Spitze der Top-500-Supercomputer führt zwar erneut IBMs BlueGene/L an, aber auf den folgenden Plätzen hat sich einiges getan: Deutschland ist in der Top 10 vertreten und könnte es mit BlueGene/P in Zukunft sogar auf Platz drei schaffen.

Ende Juni 2007 wurde die mittlerweile 29. Ausgabe der Liste mit den 500 schnellsten Computern der Welt vorgestellt. Traditionell erfolgt die Bekanntgabe der Juni-Liste im Rahmen der International Supercomputer Conference (ISC), die dieses Jahr wieder in Dresden stattfand. Die Liste wird zweimal im Jahr veröffentlicht, die nächste Bekanntgabe wird im November im Rahmen des US-amerikanischen Pendant der ISC, der Supercomputer-Konferenz in Reno, erfolgen.

Die offizielle Präsentation der Top 500 nahm auch dieses Jahr wieder Erich Strohmaier von NERSC vor, der die Liste vor mittlerweile 14 Jahren zusammen mit Hans Meuer und Jack Dongarra aus der Taufe gehoben hat. Die Systeme werden dabei gemäß ihrer Leistung beim Linpack-Benchmark eingeordnet. Die dabei behandelte Aufgabe ist die Lösung eines sehr großen, linearen Gleichungssystems – ein Problem, das es in solcher oder ähnlicher Form im Supercomputing recht oft zu lösen gilt.

Während das schnellste System die BlueGene/L-Installation am Lawrence Livermore National Laboratory bleibt, wurden die anderen Platzierungen in der Top 10 ordentlich durcheinandergewürfelt. So stieß das Jaguar-System des Oak Ridge National Lab, eine Maschine vom Typ XT4 des wieder erstarkten Supercomputer-Pioniers Cray, mit 101,7 TFlop/s auf den zweiten Platz vor. Es schlug den früheren Zweitplatzierten, das ebenfalls von Cray gefertigt RedStorm-System am Sandia National Laboratory, mit seinen 101,4 TFlop/s allerdings nur denkbar knapp.

IBM als unangefochtener Platzhirsch

Auf den weiteren Plätzen spielt dann IBM seine derzeitige Dominanz in der Top 10 aus. Dieser Hersteller stellt nun mit sechs Systemen mehr als die Hälfte der Einträge im absoluten High-End-Bereich. Dies hat IBM nicht allein seiner BlueGene-Architektur zu verdanken. Big Blue stellt mit dem ASC-Purple-System, das ebenfalls am Lawrence Livermore Laboratory beheimatet ist, sowie der MareNostrum-Maschine des Barcelona Supercomputing Centers zwei Vertreter in der Top 10, die auf einem klassischen Ansatz von geclusterten Power und PowerPC-Knoten beruhen.

Interessant ist auch, dass Dell, ein Unternehmen, das traditionell nicht unbedingt im Bereich des Supercomputing vertreten ist, seine PowerEdge-Installation am NCSA mit dem achten Rang in der Top 10 behaupten konnte.

Dominant: IBM listet sechs der zehn schnellsten Rechner der Welt. (Quelle: Top500.org)

Das MareNostrum-System auf Platz neun ist auch das erste europäische System in der Liste, gefolgt von HLRB-II des Leibniz Rechenzentrums in München auf dem zehnten Rang. Damit gelang es wieder einer deutschen Installation, in den Kreis der absoluten High-End Systeme vorzudringen. Bei HLRB-II handelt es sich um einen Upgrade der nun bereits zwei Jahre alten SGI-Altix-Installation in München. Dazu wurden die vorhandenen 1-Kern-Prozessoren durch aktuelle Dual-Core-Itanium-II-Prozessoren ersetzt. Zusammen mit anderen geringfügigen Veränderungen war es so möglich, die Leistung des Systems mehr als zu verdoppeln. Mehr zu diesem System lesen Sie in unserem Beitrag Deutschlands neuer Number Cruncher: Der Supercomputer HLRB II.

Deutschland auf dem Vormarsch

Japan hingegen ist nach dem kurzen Intermezzo des TSUBAME-Systems in der aktuellen Top 10 nicht mehr vertreten. Dieses System des Tokyo Institute of Technology rangiert nun auf Rang 14. Insgesamt bleibt die Dominanz der USA bei den Spitzensystemen unverkennbar. Bis zum Platz acht sind alle Systeme dort installiert, bei den Herstellern ist die Dominanz traditionell noch viel stärker zu beobachten.

Länderverteilung: 56 Prozent aller Supercomputer stehen in den USA, dann folgen Großbritannien (8,4 Prozent), Deutschland (4,8 Prozent) und Japan (4,6 Prozent). (Quelle: Top500)

Wenigstens im Bereich der Installationen könnten sich in der nahen Zukunft für Europa einige Verbesserungen erzielen. So bündelt Deutschland derzeit seine Kräfte. Die bisher auf die autonomen Standorte in Jülich (John von Neumann Institut für Computing), München (Leibniz Rechenzentrum) und Stuttgart (HLRS) verteilten Rechenzentren haben das Gauss Center for Supercomputing gegründet. Mit dieser Dachorganisation wollen die drei nationalen Zentren am Schaulaufen für eine europäische Installation im Leistungsbereich von einem PFlop/s (Petaflop, 10^15 Fließkommaoperationen) teilnehmen. Der entsprechende Prozess wurde durch die EU gerade im Rahmen der PACE (Partnership for Advanced Computing in Europe) Initiative gestartet.

Während diese Aktivitäten ihre Wirkung erst im Jahr 2009/2010 entfalten werden, wird es in Jülich jedoch bereits zum Ende des Jahres größere Veränderungen geben. So wurde unmittelbar vor der ISC in Dresden mit IBM ein Vertrag unterzeichnet, in dem die Installation eines der ersten BlueGene/P-Systeme weltweit noch in diesem Jahr vereinbart wurde. Die Spitzenleistung dieser Maschine soll etwa 220 GFlop/s betragen. Jülich hofft, mit dieser Installation in die Top 3 vorzustoßen.

„Grüner“ BlueGene/P am Horizont

Bei BlueGene/P handelt es sich um die konsequente Weiterentwicklung der BlueGene/L-Architektur. IBM hat diese zweite Generation der Architektur in Dresden offiziell vorgestellt. Gleichzeitig gab man bekannt, dass trotz des frühen Zeitpunkts neben Jülich noch weitere feste Bestellungen vorliegen. Dies zeigt, dass IBM mit dieser Architektur offensichtlich einen Nerv getroffen hat.

So spielt Energieeffizienz im Supercomputing bereits heute eine entscheidende Rolle. Dem wurde auch dadurch Rechnung getragen, dass im Rahmen der ISC eine sogenannte BoF-Session zu diesem Thema stattfand, also eine informelle Zusammenkunft der an diesem Thema Interessierten. Bei dieser gut besuchten Veranstaltung wurde klar, dass bereits heute an einigen Standorten die verfügbare Energieversorgung und Kühlleistung mögliche Neuinstallationen oder Erweiterungen beschränken. Der Aufwand für den Ausbau der nötigen Infrastruktur ist so hoch, dass dieser nicht finanzierbar ist.

Auch sind die Folgekosten durch die benötigte Energie nicht zu unterschätzen. So entstehen bei einem Leistungsbedarf von 1 MW jährliche Kosten von etwa 1 Million Euro. Bei einem Petaflop-System würden so Kosten von mehreren Millionen Euro entstehen.

Die BlueGene/P-Architektur begegnet dem Energieproblem, indem die Prozessoren nur 850 MHz getaktete sind. Durch diese relativ niedrige Frequenz ist die CPU bei der Leistungsaufnahme sehr genügsam. Ihr zur Seite stehen ein sehr leistungsfähige Speicher und ein schnelles Netzwerk, wodurch ein sehr balanciertes System entsteht.

Strom sparende Supercomputer als neue Top-500-Kategorie

Die immense Rechenkapazität entsteht durch die massive Parallelität bei einer gleichzeitig sehr kompakten Bauweise. So gelingt es IBM, 1024 Prozessoren mit jeweils 4 Cores in einem Rack unterzubringen. Zwar wird zum Betrieb eines Racks eine Leistung von etwa 40 kW benötigt. Dies stellt in etwa die Grenze dessen dar, was bei Luftkühlung noch beherrschbar ist. Doch dem steht eine Rechenleistung von zirka 13,9 TFlop/s gegenüber. Dies genügt, um mit einem System, das in einem einzigen Rack untergebracht ist, immer noch unter die 100 schnellsten Computer zu gelangen. Stellt man Rechenleistung und Leistungsaufnahme ins Verhältnis, kommt man zu einer derzeit unschlagbaren Energieeffizienz.

Tatsächlich sind die Autoren der Liste so weit gegangen, die BlueGene-Systeme bei der Klassifizierung des Maschinetyps in eine eigene Kategorie zu stecken, die sie „power-efficient designs“ nennen. Sie prophezeien, dass diese die kommende Generation der Höchstleistungsrechner darstellen werden. Anhand der zeitlichen Entwicklung der Anteile der Rechnerarchitekturen glauben die Macher der Top-500-Liste, dass im HPC die Architekturen in Zyklen von zehn Jahren kommen und gehen.

Evolution: Noch dominieren die Cluster, doch BlueGene nagt schon an deren Anteil. (Quelle: Top500.org)

So sterben derzeit die Vektor- und SIMD-Systeme aus, die noch in den 90er-Jahren die Liste dominiert hatten. Die derzeit vorherrschende Architektur wird durch die Cluster gestellt. Die neue, aufstrebende Architektur sei hingegen die „power-efficient designs“ wie eben IBMs BlueGene. Es bleibt abzuwarten, ob sich diese Systeme wirklich gegen die deutlich flexibler einzusetzenden Cluster-Systeme auch in der ganzen Breite des HPC-Markts durchsetzen können.

HP kommt zurück

Obwohl IBM die Spitze der Liste dominiert – so hat der Hersteller 23 der ersten 50 Systeme geliefert – zeichnet für die meisten Systeme in der Liste Hewlett-Packard verantwortlich. So hat HP 40,6 Prozent aller Systeme geliefert, IBM hingegen nur 38,4 Prozent. An dritter Stelle folgt bereits Dell mit 4,6 Prozent der Systeme. Damit ist es HP nach vier Jahren gelungen, wenigstens diese Krone von IBM zurückzuerobern.

HP stark: Zählt man nur die Anzahl der Systeme, liegt HP an erster Stelle. (Quelle: Top500.org)

Geradegerückt wird das Verhältnis jedoch, wenn man die installierte Rechenleistung betrachtet. Hier hat IBM mit 41,6 Prozent die Nase deutlich vor HP mit nur 24.3 Prozent. Auch in dieser Kategorie folgt bereits an dritter Stelle Dell mit 8,8 Prozent, noch vor den etablierten Supercomputerlieferanten Cray mit 7,3 Prozent und SGI mit 5,7 Prozent.

Es zeigt sich, dass HP vor allem bei den kleineren Systemen in der Liste punkten kann, bei den großen Systemen jedoch gar nicht vertreten ist. So ist keines der ersten 50 Systeme von Hewlett-Packard geliefert worden, das erste HP-System rangiert erst auf Rang 61. Dell hingegen stellt beachtliche 9 der ersten 50 Systeme.

Intel schlägt zurück

Die Stärke HPs bezüglich der Zahl der Systeme ist vor allem auf eine immense Anzahl an Installation mit der neuen Woodcrest-Generation der Xeon-Prozessoren von Intel zurückzuführen. Mittlerweile sind 46,2 Prozent aller Systeme mit solchen Prozessoren ausgestattet. Damit hat Intel zum einen den Rivalen AMD deutlich in die Schranken gewiesen, der mit seinen Opteron-Prozessoren Intel in den letzten Jahren kräftig zugesetzt hatte. Zum anderen ist daran abzulesen, dass sich Intel in seiner HPC-Strategie mittlerweile auf die Xeon-Prozessoren zu konzentrieren scheint: Die Itanium-Prozessoren finden in Intels HPC-Roadmap kaum noch Beachtung, und auch die Zahl der Systeme in der Top-500-Liste geht zurück.

Xeon-Parade: Die verschiedenen Xeons von Intel arbeiten in mehr als der Hälfte aller Supercomputer. Dabei ist der Xeon 51xx Woodcrest der echte Renner. (Quelle: Top500.org)

Überhaupt scheint Intel den Bereich des High-Performance-Computing als neues strategisches Feld entdeckt zu haben. Dies spiegelt sich nicht nur in dem starken Auftreten auf der diesjährigen ISC wider, sondern auch in der Initiative im Bereich der Cluster-Kompatibilität. So stellte Intel auf der ISC sein „Cluster Ready Program“ vor, mit dem Intel Cluster-Hardware und zugehörige Software zertifizieren möchte.

Damit soll eine Kompatibilität zwischen den verschiedenen Hard- und Softwarekomponenten eines Clusters garantiert werden. So muss für den praktischen Einsatz eines Clusters beim Kunden letzten Endes weniger Know-how vorhanden sein. Auch soll es die Last von den Softwareherstellern und Systemintegratoren nehmen, bei einer wachsenden Anzahl an Komponenten alle möglichen Kombinationen von Bausteinen mühsam in ihrer Wechselwirkung zu testen.

Kurze Lebensdauer in der Top 500

Interessant bleibt die Verteilung der Systeme auf Staaten beziehungsweise Regionen. Dominant ist in dieser Kategorie die USA. Immer noch ist mehr als die Hälfte aller Systeme dort installiert. Erstaunlich ist jedoch, dass es Deutschland mit 24 Systemen wieder geschafft hat, an Japan mit 23 Systemen vorbeizuziehen. An erster Stelle in Europa und auf dem zweiten Rang weltweit ist immer noch Großbritannien mit nun 46 Systemen. China ist jetzt gleichauf mit Frankreich, wo jeweils 13 Systeme installiert sind.

Ohnehin ist die starke Dynamik zwischen der November-2006-Liste und der aktuellen bemerkenswert. So wäre das derzeit letzte System, ein HP-Integrity-Superdome bei BMW in München, mit seinen 4 TFlop/s noch im November auf Rang 216 gelandet. Damit sind etwa 60 Prozent der Maschinen aus der Top500 herausgefallen; so viele, wie niemals zuvor in der 14-jährigen Geschichte.

Schnelles Sterben: Innerhalb eines halben Jahres sind 284 alte Systeme durch schnellere aus der Top 500 verdrängt worden. (Quelle: Top500.org)

Bei den Netzwerken scheint sich derzeit InfiniBand durchzusetzen. So hat die Zahl der Systeme mit dieser Technologie von 78 auf 127 zugenommen. Gleichzeitig kann Ethernet seinen Marktanteil von etwa 40 Prozent jedoch halten. Bemerkenswert ist hier, dass es nur eine einzige Maschine mit Gigabit Ethernet unter die ersten 50 geschafft hat. Damit deutet sich eine Marktaufteilung an, bei der Gigabit Ethernet vor allem bei kleinen und mittleren Systemen dominiert. Dort spielt die Kommunikation der Rechenknoten nur eine untergeordnete Rolle. Sobald jedoch eine kleine Latenz und große Bandbreite gefordert sind, kommt InfiniBand zum Einsatz.

Diese Aussage trifft natürlich nur für die klassischen Cluster-Systeme zu. Proprietäre Systeme wie etwa BlueGene, Cray XT3 und XT4 oder auch die SGI-Altix-Maschinen bringen jeweils eigene Netzwerktechnologien mit. Hier ist das Netzwerk jedoch so tief ins System integriert, dass der Kunde keine Wahlmöglichkeit in diesem Bereich hat.

Immer mehr Ebenen der Parallelität

Der Trend zu immer mehr Knoten und Prozessoren hält ungebremst an. Hier macht sich vor allem bemerkbar, dass in mehr und mehr Systemen Dual-Core-Prozessoren zum Einsatz kommen. Auch sind bereits die ersten Maschinen in der Liste, bei denen in jeder CPU vier Kerne arbeiten. Während dieser Trend auf der einen Seite der Leistungseffizienz zugutekommt, verschlechtert sich dadurch oft die zur Verfügung stehende Speicherbandbreite pro Fließkommaoperation. Da viele HPC-Anwendungen darauf sehr sensitiv reagieren, stellen sich damit neue Herausforderungen an die Softwarehersteller.

Projektion: Hat ein Supercomputer in zehn Jahren über eine Million Prozessoren? (Quelle: Top500.org)

Auch die Zahl der Ebenen, auf denen man mit der Parallelität umgehen muss, steigt weiter an. Dies wird am Beispiel eines Knotens mit zwei Sockeln klar: Während noch vor zwei Jahren in einem solchen Knoten zwei Prozessoren mit einem Kern und jeweils eigenem L1- und L2-Cache zu finden waren, steckt heute in jedem Sockel eine CPU mit zwei oder sogar vier Kernen. Jeder Kern hat zwar einen eigenen L1-Cache, bereits die L2-Caches werden jedoch oft von mehreren Kernen geteilt. Noch mehr Kerne teilen sich dann schließlich einen eventuell vorhandenen L3-Cache.

Gleichzeitig wird der Hauptspeicher direkt an einen Sockel gebunden, bei AMD seit Einführung des Opteron, Intel wird im kommenden Jahr damit nachziehen. Somit ist bereits im Knoten selbst eine NUMA-Architektur (non-uniform memory-access) vorzufinden ist. Über allem spannt sich dann natürlich das Netzwerk zwischen den Knoten. Diese vielen verschiedenen Ebenen von Parallelität müssen sich dann natürlich in der Struktur der verwendeten Programme und Bibliotheken wiederfinden, um das Leistungspotenzial der Maschinen wirklich nutzbar machen zu können.

Fazit

Der Trend zu multi-core- und many-core-Architekturen ist ungebremst. Der von IBM entwickelte Cell-Prozessor, der in der Playstation 3 bereits millionenfach zum Einsatz kommt, ist mit seinen 9 heterogenen Kernen dabei nur der Anfang.

Clearspeed hat eine Erweiterungskarte im Angebot, auf der ein Prozessor mit 96 Kernen arbeitet und die im japanischen TSUBAME-System zum Einsatz kommen. NVIDIA präsentierte auf der ISC den G80-Prozessor mit 128 Kernen. Er nutzt Technologien, die ursprünglich für Grafikkarten entwickelt wurden, nun auch für HPC-Anwendungen. Und auch Intel wirbt bereits seit einiger Zeit mit seiner Polaris-CPU. In diesem Forschungsprojekt soll eine CPU mit 80 Kernen zusammen mit innovativen Technologien der Speicheranbindung entwickelt werden. Ein Exemplar dieser CPU war auf dem Intel-Stand zu bewundern.

Eine positive Überraschung der ISC war der Auftritt zweier alter Mitspieler im High-Performance-Computing, SGI und SUN. SGI scheint die wirtschaftlichen Turbulenzen der letzten Jahre überstanden zu haben und stellte in Dresden mit ICE (Integrated Compute Environment) eine neue Plattform vor. In ihr sollen die Vorteile von Cluster mit denen der Altix-Plattform verschmolzen werden. Sie stellt zugleich den Abschied von SGI vom Itanium dar. Auch SUN scheint den Bereich HPC nach einigen Jahren Abstinenz als strategisches Feld wiederentdeckt zu haben. Dies mag auch daran abzulesen sein, dass Andy Bechtolsheim, Mitbegründer und mittlerweile „Chief Architect and Senior Vice President, Network Systems“, in Dresden anwesend war. (ala)