Die schnellsten Rechner der Welt

Top500 7/2003: Supercomputing-Rangliste und HPC-Trends

10.07.2003 von UWE HARMS 
Nur die Hälfte aller Systeme der letzten Liste hat es erneut unter die Top500 geschafft, die Rechenleistung stieg weltweit um 30 Prozent - doch der schnellste Rechner bleibt weiterhin NECs Earth Simulator.

Seit zehn Jahren veröffentlichen Professor Hans Werner Meuer (Universität Mannheim), Jack Dongarra (ICL, Universität Tennessee), Horst Simon und Erich Strohmaier (beide NERSC, Berkeley) die Liste der 500 schnellsten Rechner der Welt und bieten damit einen Einblick in die Entwicklung des Supercomputing. Diesmal präsentierte das Top500-Team die neuesten Ergebnisse der 21. Top500-Liste vom Juni 2003 auf der International Supercomputer Conference vom 24. bis 27. Juni in Heidelberg. Außerdem haben die Forscher die Website der Top500-Supercomputer neu strukturiert, so dass jetzt auch die Historie aller Top500-Listen angezeigt werden kann.

Im ersten Teil dieses Artikels erfahren Sie, was sich in der aktuellen Top500-Liste verändert hat. Anschließend berichten wir über die aktuellen Trends der Heidelberger Konferenz und über die für die kommenden Jahre erwarteten Entwicklungen bei Supercomputern. Mehr zu Historie, Grundlagen und Einsatzgebieten der schnellsten Rechner der Welt lesen Sie in unserem Beitrag Supercomputing. Eine Tabelle mit allen aktuellen Top500-Computern und deren technischen Daten finden Sie hier sowie über den Link in der rechten Navigation. Wie alle tecCHANNEL-Tabellen können Sie auch diese beliebig sortieren und nach Ihren Wünschen filtern.

NEC, HP und dann ein kleiner Xeon-Cluster

In dem halben Jahr, seit das Top500-Team im November 2002 die letzte Rangliste vorgestellt hat, wuchs die Rechenleistung weltweit um fast 30 Prozent von 290 TFlop/s (TeraFlops, Billionen Rechenoperationen pro Sekunde) auf 375 TFlop/s. Die Einstiegsleistung, Platz 500, erhöhte sich von 196 auf 245 GFlop/s (GigaFlops). Dadurch fielen gleich 214 Systeme aus der Liste.

Doch immer noch führt der Earth Simulator in Japan, geliefert von NEC, mit fast 36 TFlop/s Linpack-Leistung unangefochten die Liste an. Die Rechenleistung des Earth Simulator entspricht rund zehn Prozent der aufsummierten Top500-Leistung. Er ist um den Faktor 2,6 schneller als die neue Nummer 2 von Hewlett-Packard, der ASCI Q, der zur Simulation von Atombomben am Los Alamos Lab eingesetzt wird. Dort wurden zwei Alpha-Systeme, die bislang auf Platz 2 und 3 lagen, zu einem System zusammengeschaltet. Mit 8192 Alpha-Prozessoren erreicht es im Linpack-Test fast 14 TFlop/s.

Beim Cluster von Linux Networx mit 2304 Intel Xeon-Prozessoren (2,4 GHz) optimierte der Hersteller das System und das Linpack-Programm und steigerte die Leistung von 5,7 TFlop/s auf jetzt 7,7 TFlop/s. Damit sprang es auf Platz 3. Es ist schon erstaunlich, dass sich ein System auf Basis von "nur" 2304 Intel IA-32-Prozessoren soweit vorne platziert und IBMs ASCI White mit 3,5-mal so vielen Prozessoren schlägt.

Linux und Intel auf dem Vormarsch

Insgesamt betrachtet haben sich die auf Standardprozessoren basierenden Linux-Cluster - mit Intel und AMD IA-32 sowie Intel Itanium IA-64 - in der Top500 vorgearbeitet. 97 Pentium-Cluster stehen 12 AMD- und insgesamt 12 Itanium-Cluster gegenüber. Sie stellen fast 25 Prozent der aggregierten Leistung der Top500-Liste. Im November 2002 waren nur 63 derartige Systeme zu finden.

Von den Top10-Systemen sind sieben in den USA installiert, zwei in Japan und eins in Frankreich. Auch bei den Top20 bietet sich ein ähnliches Bild, nur dass hier noch drei Rechner in Großbritannien hinzukommen. Die USA beherrschen die Supercomputer-Installationen mit 250 Systemen mit 202 TFlop/s, gefolgt von Deutschland mit 54 Rechnern und 27 TFlop/s. Leistungsmäßig schiebt sich der Stückzahl-Dritte Japan mit seinen 40 Rechnern jedoch noch vor Deutschland. Über die Hälfte von Japans 63 TFlops stammen von nur einer Maschine - dem Earth Simulator.

Bei den Herstellern hat Hewlett-Packard stückmäßig mit 159 knapp die Nase vor IBM mit 158 und SGI mit 54. Dagegen trumpft IBM bei der Leistung auf: 131 TFlop/s, 35 Prozent der gesamten Leistung kommen von Big Blue. HP schafft "nur" 90 TFlop/s, rund 24 Prozent, und ist damit Leistungszweiter. Platz 3 erobert sich NEC mit 44 TFlop/s, fast zwölf Prozent der aufsummierten Top500-Leistung.

Deutschland fällt zurück

Deutschland ist gegenüber der Novemberliste 2002 von 71 auf 54 Rechner zurückgefallen. Die Leistung stieg nur moderat von 25 TFlop/s auf 27 TFlop/s. Da das neue Rechnergebäude am Forschungszentrum Jülich noch nicht vollendet ist, muss Deutschlands zukünftiger Spitzenreiter, ein IBM p690 Komplex (Regatta), weiter auf die vollständige Installation warten. Nachdem im letzten Jahr 5,8 TFlop/s Spitzenleistung für das System angekündigt wurden, könnte die Leistung durch die neuen Prozessoren Power 4+ sogar 30 Prozent höher ausfallen und auf 7,5 TFlop/s anwachsen.

Doch bis zur Fertigstellung steht der schnellste Rechner der Bundesrepublik immer noch in Garching bei der Max-Planck-Gesellschaft. Er ist mit seinen 2 TFlop/s Maximalleistung von Platz 21 auf Platz 24 zurückgefallen. Der Garchinger Rechner basiert auf der IBM p690 und hat mit 768 Power-4-Prozessoren sogar eine theoretische Spitzenleistung von 4 TFlop/s.

Auch die deutsche Nummer 2 findet sich in Bayern, das Leibniz-Rechenzentrum in München erreicht Platz 29 mit 1,7 TFlop/s bei einer Spitzenleistung von 2 TFlop/s. Nach dem Ausbau auf 192 Vektorprozessoren schiebt sich das Deutsche Klimazentrum mit 192 NEC SX-6-Prozessoren auf Platz 33, mit 1,48 TFlop/s bei 1,54 Spitzenleistung. Die beiden Rechnerkomplexe des HLRN in Berlin und Hannover landen als Einzelsysteme mit jeweils 1 TFlop/s auf den Plätzen 54 und 55.

Neues von der 18. Supercomputer-Konferenz

Inzwischen hat sich die Supercomputer-Konferenz in Heidelberg etabliert und so lockte sie auch diesmal wieder etwa 450 Teilnehmer an den Neckar. Daneben kamen zahlreiche Tagesbesucher in die Ausstellung mit 41 Unternehmen. Sie gliederten sich in Hard- und Software-Hersteller, Interconnect- und HPC-Lösungsanbieter (High-Performance Computing) sowie internationale HPC-Zentren. Folgende Themen dominierten die Tagung:

Bei den Herstellerpräsentationen berichteten 14 Aussteller in Zehn-Minuten-Vorträgen über neue Produkte oder Entwicklungen. Erstmals durften "Inquisitoren" dabei auch kritische Fragen stellen.

Data-Mining in Petabyte-Dateien

Jim Gray, Microsoft Research, präsentierte in seiner Keynote neue Aspekte beim Verarbeiten und Analysieren riesiger Datenmengen. Diese entstehen bei Versuchen, Beobachtungen oder numerischen Simulationen und werden in Datenbanken oder großen Dateien gehalten.

Nach Gray gibt es jetzt zwei Zweige der Computational Science: Comp-X und X-Info. Dabei steht X meist für Physik, Chemie, Bio, Öko, Astro, Kunst oder Musik. Traditionell nutzt man Supercomputer im Comp-X-Zweig, um komplexe dynamische Systeme zu modellieren, für die keine geschlossene Lösung existiert. Aber nun erhält die Wissenschaft neue Instrumente, einschließlich Simulationen, die ungeheure Datenmengen erzeugen.

So entsteht derzeit der neue X-Info-Zweig, der Informationen aus diesen Daten extrahiert. Als Beispiel nannte Gray den Large Hadron Collider bei CERN, der ab 2007 1 GByte/s an Messdaten produziert - rund 10 PByte (Petabyte) pro Jahr.

Beim Zugriff auf solche Datenmengen stößt man schnell an Grenzen. Bei einer Suchgeschwindigkeit von 1 MByte/s muss der Anwender drei Jahre auf die Auswertung von 1 PByte warten. Statt exakter Verfahren schlug Gray daher heuristische Methoden vor, die speziell an das jeweilige Problem angepasst sind.

Gray fand es übrigens paradox, dass die schnellsten und größten Datenbankanalysen nicht aus dem wissenschaftlichen, sondern aus dem kommerziellen Bereich stammen: Der Verkaufsagent des weltweit agierenden Handelskonzerns Wal-Mart arbeitet auf einer 300-Tbyte-Datenbank und sorgt durch Data-Mining und Visualisierung für Transparenz des Inhalts.

Supercomputing in der Sackgasse

Horst Simon, Direktor des NERSC -Rechenzentrums (National Energy Research Scientific Computing) in Berkeley, beklagte in seiner Keynote, dass das Supercomputing mit Standardkomponenten (Off-the-Shelf Supercomputing) eine Sackgasse sei. NERSC ist eines der größten Rechenzentren weltweit und die Nummer 5 in der aktuellen Top500-Liste.

Supercomputing im Petaflop-Bereich hat in den letzten fünf Jahren keine Fortschritte erzielt. Das unterstreichen laut Simon auch die schlechten Benchmark-Ergebnisse auf den neuen Rechnern. Sein Vorschlag daher: "Supercomputer müssen unter Berücksichtigung wissenschaftlicher Anwendungen entwickelt werden."

Simon ging dann auf den Earth Simulator ein und hob hervor, dass dieser kein Spezialrechner sei und auf der NEC SX-5/6-Vektorrechner-Technologie basiere. Dennoch zeige er eine hohe Anwendungsleistung. Daraus leitete Simon ab, dass eine optimierte Architektur für wissenschaftliche Applikationen erforderlich ist. Dazu sollte eine Rückkopplung und ein Austausch zwischen der Wissenschaft und dem Rechnerentwurf erfolgen.

In den neunziger Jahren liefen in den USA mehr als 50 Supercomputer-relevante Projekte, heute sind es nur noch eine Hand voll. Derzeit interessiere sich niemand für parallele Sprachen und Werkzeuge, beklagte Simon.

Neue Architekturen und Standardkomponenten

Simon wies speziell auf die Bandbreiten der Interconnects hin, die heute schlechter sind als bei der Cray T3E von 1996. Am Anfang des Off-the-Shelf-Computing war der Mikroprozessor der zentrale Baustein. Heute sind es hoch integrierte Boards mit 32 und mehr Prozessoren. Allerdings skaliert laut Simon deren Kommunikations- und Speicherbandbreite nicht mit der Prozessorleistung. Auch sind die physikalische Größe und der Energieverbrauch der Rechner im Fabrikhallenformat kaum mehr tragbar.

Horst Simon schlug eine neue Strategie vor. Anwendungsteams sollen neue Architekturen entwerfen und dabei vorhandene Komponenten nutzen. Zusätzlich müssten Forschungsprototypen in neue Architekturen eingehen und in Kooperation mit den Herstellern Rechner für die Wissenschaft entstehen.

Als Beispiel einer derartigen Zusammenarbeit nannte er das Projekt Red Storm. Sandia Lab und Cray sind die Partner. Red Storm hat 108 Knoten mit 10.368 AMD Opteron-Prozessoren. Er wird 20 TFlop/s Spitzenleistung bei weniger als 2 MWatt Leistungsaufnahme und einem Flächenbedarf von nur 330 Quadratmeter bieten. Red Storm ist ein echter MIMD-Rechner (Multiple Instruction Multiple Data), ein massiv-paralleles System mit verteiltem Speicher.

"Mit Business as usual erhält die USA nicht die Führerschaft im wissenschaftlichen Rechnen. Neue Architekturen, optimiert für die Forschung, sind entscheidend für die Wissenschaft des 21. Jahrhunderts. Die amerikanische Wissenschaft benötigt dringend eine Strategie, um kosteneffiziente, wissenschaftsgetriebene Computerarchitekturen zu entwickeln", schloss Horst Simon seine Keynote.

Neue Software für "hungrige" CPUs

Architektur und Software für das effektive Terascale-Computing sind voneinander abhängig. Thomas Sterling vom California Institute of Technology meinte, dass die Leistung, die Kosten pro Rechenzeit und die Programmierbarkeit simultane und voneinander abhängige Innovationen in der Systemarchitektur und Software erfordern.

Als größtes Hindernis für eine höhere Rechenleistung nannte er die Latency, die Verzögerungszeit beim Übertragen von Nachrichten an andere Prozessoren oder an den Speicher. Sie lässt den Prozessor "verhungern", da er die Daten zum Verarbeiten nicht schnell genug erhält. Hier helfen laut Sterling nur neue Software und Algorithmen, die diesen Hardware-Mangel intelligent ausgleichen.

Eine andere Einflussgröße auf die effektive Rechenleistung ist das Laufzeitsystem des Computers. Es kann feinkörnig Ressourcen und Daten in Abhängigkeit von der Anwendung manipulieren. Hier entsteht derzeit eine stärkere Einbeziehung des Compilers in die Ressourcenverteilung, der entsprechende Informationen für jedes Programm bereitstellt. Ein Control-Entscheidungsbaum kann dann Informationen vom Nutzer, dem Programm, dem Compiler und der Hardware zur Laufzeit sammeln. Hieraus berechnet er die beste Verteilung der Ressourcen und optimiert damit das Task-Scheduling.

Hundertfache Rechenleistung nötig

Da der japanische Earth Simulator schon im letzten Jahr die Supercomputer-Welt aufrüttelte, hatte Professor Hans Werner Meuer eine spezielle Sitzung über das Modellieren des Erdsystems organisiert. Walter Zwieflhofer vom ECMWF (Europäisches Zentrum für die mittelfristige Wettervorhersage, Großbritannien) untersuchte optimale Architekturen für die Klimasimulation. Seine Erfahrungen mit Vektorrechnern zeigen, dass bei wissenschaftlichen Applikationen diese Architektur zwischen 20 und 50 Prozent der Spitzenleistung erreicht. Skalarsysteme liegen nur bei fünf bis 15 Prozent der Spitzenleistung.

Für Ulrich Cubasch von der Freien Universität Berlin reichen die derzeitige Rechenleistung und die Speichermöglichkeiten nicht aus. Für ein globales Atmosphärengitter mit 50 Kilometer Auflösung benötigt man die hundertfache Rechenleistung. Für historische Simulationen sind die 1000fache und für die Simulation der Eiszeiten gar die 100.000fache Rechenleistung nötig. Es besteht also weiterhin ein immenser Bedarf, den die 50 Millionen Euro Investitionssumme für die nächsten zehn Jahre am Deutschen Klimarechenzentrum sicher nicht decken können. (ala)

Eine Zusammenfassung der Vorträge, Podiumsdiskussionen, Herstellervorträge und weitere Informationen der International Supercomputer Conference 2003 in Heidelberg finden sich in englischer Sprache auf Primeur Live und auf der Website der International Supercomputer Conference . Ab 7. Juli 2003 ist über die Website www.supercomp.org eine CD-ROM der Vorträge der ISC2003 für 50 Euro erhältlich.