10 Teraflops im Eigenbau

15.01.2004 von ALBERT  LAUCHNER und UWE HARMS 
Ein 'billiger Eigenbau-Cluster' auf der Basis von Apple G5-Rechnern hat es auf Anhieb auf den dritten Platz der Supercomputer-Top500-Rangliste geschafft. Jetzt stellt sich die Frage nach dem Sinn 'echter' Superrechner.

Ein Eigenbau-Cluster aus Apple G5-Desktop-Rechnern ist die große Überraschung der aktuellen Top500-Liste. Diese 22. Version der Liste der Superlative wurde im November 2003 auf der Supercomputer-Konferenz in Phoenix, USA, vorgestellt. Auf dem dritten Platz befindet sich dort der "X" von der Terascale Computing Facility des Virginia Polytechnic Institute. Der aus Standard-Apple-Computern zusammengesetzte Cluster übersprang auf Anhieb als dritter Rechner überhaupt die 10-TFlop/s-Hürde. In ersten Tests erreichte er 10,28 TFlop/s (Billionen Rechenoperationen pro Sekunde), die Spitzenleistung beträgt sogar 17,6 TFlop/s.

Das Cluster besteht aus 1100 Apple G5-Systemen - sprich Knoten. Jeder Knoten verfügt über zwei IBM PowerPC970-Prozessoren, die mit 2 GHz getaktet sind. Weiterhin ist jeder Knoten mit 4 GByte Hauptspeicher und einer 160-GByte-Serial- ATA-Festplatte ausgestattet. Insgesamt kann der Cluster somit auf 4,4 TByte RAM und 176 TByte externen Speicher zugreifen.

Für einen Apfel und ein Ei

Die Kommunikation der Knoten läuft ebenfalls über preisgünstige Standard-Hardware in Form von Mellanox InfiniBand-Komponenten und einem Cisco Gigabit-Ethernet. Erste Applikationen arbeiten schon seit Herbst 2003 im Testbetrieb auf dem Supercluster, im Januar 2004 soll er mit dem Produktivbetrieb starten.

Die Hardware-Kosten des Eigenbau-Clusters belaufen sich auf lediglich 5,2 Millionen US-Dollar für Rechner, Speicher, Vernetzung und Verkabelung. Zusätzlich gab die Universität noch zwei Millionen für das Gebäude, eine Million für das Luftkühlungssystem und eine Million für die unabhängige Stromversorgung aus. Somit liegen die Gesamtkosten unter 10 Millionen US-Dollar.

Vergleicht man diese Zahl mit den 215 Millionen US-Dollar für den nur unwesentlich schnelleren ASCI Q (Platz 2) und den 350 Millionen US-Dollar für den Earth Simulator (Platz 1) wird klar, für welches Aufsehen der "X" in der Branche sorgt.

Ziele des Terascale-Systems

Da das Virginia Tech erstklassige Forschung und Lehre im Bereich Informatik- und Ingenieurswissenschaften betreibt, ist die Hochschule auch auf einen erstklassigen Rechner angewiesen. Dieser soll einen breiten Anwendungsraum von Forschungsaktivitäten in den Bereichen Informatik, Computational Sciences und Ingenieurswesen unterstützen.

In Zukunft sollen auf dem X-Cluster sowohl Produktions- als auch Forschungsjobs laufen. Zusätzlich soll die interfakultative Zusammenarbeit zwischen Forschern, dem Rechenzentrum, akademischen Bereichen und externen Wissenschaftlern gefördert werden. Als Anwendungen sieht Virginia Tech unter anderem:

Der Weg zum Terascale-Cluster

Bei der Anschaffung eines neuen Hochleistungsrechners für das Virginia Polytechnic Institute schränkte ein enges Budget die Auswahl stark ein. Daher schieden Komplettsysteme der einschlägigen Supercomputer-Anbieter aus. Off-the-shelf-Rechner, bestehend aus Standardkomponenten von der Ladentheke, schienen die richtige Lösung zu sein.

Verhandlungen mit Dell über ein Intel Itanium-2-System scheiterten aber aus Kostengründen. Als Nächstes evaluierte die Hochschule 64-Bit-Rechner von IBM, AMD und Hewlett-Packard. IBM-Rechner mit dem PowerPC 970 schieden durch den späten Liefertermin (frühestens Anfang 2004) aus. Die Computer der anderen Hersteller waren bei der geplanten Rechenleistung mit neun bis elf Millionen US-Dollar allein für die Rechner-Hardware zu teuer.

Apple kündigte jedoch schon im Juni 2003 den G5 mit IBM PowerPC-970-Prozessor an - eine neue Chance für Virginia Tech. Projektleiter Dr. Srindhi Varadarajan - der bis dahin noch nie an einem Apple-Computer gearbeitet hatte - nahm mit Apple Kontakt auf und evaluierte, ob sich der G5 für den geplanten Rechner eigne.

Die PowerPC-970-CPU im G5 basiert auf IBMs Power4-Architektur, enthält aber statt der dabei üblichen vier nur einen Prozessor. Dafür bietet die "Billigversion" über die extra für Apple hinzugefügte AltiVec-Einheit eine SIMD-Unterstützung (Single Instruction Multiple Data). Die SIMD-Spitzenleistung bei 2 GHz Takt liegt bei 16 GFlop/s, parallel dazu stehen theoretisch sogar noch einmal 8 GFlop/s aus den beiden klassischen Arithmetikeinheiten zur Verfügung.

Wird etwa ein bestehendes Fortran-Programm mit dem VAST-Präprozessor in ein C-Programm mit VMX-Befehlen (Vektorbefehlen) umgewandelt, kann es die SIMD-Einheiten ohne Anpassungen nutzen. Durch diese etwas umständlich anmutende Technik konnte man aber beispielsweise bei der BLAST-Suche, dem Vergleich von Genketten, einen Leistungszuwachs um den Faktor 2 bis 3 erzielen.

Aufbau des X-Clusters

Nach einer kurzen Testphase orderte Varadarajan 1100 Dual-Prozessor PowerMac G5 aus dem Apple Store. Zum damaligen Zeitpunkt hoffte er zwar insgeheim, mit seinem X-Cluster in die Top10 der Supercomputer-Rangliste vorzustoßen. Doch die tatsächliche Performance war theoretisch nicht abzuschätzen.

Die Rechner trafen bald darauf zwischen dem 5. und 11. September 2003 ein. Gemeinsam mit Apple-Experten bauten 165 Studenten und Wissenschaftler der Fakultät das knapp zwanzig Tonnen schwere Monster aus G5-Rechnern, Routern und anderen Komponenten innerhalb von zehn Tagen zusammen. Bereits am 23. September konnten sie die ersten Testprogramme auf dem Cluster starten.

Vernetzung

Für die Vernetzung der G5-Rechner wählte Virginia Tech die kalifornische Mellanox Technologies, einen der führenden Hersteller von InfiniBand-Lösungen. Sie lieferten das primäre Kommunikationssystem, bestehend aus PCI-X-InfiniBand-Karten und InfiniBand-Switches.

Die 1100 Cluster-Knoten tauschen über das InfiniBand-Netz die Daten aus, die für die Berechnung wichtig sind. Die Topologie des Netzwerks ist ein "Fat Tree": Jedem Knoten steht darin eine Bandbreite von 20 Gbit/s (Gigabit pro Sekunde) zur Verfügung. Ebenso entscheidend wie die Datentransferrate ist die Latenzzeit: InfiniBand bietet bei kurzen Datenpaketen Verzögerungen von unter 7 µs.

Als Schaltzentralen setzt Mellanox zwei Dutzend 96-Port-InfiniBand-Switches ein. Jeder Switch hat eine Bandbreite von 1,92 Tbit/s. Damit kann der Cluster eine aggregierte theoretische Bandbreite von 46 Tbit/s nutzen.

Für das zweite Kommunikationsnetz wählte Virginia Tech Cisco Systems. Das Unternehmen gewährte einen großzügigen Forschungsrabatt und sorgte für die Gigabit-Verbindungen via Ethernet.

Kühlung

Die 1100 Apple G5-Computer geben reichlich Abwärme an die Umgebungsluft ab. Bei konventioneller Luftkühlung hätte die Luft mit einer Geschwindigkeit von 100 km/h im Doppelboden zirkulieren müssen, um die Wärme abzuführen. Varadarajan musste daher nach einem geeigneteren Kühlsystem suchen.

Liebert, ein Geschäftsbereich von Emerson Network Power, bietet passende Kühlungstechniken für eng gepackte Hochleistungsrechner. Die hier eingesetzte arbeitet wie ein verteilter Kühlschrank. Mit gekühlter Flüssigkeit speist sie kleine Wärmetauscher über den G5-Regalen, die die Umgebungsluft kühlen. Ohne diese Technik würde die Temperatur im Rechnerraum innerhalb von zwei Minuten auf über 100 Grad Celsius steigen und Komponenten zerstören.

Zusätzlich konstruierte Emerson eine ausfallsichere Stromversorgung, die die Rechner und die Kühlanlage bei Stromausfällen schützt. Der Dieselgenerator der Notstromversorgung muss dafür 1,5 MW leisten können. Im Normalbetrieb verheizt Virginia Techs X bis zu 3 MW.

Ausfallsicherheit und Software

Ein großes Problem beim Einsatz von Standardkomponenten und der großen Zahl von Prozessoren, Speichern und Platten ist die hohe Ausfallwahrscheinlichkeit. Fällt ein einzelner Apple G5 jedes Jahr statistisch nur ein paar Minuten aus, so hat der Cluster aus 1100 Rechnern rein rechnerisch täglich mit einem Hardware-Ausfall zu kämpfen. Längere Berechnungen wären somit kaum möglich.

Varadarajan und sein Team entwickelten daher das fehlertolerante Software-System Dejavu, das dem X die Zuverlässigkeit eines klassischen Supercomputers verleiht. Es verbirgt Hardware-, Betriebssystem- sowie Software-Fehler und kopiert Daten von defekten Komponenten oder Blöcken auf die noch arbeitenden Teile des Clusters. Ein Komponentenausfall führt dadurch nicht zum Zusammenbruch des gesamten Systems und beeinflusst auch nicht die laufenden Berechnungen.

Auf den G5-Rechnern läuft als Betriebssystem Mac OS X, das auf FreeBSD basiert. Varadarajan und sein Team portierten zudem das Unix-System MVAPICH (MPI for InfiniBand) der Ohio State University auf Mac OS X und optimierten dessen Cache-Management. Als Message-Passing-Interface-Bibliothek zum Austausch von Nachrichten zwischen den Knoten verwendet Virginia Techs X das Argonnes MPI-2 (MPICH-2). Zudem portierten die Wissenschaftler Unix-Applikationen zum Verwalten und Benchmarken des Systems. Bei den Compilern greift Virginia dazu auf die optimierenden C-, C++- und Fortran-Compiler von IBM sowie auf NAGWare Fortran zurück.

Terascale in den Top500 - politische Auswirkungen

Auf Anhieb schaffte es der 5,2 Millionen US-Dollar teure Terascale X-Cluster mit 10,28 TFlop/s Linpack auf Platz 3 der Top500-Liste von November 2003. Dabei löste der Rechner ein dicht besetztes lineares Gleichungssystem der Dimension 520.000 mit 58 Prozent seiner Spitzenleistung von 17,6 TFlop/s. Ein Gleichungssystem der Größe 152.000 berechnete der Cluster aus 1100 G5-PCs mit der halben Linpack-Leistung von 5,1 TFlop/s.

Die Nummer 2 der Top500 hält der 215 Millionen US-Dollar teure ASCI Q auf Basis von 8192 Hewlett-Packard AlphaServern. Er erreicht bei einer Matrixgröße von 633.000 13,88 TFlop/s und damit 68 Prozent seiner Spitzenleistung. Der Earth Simulator mit 5120 NEC Vektorprozessoren löst ein lineares System der Dimension 1.075.200 mit 35,86 TFlop/s, immerhin 88 Prozent seiner theoretischen Spitzenleistung. Dafür schlägt er auch mit 350 Millionen US-Dollar zu Buche.

Natürlich haben die extrem niedrigen Kosten des X-Clusters die Entscheider in allen Supercomputer-Rechenzentren geschockt. Wie sollen sie jetzt argumentieren, um weiterhin die bislang üblichen Summen zum Kauf der Supercomputer zu erhalten? Oder sind die "echten" Supercomputer wirklich schon Relikte einer untergehenden Ära?

Neue Benchmarks

Doch noch gibt es keine Benchmarks mit realen Programmen auf Virginia Techs X. Man kann aber davon ausgehen, dass die Bronzemedaille dabei nicht mehr an den X geht. Rudolf Eigenmann, Professor an der Purdue University, stellte auf der US-Supercomputer-Konferenz in Phoenix eine Rangliste von Top Application Performers (TAP, Anwendungs-Benchmarks) auf. Sie basiert auf der neuen SPEC HPC2002 Suite (Standard Performance Evaluation), die reale und aktuelle Anwendungen aus den Bereichen Chemie, Klimamodellierung und Seismik/Exploration enthält.

Dabei zeigte sich, dass Rechner wie der X-Cluster mit einer großen Prozessorzahl, aber einer moderaten Vernetzung zwar bei den bislang verwendeten Linpack-Benchmarks gut abschneiden. Dieser Benchmark aus den 70er Jahren hat aber nur noch wenig Praxisrelevanz, denn gerade die moderat vernetzten Cluster fallen bei realen Applikationen stark ab: Der Linpack mit seinem speicherfreundlichen Algorithmus erfordert deutlich weniger Kommunikation der Knoten untereinander, als dies bei realistischen physikalischen Modellen der Fall ist. Somit ist das Geld, das bei anderen, deutlich teureren Hochleistungs-Clustern in eine schnelle Kommunikation der Knoten gesteckt wird, doch sinnvoll angelegt.

In das gleiche Horn stoßen Jack Dongarra und Piotr Liuszczek aus Tennessee. Sie kündigen eine neue Benchmark-Suite mit internationaler Beteiligung an, die HPC-Challenge-Benchmarks. Im ersten Release wird diese die Lokalität von Daten, den Speicherzugriff eines Prozessors (STREAM-Benchmark), einen zufallsartigen Zugriff, eine Matrixtransposition sowie Interprozessorkommunikation und deren Verzögerung berücksichtigen.

Schon vor eineinhalb Jahren präsentierte IDC (International Data Corporation) seinen neuen HPC Benchmark und die zugehörige Rangliste. In diesem fasst IDC Linpack-, SPECint- und SPECfp-Leistung, theoretische Prozessorbandbreite, STREAM-Ergebnisse, Prozessorzahl und die Speicherbandbreite des Gesamtsystems zusammen. Diese Rangliste unterscheidet sich drastisch von der der Top500.

Wie wenig aussagekräftig bisherige Supercomputing-Benchmarks, wie der für die Top500 genutzte Linpack, sind, zeigt sich beim Vergleich der beiden schnellsten Rechner der Welt: So ist der Earth Simulator beim Linpack "nur" 4,6 Mal schneller als ASCI Q. Misst man dagegen mit dem ebenfalls recht gebräuchlichen STREAM Triad, landen beide Systeme wieder auf Platz eins und zwei, unterscheiden sich bei der Rechenleistung aber um den Faktor 36.

Fazit

Das Terascale-System bietet ein bei Supercomputern bislang unerreichtes Preis-Leistungs-Verhältnis. Allerdings ist der Platz 3 in der Top500-Liste recht optimistisch und unter anderem auf die Struktur des zu Grunde liegenden Benchmarks zurückzuführen. Nach über dreißig Jahren ist der Linpack endgültig überholt. Für eine realistische Wertung muss jetzt auch bei den Supercomputern der Trend zu praxisnäheren Benchmarks mit echten Anwendungen gehen.

Nichtsdestotrotz ist Virginia Techs X ein Supercomputer, der bei zahlreichen Anwendungen eine herausragende Leistung bieten dürfte. Skaliert eine Applikation auch noch bei hoher Knotenanzahl und ist der Overhead für den Datenaustausch gering, sind Off-the-Shelf-Cluster aus Standardrechnern um Größenordnungen preiswerter als klassische Supercomputer.

Auch das Problem mit der Zuverlässigkeit eines Systems aus sehr vielen Komponenten scheint man durch Redundanzen und Fehlerkorrekturen inzwischen im Griff zu haben. Daher wird man in näherer Zukunft noch mehr Off-the-Shelf-Cluster mit preiswerten Computern als Nodes in den Top500 finden. Derzeit arbeiten schon 41,6 Prozent aller Top500-Systeme als Cluster - Tendenz weiter steigend. (ala)