Supercomputing

27.06.2002 von UWE HARMS 
Am 20. Juni 2002 wurde die 19. Top-500-Liste der schnellsten Rechner der Welt vorgestellt. Unser Beitrag erläutert die Konzepte und Einsatzgebiete der Cluster-, Meta- und Grid-Supercomputer.

Ein Supercomputer, das ist "jeder Computer, den Seymore Cray, gestorben 1996, entwickelte". So lautet eine populäre Definition, die vor allem die große Bedeutung des Rechnerarchitekten Cray für das Höchstleistungsrechnen (High-Performance-Computing, HPC) unterstreicht. Praktikabler ist jedoch die Definition, dass es sich bei einem Supercomputer um "den jeweils schnellsten Rechner seiner Zeit" handelt. So war etwa 1985 ein Computer von Fujitsu mit 64 MByte RAM und einer Rechenleistung von 535 MFlops einer der leistungsstärksten und größten Supercomputer Europas.

Gingen vor 25 Jahren nur Vektorrechner an den Start, konkurrieren heute unterschiedliche Architekturen. Da sind zum einen die parallelen Vektorrechner mit gemeinsamem Speicher, beispielsweise von Cray Inc., Fujitsu oder NEC und zum anderen die SMP-Architekturen von Compaq, Cray Inc., Fujitsu-Siemens Computers, HP, IBM, SGI und SUN Microsystems sowie die MPP-Systeme von Cray Inc. und IBM. Daneben existieren Zwitterwesen von Hitachi mit Pseudo-Vektorverarbeitung.

Besonderer Beliebtheit erfreuen sich seit neuestem Cluster of Workstations mit einem internen Hochgeschwindigkeitsnetz von API Networks und Systemen von Cray Inc., Compaq oder Fujitsu-Siemens (als kommerzielle Angebote) sowie "kostengünstige Eigenbauten" an einigen Hochschulen.

Informationen zum Supercomputing, Analysen, Top-500-Listen der schnellsten Systeme mit besonderer Berücksichtigung Europas finden sich monatlich kostenlos beim Hoise-Projekt. Ein wöchentliches Update lässt sich für 125 Euro abonnieren.

Supercomputer - ein Rückblick

Die Welt der Supercomputer ist durch viele innovative Ideen und Unternehmen, aber auch Konkurse, spektakuläre Pleiten und Übernahmen gekennzeichnet. Dabei finden einige der Ideen des Supercomputing sogar den Weg in die allgemeine Prozessorentwicklung, wenn auch erst mit zehnjähriger Verzögerung. Ein Beispiel ist das 1990 zu Grunde gegangene Unternehmen Multiflow. Sein Trace-Rechner von 1988 arbeitete bereits nach dem VLIW-Verfahren. Heute kommt diese Technik in der Intel-IA64-Prozessorlinie sowie in Transmetas Crusoe zum Einsatz.

Schon 1964 präsentierte Seymore Cray, damals Mitbegründer und Chefentwickler bei Control Data Corporation (CDC), mit dem CDC 6600 den ersten Rechner mit funktionaler Parallelität. Er besaß zehn getrennte Funktionseinheiten: je zwei für Multiplikation und Inkrement-Operationen sowie je eine für Division, Addition, lange Addition, Verzweigung, Shift- und Boolesche Operationen. Zehn periphere Prozessoren sorgten dafür, dass die CPU für die langsame Ein- und Ausgabe entlastet wurde. 1969 folgte der CDC Cyber 76, der bereits um den Faktor zehn schneller war.

Das Regionale Rechenzentrum für Niedersachsen in Hannover installierte 1973 den damals schnellsten Rechner der Welt mit einer Taktrate von 36 MHz und einer Rechenleistung von 5 MFlops. Der Primärspeicher fasste 64K-Wörter (1K = 1024) und der Sekundärkernspeicher 250K-Wörter mit einer Wortbreite von 60 Bit. Die effektive Arbeitsgeschwindigkeit lag bei bis zu 15 Millionen Instruktionen pro Sekunde. Die Magnetplattenspeicher hatten eine Kapazität von 118 Millionen Zeichen (zirka 14 MByte bei 1 Byte pro Zeichen). Etwa 50 Rechner verkaufte CDC weltweit.

Die erste Cray

Da CDC nicht an einer evolutionären Entwicklung interessiert war, verließ Seymore Cray 1972 das Unternehmen und gründete Cray Research Inc.. Schon 1976 lieferte er seinen Vektorrechner Cray 1 an das Los Alamos Lab. Der Rechner brachte leistungsmäßig mit 160 MFlops und etwa 130 MFlops bei Matrixmultiplikation einen Quantensprung. Der Hauptspeicher wuchs auf 8 MByte. Auf Grund der einfachen Programmierung in Fortran und der schon damals guten Compiler setzte sich Cray 1 schnell auf breiter Front durch. 1979 kam die erste Cray nach Deutschland zum Max-Planck-Institut für Plasmaforschung in Garching.

CDC entwickelte zur gleichen Zeit mit der Cyber 203 und der Cyber 205 ebenfalls Vektorrechner. Und 1989 brachte schließlich die CDC-Tochter ETA deren Nachfolger, die ETA 10, auf den Markt. Doch bereits im April 1989 folgte die Schließung des Werks, die das Ende des damaligen Marktführers CDC bedeutete.

Vektorrechner

Zur damaligen Zeit dominierten Vektorrechner die Welt des Supercomputing. Sie waren bei technisch-wissenschaftlichen und geeigneten Problemen um Größenordnungen schneller als ihre skalaren Gegenstücke.

Das verwendete Pipelining-Prinzip ist eigentlich sehr einfach: Der Compiler zerlegt eine arithmetische Operation in bis zu sieben Teilschritte. Der Vektorrechner führt dann gleiche Rechenoperationen auf vielen Operanden aus, die hintereinander im Speicher stehen. Nach einer Startphase liefert er - wie bei einer Ölpipeline - bei jedem Takt ein Ergebnis. Zum Vergleich: Bei einem Skalarrechner dauert jede Operation jeweils sieben Takte.

Wird beispielsweise das Ergebnis einer Addition anschließend noch mit einem Wert multipliziert, fließt dieses direkt in die Multiplikationseinheit (so genanntes Chaining). Dadurch ergeben sich zwei Ergebnisse pro Takt. Und weil diese Zahlenkolonnen in Fortran als Vektor und Matrix gespeichert werden, bildete sich der Name Vektorrechner heraus.

Die ersten Ideen wurden schon in der CDC Cyber 76 umgesetzt, verstärkt jedoch erst in der Cray 1 und der Cyber 205. Ab 1982 begannen auch japanische Hersteller derartige Rechner zu bauen. Siemens vermarktete die VP100/200/400-Rechner von Fujitsu und erzielte ab 1985 große Erfolge in der Industrie, den Hochschulen und Forschungseinrichtungen. Auch NEC stieg später in den Vektorrechnermarkt ein.

Preiswerte Vektorrechner

Neben den preislich im zweistelligen Millionenbereich angesiedelten Rechnern gab es auch preiswertere Alternativen. Ein Fünftel der Leistung für ein Zehntel des Preises war die Devise der Mini-Supercomputerhersteller wie Convex, Alliant und anderen, die es heute jedoch nicht mehr gibt. Convex baute zunächst Vektorrechner mit Galliumarsenid-Boards und schwenkte dann auf RISC-basierte SMP-Systeme um. Diese waren die Vorgänger des HP Superdome, denn HP kaufte Convex auf.

Die japanischen Hersteller wechselten von der ECL-Technologie auf CMOS. Vorteile waren ein günstigerer Preis sowie ein geringerer Platz- und Energieverbrauch. Seit dem Aufkommen der so genannten Killer-Micros 1991 sinkt die Bedeutung der Vektorrechner. In absehbarer Zeit werden vermutlich nur noch Cray und NEC diese Architektur anbieten. Heute sind Cray-Systeme in punkto Geschwindigkeit den Japanern gegenüber bereits zurückgefallen.

Ein Hitachi-Prozessor (Knoten) besteht aus 9-RISC-CPUs, die eine Pseudovektorverarbeitung ermöglichen. Beispiel-Installationen sind: Cray SV1 bei T-Systems (Stuttgart), Fujitsu VPP5000 beim Karlsruher Forschungszentrum und der AUDI AG, Hitachi SR8000 beim LRZ in München sowie NEC SX-5 bei T-Systems/HWW in Stuttgart und der VW AG.

Beispiele installierter Vektorrechner

Hersteller

Cray

Fujitsu

NEC

Hitachi

Rechnertyp

SV1

VPP5000

SX-5

SR8000

GFlops pro CPU

2

9,8

10

12

Speicher pro CPU in GByte

4

8

8

16

Architektur

SMP

MPP

SMP

SMP/MPP

Parallelrechner, Multiprozessorsysteme

Die Forderung nach mehr Rechenleistung führte dazu, mehrere Prozessoren zu koppeln. Vor fünfzehn Jahren begannen Cray mit der Cray X-MP und der Cray 2 (vier CPUs) sowie IBM mit dem S/390 Mainframe (sechs CPUs), Multiprozessorsysteme erfolgreich am Markt zu platzieren. Nur im Zusammenspiel mehrerer oder vieler Prozessoren können große kommerzielle Aufgaben wie Datamining oder SAP-Applikationen schneller bearbeitet werden.

Erfahrungen bei American Express zeigten, dass Mainframes bei aufwendigen Analysen in Datawarehouses mehr als eine Woche benötigen, während die Aufgabe mit der Parallelverarbeitung in Stunden zu erledigen war. Auch in der Wissenschaft lassen sich neue Forschungsgebiete angreifen, wenn parallele Rechenkapazitäten bereitstehen. Vorteile von SMP-Systemen sind Skalierbarkeit, Zuverlässigkeit und Ausfallsicherheit bei zusätzlichen Prozessoren.

Für Multiprozessorrechner müssen jedoch parallelisierte Versionen der Applikation vorhanden sein. Im Datenbankmarkt kommen portable, parallele Datenbanksysteme zum Einsatz, wie sie Informix, Microsoft, Oracle oder Sybase anbieten, im technisch-wissenschaftlichen Umfeld parallele FEM-Pakete.

MPP-Architekturen

Bei den Multiprozessorsystemen haben sich verschiedene Architekturen herausgebildet: massiv-parallele Rechner (MPP), symmetrische Multiprozessorsysteme (SMP) und Workstation-Cluster. Daneben hat sich auch das Clustern von größeren SMP-Systemen bewährt und wird heute von nahezu allen Herstellern angeboten.

Bei allen Architekturen besitzt jeder Prozessor einen eigenen Speicher und ist mit seinen Nachbar-CPUs über eine schnelle interne Verbindung gekoppelt. Die Hersteller nutzen dabei verschiedene Topologien wie Netz, Würfel oder Torus. Bei einigen Rechnerarchitekturen greifen die Prozessoren auf eigene Festplatten zu, bei anderen steht ein Plattenpool für alle bereit.

Auf den einzelnen Prozessorknoten läuft eine Kopie oder ein Kern des Betriebssystems, wobei sich dabei jedoch die Speichergröße für die Anwendungen verringert. Die Applikationen sind über alle oder nur einen Teil der Prozessoren verteilt, beispielsweise das Datenbanksystem.

Für die Anwendungen nutzt der Programmierer entweder die explizite Parallelität bei verteiltem Speicher durch Message Passing, MPI, MPI-2 (Message Passing Interface) oder PVM (Parallel Virtual Machine). Über Send und Receive (Senden und Empfangen) tauschen die Prozessoren Nachrichten und Daten aus. Hierbei muss der Programmierer genau wissen, welche Daten in welchem Speicher eines Prozessors liegen. Daher ist eine derartige Parallelisierung sehr aufwendig und erfordert gute Kenntnisse.

MP- verdrängt Vector-Architektur

Ein zusätzliches Problem der MP-Architektur ist die Cache-Kohärenz. Prozessoren müssen immer die aktuell geänderten Daten im Cache anderer CPUs verwenden und nicht die ursprünglichen aus dem Speicher. Ein anderer Ansatz nutzt die implizite Parallelität durch HPF (High-Performance Fortran).

MPP-Architekturen sind fast beliebig skalierbar. Bei Bedarf kommen weitere Prozessoren hinzu, oft sogar die neuen Typen. Auch die Ein-/Ausgabe- und die Kommunikationsbandbreite sind entsprechend zu erhöhen.

Vertreter klassischer MPP-Systeme sind die T3E von Cray mit einem Torus-Netz oder IBMs Parallelrechner vom Typ RS/6000 SP - jetzt pServer, dessen zentrale Schaltstelle, der Switch, das Anbinden von SMP-Knoten, aber auch von ganzen Datenbankrechnern als externen Knoten ermöglicht.

Aus Kostengründen haben sich alle Parallelrechnerhersteller von proprietären CPUs verabschiedet und nutzen verbreitete RISC- oder Intel-Mikroprozessoren.

SMP-Systeme - symmetrische Multiprozessoren

Bei dieser Technologie greifen alle Prozessoren auf einen gemeinsamen Speicher (shared memory) zu. Je nach Preis sind sie, beispielsweise bei Intel-Prozessoren oder den Lowend-RISC-Workstations, über einen schnellen Bus mit dem Speicher verbunden. Hier kann bei großem Datenvolumen die Bandbreite zum Engpass werden. Bei den "teuren" Systemen verwenden die Hersteller Crossbars oder Switches, um einen schnellen Zugriff zu ermöglichen. Detaillierte Grundlagen zum Thema Multiprocessing finden Sie hier.

Jeder Prozessor und auch der Programmierer sieht den gesamten Speicher als eine Einheit. Diese Technologie ist inzwischen ausgereift und weit verbreitet. Das Programmiermodell ist für den Anwender einfach, da er im gemeinsamen Speicher kommuniziert. Moderne Compiler können heute schon große Teile von Programmen automatisch parallelisieren.

Auch kommerzielle Programmsysteme wie Datenbanken lassen sich einfach auf diese Rechner übertragen. Eine Übersicht über derzeitige SMP-Systeme namhafter Hersteller mit RISC-Prozessoren finden Sie im Folgenden. Daneben bereiten Compaq, HP, IBM und SGI ihre Systeme auch auf Intels IA64-Architektur vor.

Alle SMP-Anbieter im Unix-Umfeld verwenden 64-Bit-Betriebssysteme. Daneben etablieren sich jetzt auch Multiprozessorsysteme auf der Basis von Intel-Prozessoren und Windows NT/2000. Compaq beispielsweise bietet bei der Proliant-Serie bis zu acht CPUs. Unisys vermarktet die CMP-Architektur (Cellular Multiprocessing) mit bis zu 32 Xeon- oder Merced-CPUs, von denen sich vier in einem Prozessor-Board befinden. Sie sind über vier Crossbar-Leitungen sowie vier Speicherkarten mit je 8 GByte Hauptspeicher verbunden.

Clustering

Um noch mehr Prozessoren zu nutzen - wie beispielsweise SGI im ASCI-Projekt -, koppeln die Hersteller SMP-Systeme wie auch Vektorrechner-SMPs über schnelle Verbindungen zu Multinode-Systemen. Eine spezielle Cluster-Software ermöglicht das Arbeiten über die Rechnergrenzen hinweg. Das Gesamtsystem erscheint dann als ein Rechner mit einer Systemsicht.

Bei einem Cluster of Workstations koppelt man über ein lokales Netz einzelne Rechner, die dann als Parallelserver oder als einzelnes System einzusetzen sind. Verglichen mit den internen Übertragungsraten bei MPP- oder SMP-Systemen, können auf Grund der geringen Netzwerkbandbreite nur wenige Prozessoren effizient zur Parallelverarbeitung beitragen. Daher bezeichnet man Workstation-Cluster oft auch als Parallelrechner für Arme. Derartige Systeme lassen sich allerdings nachts oder am Wochenende, wenn die Systeme nicht im Einsatz sind, sehr effektiv für Batch-Jobs einsetzen.

Zum Verteilen der Jobs dienen Lastverteilungsprogramme wie LSF (Load Sharing Facility) von Platform Computing. So werden alle Workstations gleichmäßig ausgelastet, und es ist sichergestellt, dass Jobs nur auf die Systeme geschickt werden, die Speicher- und Rechenzeitanforderungen erfüllen oder die gewünschte Anwender-Software bereithalten.

Cluster of Workstations (COWs)

Auf der Supercomputer-Tagung 2001 haben eine Vielzahl von Firmen Systeme gezeigt oder angekündigt. Dazu gehören beispielsweise API NetWorks, ClusterSolutions, Megware, MSC, Quant-X sowie Compaq, Fujitsu Siemens Computers, Hewlett-Packard, IBM und Silicon Graphics. Professor Hans Meuer bietet im Netz eine neue Liste zu Clustern an, die aber nicht nach dem Linpack-Benchmark, sondern nach der Spitzenleistung sortiert ist.

Ein neuer Trend schwappt momentan aus den USA nach Europa: Cluster aus einzelnen, handelsüblichen Workstations aufzubauen. Diese werden mit schnellen internen Netzen (etwa SANs) eng gekoppelt und können auf Grund der hohen Übertragungsraten als Parallelrechneralternative angesehen werden. Einige Hersteller bieten dafür bereits Komplettlösungen an.

Compaq offeriert zum Beispiel die SC-Serie mit den Alpha-Servern ES40 oder, bei knappem Stellplatz, DS10L mit bis zu 40 Systemen in einem Rack. Für das Verbindungsnetz sind Produkte von Quadrics wie QSnet mit einer Bandbreite von etwa 300 MByte/s und einer Latenz von wenigen Mikrosekunden oder Myrinet von Myricom mit bidirektionalen Datenraten von 2 GBit/s erhältlich. Damit will Compaq in den Markt der massiv-parallelen Systeme, wie sie SGI oder Cray mit der T3E anbieten, eindringen.

Fujitsu-Siemens bietet in diesem Umfeld die hpcLine auf Intel-Basis. Die CPUs sind über den IEEE-Standard SCI (Scalable Coherent Interface) von Scali gekoppelt. Auch hier ist eine Bandbreite im GBit/s-Bereich bei wenigen Mikrosekunden Latenz geboten. Eine Middleware sorgt in beiden Fällen für die Steuerung des Systems und stellt Bibliotheken für die Parallelverarbeitung bereit.

Linux-Cluster in Forschung und Industrie

Wissenschaftler an Hochschulen und Forschungseinrichtungen und Entwickler in der Industrie entdecken kostengünstige Linux-Cluster für Anwendungsgebiete, bei denen die Software schon portiert und parallelisiert ist.

Das Interdisziplinäre Zentrum für Wissenschaftliches Rechnen der Universität Heidelberg nahm im April einen parallelen Hochleistungs-PC-Cluster namens HELICS zusammen mit dem Rechenzentrum der Universität Mannheim in Betrieb. Er besteht aus 512 AMD-Athlon-MP-Prozessoren mit 1400 MHz Takt, jeweils zwei in einem Knoten und hat eine Spitzenleistung von 1.4 TeraFlop/s, 825 GFLOPS beim Linpack-Benchmark. Das Heidelberger System arbeitet mit herkömmlicher PC-Hardware: 512 AMD-Athlon-MP-Prozessoren, die jeweils zu zweit auf einem Board (Tyan "Tiger") untergebracht sind. Die Boards sind untereinander über das schnelle Myrinet2000 mit 2 GBit/s verbunden. In der Top500-Liste vom Juni 2002 liegt der Rechner auf Platz 35, in einer Klasse mit einer IBM p690 (Regatta) mit 512 1,1-GHz-Prozessoren.

Weitere große Linux-Cluster sind an der Universität Chemnitz (Intel-basiert CLic), Wuppertal (Alpha-basierte ALiCE) sowie Kepler in Tübingen installiert. Die Rechenzentren betreiben die Cluster in Eigenregie und konnten Erfahrungen mit den Opensource-Betriebssystemen, Middleware und Compilern sammeln. Es besteht ein Unterschied darin, ob man ein kleines abgeschottetes Cluster oder eines im harten Rechenzentrumsbetrieb betreut.

Linux-Cluster in der Automobilindustrie

In der Automobilindustrie sind inzwischen wichtige CAE-Programme (Computer Aided Engineering) auf Linux portiert und parallelisiert. Die deutsche Industrie betrieb im März 2002 mindestens 44 Cluster mit etwa 1700 Prozessoren. In der Automobilbranche sind 39 auch bei den Zulieferern installiert. Audi, BMW, DaimlerChrysler und Porsche nutzen derzeit sehr erfolgreich 14 mittelgroße und große Cluster mit mehr als 1400 PC-Prozessoren. Der große Boom begann im dritten und vierten Quartal 2001 mit jeweils 11 Clustern, im ersten Quartal 2002 sogar mit 12.

Aus Kostengründen lagern die Entwicklungsabteilungen den Betrieb ihrer Rechnersysteme aus. Sie greifen beispielsweise auf die Linux-Anwendungsexperten science + computing (s + c) aus Tübingen zu. Diese bieten professionellen Service und betreiben als Outsourcer die CAD-, CAE-Workstation und die Cluster bei Audi, BMW, DaimlerChrysler und Porsche. Die Entwicklungsingenieure sind so vom Betrieb, der Installation der System- und Anwender-Software und neuer Releases befreit. Bei Hardware-Problemen kümmert sich der Outsourcer um deren Beseitigung durch den Hersteller.

Schon Anfang 2000 simulierte DaimlerChrysler die elektromagnetische Verträglichkeit (EMV) auf einem 32-Prozessor-Linux-Cluster der hpcLine von Fujitsu Siemens Computers. Später folgten Audi und BMW mit ähnlichen Systemen für das EMV-Programm FEKO. Es berechnet elektromagnetische Felder und deren Ein-/Abstrahlung von Strukturen. FEKO ist vollständig parallel mit MPI-Kommunikation (Message Passing Interface) programmiert und eignet sich sehr gut für Parallelrechner. Es skaliert bei wachsender Prozessorzahl, entsprechend reduziert sich die Rechenzeit.

EMV- und Crash-Simulationen

Ein Beispiel für wichtige EMV-Simulationen ist die Zündanlage, da sie stark strahlt und erheblich den Radioempfang beeinträchtigt. Die Strahlungen wirken sich aber auch auf die Elektronik und Prozessoren im Motorraum sowie die ABS-Sensoren aus. Daher sind diese Simulationen kritisch für die Sicherheit. Ergebnisse der EMV-Berechnungen beeinflussen dann die Fahrzeugkonstruktion, um Störungen abzuschwächen oder zu verhindern.

Das FEKO-Cluster ist redundant, fällt ein Knoten aus, können die anderen 15 noch rechnen. Gemessen am Standard-Benchmark der EMV-Abteilung ist das Preis/Leistungsverhältnis des Cluster als FEKO-Applikationsserver günstiger als vergleichbare Rechner. Es ist über Venus von s + c transparent in eine heterogene Rechnerlandschaft mit SGIs Origin 2000, IBMs SP-Parallelrechnern , SUN- und Hewlett-Packard-Workstations eingebunden.

Die Audi AG installierte im Juni 2001 ein hpcLine-Cluster von Fujitsu Siemens Computers für Crashtests. Die Abteilung evaluierte RISC- und Intel-basierte Lösungen für das neue strategische Kompetenzzentrum (SCC) für stochastische Crash-Simulationen mit ST-ORM. Das integrierte Linux-Cluster basiert auf 128 Intel-Prozessoren. Beim Audi-spezifischen, praxisbezogenen Benchmark erzielte das Cluster ausgezeichnete Ergebnisse und ein interessantes Preis-Leistungs-Verhältnis. Im Vergleich zu den hauseigenen RISC-Prozessoren lag das Preis-Leistungs-Verhältnis um 50 Prozent niedriger. Inzwischen bestellte Audi ein weiteres System für die zweite Stufe des SCC und Pamcrash-Rechnungen, bestehend aus 64 Knoten mit 128 Intel-Xeon-2-GHz-Prozessoren.

Betreiben der Linux-Cluster

Die System- und Anwendungs-Software muss auf den lokalen Platten der einzelnen Knoten liegen. Bei kleinen Clustern mit wenigen Knoten ist die Installation in Handarbeit machbar. Bei einem 16-Knoten-System dauert es laut s+c für Linux und Netzwerk zwei bis vier Tage und zusätzlich ein bis zwei Tage für die Applikation.

Basierend auf eigenen Erfahrungen im Betreiben von Workstations, Linux und dem automatischen Einfahren von System- und Anwendungs-Software entwickelte s + c das s.cluster-Konzept. Für das s.cluster brennt s + c eine kundenspezifische CD. Sie enthält die zu installierende Software-Palette sowie Informationen zu Hardware-Komponenten wie Racks, Switches und Knoten. Die CD basiert auf Kickstart von Red Hat, das die Installation durchführt.

Nach Installation des Masters auf dem Cluster oder einer Workstation wird die Software auf allen Knoten parallel eingefahren. VENUS übernimmt die Basis-, Benutzer-, Filesystem-, Software-, Konfigurationsverwaltung und das Monitoring. Mit s.cluster installiert der Administrator den Linux-Cluster unabhängig von der Knotenzahl in wenigen Stunden, im Gegensatz zu mehreren Tagen Handarbeit.

Grid- und Meta-Computing

Unter der Bezeichnung Peer-to-Peer breitet sich zurzeit weltweit eine alte Idee aus. Schon 1991 gab es PVM (Parallel Virtual Machine) in einer ersten Version. Es war die erste Implementierung eines Message-Passing-Systems. Per Unterprogrammaufruf konnte der Benutzer Nachrichten (sprich Daten) an einen anderen oder alle Rechner im lokalen Netz schicken oder abrufen - die Idee des Workstation-Clusters.

Die kostenlose Software erlaubte es, vernetzte Unix- und Windows/NT-Workstations als einen großen, lose gekoppelten Parallelrechner zu nutzen. Lastverteilungsprogramme wie LSF oder Codine sorgten dabei schon 1993 für eine gleichmäßige Nutzung der Ressourcen. Sun bietet Codine und den Global Resource Director als Sun Grid Engine und als Grid Resource Broker ebenfalls kostenlos an.

Ein ähnlicher Trend entwickelte sich bei den Supercomputerzentren. Sie sind in Deutschland vom Deutschen Forschungsnetz Verein (DFN) mit GBit/s-Übertragungsraten verbunden. Hier war Meta-Computing das Schlagwort: mit einem Job mehrere Rechner gleichzeitig nutzen. Die Teilnehmer des Projekts UNICORE (Uniform Interface to Computing Resources), geleitet vom Zentralinstitut für Angewandte Mathematik (ZAM) des Forschungszentrums Jülich, entwickelten eine Rechner- und Rechenzentrumsschnittstelle. Ein autorisierter Anwender erstellt irgendwo im Web in einer abstrakten Job-Kontrollsprache seinen Job und schickt ihn ab. UNICORE übersetzt die Kontrollsprache in Befehle des Zielsystems.

UNICORE: Grid für Forscher

Komponenten von UNICORE sind Sicherheitsmechanismen, Benutzerauthentifizierung mit einer Public-Key-Infrastruktur sowie der Job-Supervisor mit Jobmanagement, Datentransfer und der Schnittstelle für das Batch-Subsystem. Inzwischen konzentrieren sich die Partner auf Schnittstellen für Anwendungspakete, Meta-Computing (Grid-Computing) und ein integriertes "Computing Portal" für die Anwender. Als weitere Funktionalität ist die Multi-Site-Fähigkeit geplant. Dabei kann ein Job gleichzeitig mehrere Supercomputer an unterschiedlichen Standorten nutzen.

Anfang 2000 gründeten die Nutzer und Entwickler von UNICORE das UNICORE Forum als eingetragenen Verein. Es ist eine eigenständige, offene und nicht profitorientierte Organisation, die die Entwicklung, Verbreitung und den Einsatz von UNICORE vorantreibt und unterstützt. Das UNICORE Forum kontrolliert die Spezifikation des UNICORE Systems und garantiert damit die notwendige Unabhängigkeit. Die Mitgliedschaft im Verein steht Grid-Entwicklern und -Anwendern, Rechenzentren sowie Herstellern offen. Unter den derzeit 25 Mitgliedern finden sich nahezu alle Hardware- und Software-Hersteller, die sich mit Grid-Technologie befassen. Daneben beteiligen sich auch Rechenzentren von Hochschulen und Forschungseinrichtungen im In- und Ausland.

Mit der ersten einsatzfähigen UNICORE Version wird das UNICORE Forum nun aktiv. Auf seiner letzten Sitzung im April 2002 beschloss es, die UNICORE Software allen interessierten Partnern für Forschungszwecke unter einer "open source"-Lizenz verfügbar zu machen (als download unter www.unicore.org). Für den Produktionseinsatz bietet die Pallas GmbH, Brühl, eine kommerzielle UNICORE Version an, die auch für den industriellen Einsatz (z.B. als Intranet-Lösung oder als Technologie für ein ASP-Modell) geeignet ist. Das Forschungszentrum Jülich hat inzwischen ein offenes Grid zum Testen eingerichtet. Ähnliche Projekte starteten auch Forschungseinrichtungen in den USA.

Weitere Grid-Projekte I

In den USA starteten Forschungseinrichtungen das Globus- und das Legion-Projekt. Bei Globus (1996) ist das Grid eine Infrastruktur, die die integrierte, kollaborative Nutzung von Hochleistungsrechnern, Netzwerken, Datenbanken und wissenschaftlichen Instrumenten ermöglicht. Die Forscher entwickelten das Open Source Globus Toolkit mit Werkzeugen und Programmbibliotheken, um Fragestellungen in den Gebieten Sicherheit, Kommunikation, Informationsinfrastruktur, Fehlererkennung, Ressourcenmanagement, Portabilität und Datenmanagement zu lösen.

Das europäische GRIP-Projekt (GRid Interoperability Project) führt die beiden unterschiedlichen Ansätze von UNICORE, als einer Software-Lösung, und Globus als Sammlung von Software-Werkzeugen zusammen. Dann können Jobs, unter UNICORE abgeschickt, auch auf Rechenzentren laufen, die Globus als Grid-Software verwenden und umgekehrt. Zusätzlich wird GRIP mit dem Global Grid Forum im Rahmen von Standardisierung, Schnittstellen und Protokollen zusammenarbeiten.

Ein bekanntes Rechen-Grid der Universität von Kalifornien, Berkeley, ist SETI@Home. SETI (Search for Extraterrestrial Intelligence) ist eine wissenschaftliche Initiative und sucht nach extraterrestrischer Intelligenz im Universum. Dabei werden Milliarden von Funkfrequenzen auf solche Signale hin betrachtet, die auf eine andere Zivilisation deuten. Privatleute mit Internet-Anschluss können einen Bildschirmschoner herunterladen und auf ihrem PC laufen lassen. Dann führt SETI die Berechnungen durch, wenn der Rechner nicht benutzt wird.

Weitere Grid-Projekte II

Intel startete ein ähnliches Projekt (wir berichteten), bei dem die privaten PCs einen riesigen Supercomputer bilden - 50 TFlops -, der in der Krebsforschung eingesetzt wird. Dabei wird das Gesamtprojekt in Teile zerlegt, die die einzelnen Rechner bearbeiten. Hinsichtlich der Rechenleistung ist folgender Vergleich interessant: Ein Pentium-System mit 600 MHz entspricht leistungsmäßig etwa dem Fujitsu-Supercomputer VP200 von 1985. Die P2P-Technologie erlaubt mit dem Zusammenschluss vieler solcher Systeme eine extrem hohe Rechenleistung, wie sie noch vor 15 Jahren undenkbar war.

Die Europäische Union unterstützt seit Ende 2000 das DataGrid-Projekt von CERN mit 9,8 Millionen Euro. Ziel des von CERN geleiteten Projektes ist es, ein neues Modell für die weltweit verteilte Datenverarbeitung zu entwickeln.

Ab 2007 werden am Teilchenbeschleuniger Large Halon Collider rund ein PetaByte/s an Messdaten anfallen. CERN reduziert und komprimiert die Daten und wertet ein Drittel vor Ort aus. Der Rest wird in beteiligten Zentren in Europa - beispielsweise am Forschungszentrum Karlsruhe bearbeitet. Diese nutzen Standardprozessoren, insgesamt wohl 200.000 der heutigen PC-Prozessoren. Die wichtigsten Grid-Nodes tauschen Daten und Ergebnisse mit 5 bis 10 GBit/s aus.

Die Ergebnisse lassen sich auf Experimente mit ähnlichem Datenvolumen wie Erdbeobachtungen und Biomedizin anwenden. Damit wird ein neues, weltweites DataGrid in Form eines Forschungsnetzes von bisher unerreichter Größe geschaffen. So soll demonstriert werden, dass sich Cluster aus preisgünstigen und alltäglichen Komponenten aufbauen, verbinden und verwalten lassen. Tausende von Nutzern werden erwartet. CERN sieht eine zweistufige Topologie mit einer Anzahl nationaler Grids vor, die durch einen zentralen Knoten bei CERN verbunden sind.

Weitere Grid-Projekte III

Die Europäische Kommission fördert im Rahmen des Programms Information Society (IST) bis Ende Oktober 2003 den Aufbau und Betrieb eines Netzes der führenden Supercomputerzentren in Europa (EUROGRID-Projekt) mit 2 Millionen US-Dollar. Damit wird eine europäische Grid-Infrastruktur geschaffen, die skaliert und sicher Supercomputing-Ressourcen bereitstellt.

Ein Baustein wird die Jülicher UNICORE-Software sein. Ziel ist die verteilte Simulation aus den Gebieten der biomolekularen Anwendungen, Wettervorhersage, gekoppelte CAE-Simulationen (Computer Aided Engineering), Strukturanalyse und Echtzeitdatenverarbeitung. Nach Projektende ist die EUROGRID-Software als Produkt erhältlich und wird von Pallas GmbH in Brühl vermarktet. Auch die jetzige, professionelle Version ist dort erhältlich. Auf Grid bezogene Aktivitäten finanziert die EU mit mehr als 160 Millionen Euro, die schnelle Anbindung der nationalen Hochgeschwindigkeitsnetze mit 80 Millionen Euro und Anwendungstests mit 81 Millionen Euro.

In den USA fördert die National Science Foundation das TeraGrid Projekt mit 50 Millionen US-Dollar. Vier Zentren in Argonne, das California Institute of Technology, das National Center for Supercomputer Applications und San Diego installieren Linux-Cluster von IBM und sind mit optischen 40-GBit/s-Leitungen verbunden. Das TeraGrid erscheint als ein einziges, verteiltes System mit 13 TeraFlop/s Spitzenleistung und mehr als 1 PetaByte Online-Speicher. Die einzelnen Rechner werden mit Hilfe von Grid- und Middleware-Technologien auf der Basis des Globus-Toolkit verbunden. Die Ergebnisse einer offenen, erweiterbaren Architektur lassen sich erweitern oder duplizieren, da sie auf Protokollen und Standards zur Interoperabilität beruhen.

Grid: Ein multidimensionales Rechnerkontinuum

Unter den Aspekten des Grid-Computing kam Sid Karin, Universität Kalifornien/San Diego, auf der Supercomputer-Tagung 2001 zu dem Schluss, dass damit die Grenzen zwischen verschiedenen Komponenten wie Rechnern, digitalen Systemen, Datensammlungen, Telekommunikation und Messinstrumenten beispielsweise von Sternwarten verschwinden. Damit geht Karin noch einen Schritt weiter als das EUROGRID-Projekt. In seiner Vision werden verschiedenste Komponenten des Grids über das Netzwerk zu einem multidimensionalen Rechnerkontinuum zusammengefasst. Dies soll eine enge Zusammenarbeit von Wissenschaftlern unterschiedlicher Disziplinen ermöglichen.

Im Projekt Telescience sind bereits zum jetzigen Zeitpunkt Datenerfassung, Visualisierung, Messgeräte, Datenanalyse, riesige Datenbanken, verteilte Datenspeicherung und Supercomputer über ein Netzwerk verknüpft.

Dieses Arbeitsgebiet steht noch am Anfang, so dass sich die Arbeitsgruppen erst bilden. Im Grid-Forum schlossen sich 2001 Forscher aus allen Teilen der Welt zusammen. Zum Vorstand gehört auch Professor Alexander Reinefeld vom Konrad Zuse Zentrum in Berlin.

Das Global Grid Forum erläuterte in einer Sitzung auf der CCGrid 2002 in Berlin seine Arbeit. Es spezifiziert Protokolle und in Dokumenten die Grid-Basis, setzt aber zunächst keine Standards. Seine Empfehlungen werden erst nach intensiven Diskussionen der Experten ausgesprochen. Daraus resultieren praxisnahe Entscheidungen, die später standardisiert werden können.

Von der Industrie forciert ist die New Productivity Initiative (NPI), die sich schwerpunktmäßig auf den Bereich Distributed Resource Management, also verteiltes Verwalten der Systemressourcen, konzentriert. Zu den Gründern gehören unter anderem ANSYS (Finite Element Software), Compaq, Hewlett-Packard, Platform Computing (LSF), SGI und TeraPort.

Einsatz von Supercomputern

Inzwischen hat sich die Computer-Science, die nummerische Simulation technischer Vorgänge auf schnellen Rechnern, als dritte wissenschaftliche Säule neben der Theorie und dem Experiment etabliert. Dazu wird das technische oder wissenschaftliche Problem mathematisch formuliert und dieses System näherungsweise auf dem Rechner gelöst. Je höher die Rechenleistung und je größer der Speicher, desto schneller hat der Forscher die Ergebnisse, kann das Rechengitter feiner gestalten und auch mehr Parameter variieren.

Wenn der Wissenschaftler sein mathematisches Modell erstellt hat, wählt er die passenden Näherungsverfahren und erhält eine Lösung. Diese vergleicht er mit Messergebnissen oder auf Korrektheit. Bei hinreichender Übereinstimmung kann er die Eingangsparameter modifizieren, um die Auswirkungen auf das Ergebnis zu betrachten. Da dieses Verfahren riesige Mengen von Ergebnisdaten erzeugt, bedienen sich die Ingenieure der Visualisierung. Das geht bis hin zur virtuellen Realität.

Die wichtigsten Anwendungsgebiete für Supercomputer sind:

Einsatz: Crash-Simulationen

Die deutsche Automobilindustrie muss im internationalen Wettbewerb wachsende Anforderungen hinsichtlich der Produkteigenschaften wie passive Sicherheit, Komfort und Fahrdynamik erfüllen. Auch Gesetze, zum Beispiel zur Reduzierung des Schadstoffausstoßes und der Emissionen, muss sie einhalten. Daneben sind die Entwicklungszeiten der Autos und die Kosten zu minimieren. Hier hilft dann nur der konsequente Einsatz von CAE-Methoden (Computer Aided Engineering).

In den Anfangstagen setzten die Autohersteller handgeschmiedete PKWs an die Wand und untersuchten die Verformungen. Seit etwa 1986 ermöglichen die Leistung von Vektorrechnern und die Applikations-Software einen ersten produktiven Simulationseinsatz. Inzwischen haben sich die Berechnungsverfahren zu mächtigen, prognosefähigen Auslegungswerkzeugen für die Fahrzeugkonstruktion gewandelt.

In nur 25 Jahren wuchsen die finiten Elementmodelle von 30.000 Freiheitsgraden - damals nutzte man die Symmetrie und begnügte sich mit einem halben Auto - auf mehr als 2.700.000 Freiheitsgrade und einen vollständigen PKW. Parallel dazu fiel das Preis-Leistungs-Verhältnis der Rechner etwa bei DaimlerChrysler von 1 bei der Cray YMP 1993 auf 0,07 bei der T90 im Jahr 1997.

Das Rechenmodell ist immer ein Kompromiss zwischen der Qualität der Rechenergebnisse und der Umlaufzeit des Jobs. Bei Volkswagen sind beispielsweise zehn Stunden über Nacht angesetzt, so dass der Entwickler morgens seine Ergebnisse analysieren kann. Entsprechend dem Zuwachs an Rechnerleistung verfeinert der Ingenieur sein Modell.

Installierte Rechner in der Automobilindustrie I

Die deutschen Automobilhersteller nutzen unterschiedliche Rechnerplattformen, Vektorrechner, symmetrische Multiprozessorsysteme, Workstation-Cluster und inzwischen verstärkt AMD/Intel-basierte Linux-Cluster. Das Ausschlag gebende Kriterium ist die Leistung der Anwender-Software aber neuerdings auch das Preis-Leistungs-Verhältnis. Die Applikationen haben Vektorrechner- und RISC-Hersteller in Zusammenarbeit mit dem jeweiligen Software-Haus in unterschiedlicher Qualität optimiert.

Die AUDI AG hat sich für eine Mischung von Vektor-, RISC- und Linux-Systemen entschieden. Hochvektorisierte Programme wie beispielsweise Pamcrash laufen auf VPP-Systemen von Fujitsu-Siemens - der VPP300 mit 16 (13 für Crash) und der VPP5000 mit 4 Prozessoren - mit jeweils 38,4 GFlops Spitzenleistung. Inzwischen läuft aber die Ära der Vekrorrechner aus. Skalare Applikationen laufen auf SGI Workstations und einer Origin 2000 mit 40 CPUs.

BMW nutzt allein für Crash-Berechnungen mehr als 500 SGI-R10000/R12000-CPUs mit mehr als 86 GByte Hauptspeicher und 2,1 TByte Plattenplatz. Ein Modell mit 500.000 finiten Elementen, das 1000 Bauteile und Komponenten des Fahrzeugs erfasst, rechnet vier Tage auf vier R10000-Prozessoren im symmetrischen Multiprocessing.

Installierte Rechner in der Automobilindustrie II

DaimlerChrysler und die Volkswagen AG setzen beim Crash hauptsächlich auf NEC-Vektorrechner. Während VW 12 NEC-SX-5-Prozessoren (48 GFlops Spitzenleistung) in drei Kabinetten für Pamcrash einsetzt, greift DaimlerChrysler einmal auf eine eigene NEC SX-4/4 in der Crash-Abteilung zu. Daneben nutzt das Unternehmen über T-Systems anteilig die Maschinen im HWW, dem Stuttgarter Höchstleistungsrechenzentrum. Hier rechnen derzeit zwei NEC SX-5 mit insgesamt 32 CPUs (128 GFlops) und zwei SX-4 mit insgesamt 40 Prozessoren (80 GFlops).

BMW variierte als erstes Unternehmen bei solchen Berechnungen statistisch die Eingabedaten, da derzeit noch nicht alle Einflüsse genau zu berechnen sind. In Versuchen zeigten sich an Serienfahrzeugen unterschiedliche lokale Deformationsmuster der Trägerstrukturen. Auf Druck belastete Träger zeigen bei geringen Änderungen in den Anfangs- und Randbedingungen ein stark unterschiedliches Deformationsverhalten. Die Streuungen entstehen durch Materialabweichungen, Toleranzen beim Zusammenbau, Steifigkeiten der Schweißpunkte, aber auch durch leicht modifizierte Aufprallwinkel und Überdeckung mit dem Hindernis.

Inzwischen wenden fast alle Automobilhersteller die stochastische Simulation an. Sie erfordert aber im Gegensatz zur Vergangenheit hundert oder mehr Rechenläufe - zur Freude der Hard- und Software-Hersteller. Das Ergebnis sind Punktwolken und einzelne Ausreißer. Diese sind dann Gegenstand besonderer Untersuchungen.

Einsatz: Medizinische Forschung

Das Forschungszentrum Jülich modifizierte mit Siemens Medizintechnik und Alrithmicon den Ganzkörperscanner für Echtzeitmessungen. Die schnelle Kernresonanz-Bildgebung (MR-Bildgebung) erlaubt damit die Kartierung von Hirnfunktionen durch Messung von Durchblutungsänderungen während einer neuronalen Aktivierung. Die Sauerstoffsättigung des Blutes erzeugt Magnetfeld-Inhomogenitäten, die die MR-Bildgebungsmethoden nachweisen können. Bisherige Verfahren konnten erst nach Messung eingesetzt werden.

Die Echtzeitkorrelationsanalyse läuft auch auf dem Supercomputer Cray T3E. Damit ist dann sogar die neuronale Kontrolle von Fingerbewegungen möglich. Die Reaktionen lassen sich sofort bildlich darstellen.

Einsatz: Dem Gen auf der Spur

Das Sanger Centre in Hinxton Hall nahe Cambridge, Großbritannien, ist ein Genforschungszentrum und gehört zum Genome Campus. Das wichtigste Werkzeug bei diesen Forschungen sind schnelle Rechnermethoden zum Erfassen, Speichern, Verwalten und Verarbeiten der gesammelten Informationen.

Ein Genom ist ein vollständiger Satz erblicher Instruktionen. Die Instruktionen heißen Gene. Diese Genominformation nutzen die Wissenschaftler, um genetische Faktoren bekannter Krankheiten zu erkennen, individuelle Risiken einzuschätzen, neue Medikamente zu entwickeln, zu einer besseren Diagnose etwa bei der Tumorklassifizierung zu kommen und die Grundlagen der Biowissenschaften besser zu verstehen. Das Ziel der Genome-Projekte ist das Vergleichen, Analysieren und Verarbeiten der vorliegenden Informationen. Die bisherige Datenmenge liegt bei über 22 TByte, in zwei bis drei Jahren werden bis zu 100 TByte erwartet.

Bei der Rechenleistung setzt Sanger auf Computer-Farmen und lose gekoppelte Cluster. So installierte das Rechenzentrum im November 2000 für das Projekt Ensemble 320 Compaq Alpha DS10L in acht Racks. Die Workstations bestehen aus EV6-Prozessoren mit 466 MHz, 320 GByte Speicher und 19,2 GByte großen Festplatten. Die DS10L-Alpha-Farm entspricht in der Leistung zehn GS320-Rechnern.

So sind mehr als 500.000 Such- und Vergleichsoperationen pro Tag in der Gendatenbank möglich. Man schätzt die vergleichende Genomanalyse für Maus/Mensch auf etwa 40.000 CPU-Tage. Damit laufen 100 CPUs 24 Stunden das ganze Jahr über. Bei neuen, rechenintensiveren Projekten erwartet das Zentrum, dass es die Rechenleistung um den Faktor 5 erhöhen muss. Das bedeutet Tausende von CPUs sowie zusätzliche PC-Farm-Knoten und High-End-SMP-Konfigurationen sowie 50 bis 100 TByte Plattenspeicher zu verwalten. Auch Sanger richtet sich inzwischen auf Grund der internationalen Zusammenarbeit auf das weltweite Grid-Computing ein.

Preise für Supercomputer

Der Hitachi-Rechner SR8000 F1 am Leibnizrechenzentrum (LRZ) der Bayerischen Akademie der Wissenschaften in München ist inzwischen wieder das schnellste System in Deutschland. Das LRZ setzte ihn im Sommer 2000 mit 112 Knoten mit jeweils neun RISC-Prozessoren, davon acht zum Rechnen, und einer Spitzenleistung von 1,34 TFlops und 0,93 TByte Hauptspeicher in Betrieb.

Anfang 2002 führte Hitachi die letzte Ausbaustufe durch, 168 Knoten, 2,016 TFlops Spitzenleistung - etwas mehr als die 1.92 TFlops der IBM des Deutschen Wetterdienstes in Offenbach - und 1,3 TByte Speicher. Das ganze Projekt finanzieren der Freistaat Bayern mit 60 Millionen Mark (30,7 Mio. Euro) und der Bund mit 30 Millionen Mark (15,4 Mio. Euro) über diesen Zeitraum inklusive der Baumaßnahmen. Daneben spendiert Bayern noch 9 Millionen Mark (4,6 Mio. Euro) für ein Kompetenznetzwerk, Portieren der Programme und fachliche Kompetenz.

Professor Heinz-Gerd Hegering charakterisierte die Leistung von 1,34 TFlops so: "Wenn die Aufgabe bestünde, mit nur 1 mm dicken Nägeln dicht an dicht einen Ring um den Äquator zu nageln und eine Operation das Setzen eines Nagels definiert, dann bedeuten 1,34 TFlops, dass das System in nur einer Sekunde fähig ist, 30-mal eine komplette Nagelreihe um die Erde zu setzen." Durch die neue Ausbaustufe wären jetzt gar 45 Nagelreihen machbar.

Daneben betreibt das LRZ noch einen Vektorrechner VPP700 von Fujitsu Siemens Computers mit 52 Prozessoren und 114 GigaFlops, eine 8 Prozessor IBM p690 HPC (Regatta) sowie ein Linux-Cluster.

Preise sind Verhandlungssache

Da Preise bei großen Systemen Verhandlungssache sind, vermitteln folgende Angaben nur ein Gefühl für die Größenordnung der Preise. Ein Vektorrechner NEC SX-5 mit einer CPU, 8 GByte Speicher und 10 GFlops Spitzenleistung bewegt sich im Bereich von 500 Millionen Euro. Ein SMP-System wie die Sun Fire mit 24 CPUs, 24 GByte Speicher und 36 GFlops Leistung kostet um die 1,5 Millionen Euro. Ein 64-Prozessor-Superdome von HP mit 128 GByte Speicher und einer Spitzenleistung von 141 GFlops ist mit mehr als 4 Millionen Euro zu veranschlagen. Eine GS320 von Compaq mit 32 Prozessoren kostet je nach Speicherausstattung zwischen 1,5 und 2,5 Millionen Euro.

Ein "Schnäppchen" ist das Sonderangebot für die Forschung und Lehre von Fujitsu-Siemens Computers. Das Starter-Kit der hpcLine mit 16 Intel Pentium III (750 MHz, 12 GFlops) und 5 GByte Speicher kostet 66.000 Euro. Zu den genannten Preisen kommt jeweils die Mehrwertsteuer hinzu.

Das Ranking der Supercomputer

Im Juni 1993 führte Professor Hans Meuer von der Universität Mannheim erstmals eine Top-500-Liste ein, die er regelmäßig in seinen eigenen Supercomputertagungen im Juni in Heidelberg und auf der IEEE Supercomputer-Tagung im November präsentiert. Sie basiert auf dem Linpack-Benchmark von Jack Dongarra, bei dem die Rechner ein riesiges lineares Gleichungssystem zu lösen haben. Beim ASCI White beispielsweise hatte es eine Dimension von 430.000 x 430.000. Der jetzt führende japanische Earth Simulator von NEC löste ein Gleichungssystem der Dimension 1.041.216 und nutzte 8.7 TeraByte Hauptspeicher. Dieser Rechner erzielte eine neue Spitzenleistung von 35.6 TeraFlops und deklassierte die amerikanischen Systeme. Der Benchmark lief übrigens 5,8 Stunden.

Da die Anzahl der Rechenoperationen zum Lösen des Gleichungssystems bekannt ist, bestimmt sich daraus der Wert Rmax, die so genannte Linpack-Leistung. Nach dieser werden die Rechner sortiert. Die Listen enthalten unter anderem Hersteller, Rechnertyp, Anzahl der Prozessoren und Knoten, die theoretische Spitzengeschwindigkeit und die Dimension des Gleichungssystems. Die ebenfalls angegebene Zahl N1/2 drückt die inhärente Hardware-Parallelität aus und geht auf Roger Hockney zurück. Sie gibt an, bei welcher Dimension des Gleichungssystems die halbe Spitzenleistung erzielt wird.

Die aktuelle Top-500-Liste

Am 20. Juni 2002 präsentierte Hans Werner Meuer auf der Supercomputer-Konferenz in Heidelberg die 19. Top-500-Liste. In diesem Jahr löste der japanische, zivile Earth Simulator den IBM ASCI White von IBM mit einer Linpack-Leistung von fast 36 TFlops gegenüber 7,2 TFlops ab. Diese entspricht der Summe Linpack-Leistungen der Rechner von Platz 2 bis 18 oder einem Viertel der gesamten Top500.

Der Earth Simulator benötigt den Platz von drei Tennisplätzen. Er besteht aus 640 Rechenknoten mit insgesamt 5120 CPUs. Jeder Knoten besteht aus acht Vektorprozessoren mit je 8 GFlops Rechenleistung. Jeder Rechenknoten kann auf 16 GByte Hauptspeicher zugreifen; das komplette System verfügt damit über 10 TByte Speicher. Der Earth Simulator läuft mit dem Unix-basierten Betriebssystem Super-UX und unterstützt die Programmiersprachen Fortran 90 und C++.

Sieger und Verlierer

Die Stellfläche des auf Platz 2 abgefallenen ASCI White entspricht ebenfalls der von drei Tennisplätzen bei einem Gewicht von 106 Tonnen (das entspricht 17 ausgewachsenen Elefanten). Der Energieverbrauch von 1,2 MW kommt dem von etwa 1000 Haushalten gleich. ASCI White besteht aus 8192 Power3-Kupferprozessoren mit 375 MHz und 512 Knoten mit jeweils 16 CPUs. Die Kupferverkabelung entspricht mit 2000 Meilen der Strecke von Paris bis Moskau.

ASCI Red, der letztjährige Vice von Intel wird in der neuen Top 10 auf Platz 7 durchgereicht. ASCI Blue von IBM fällt von Platz 3 auf 9. Insgesamt platziert IBM fünf Rechner unter die ersten zehn. Der Hitachi SR8000-F1/112 des LRZ in München erreichte nach der Aufrüstung jetzt als schnellster deutscher Rechner Rang 14.

Durch die Verschmelzung von Compaq und Hewlett-Packard schiebt sich das neue Unternehmen von der Anzahl her in den Top 500 nach vorne: 168 Rechner mit einem gesamten Rmax von 49 TFlops. Als Nummer zwei folgt IBM mit 164 Rechnern aber einer Gesamtleistung von 74 TFlops. Abgeschlagen mit nur 40 Rechnern folgt SGI auf Platz 3 mit 13 TFlop/s Rmax. NEC schiebt sich mit 15 Rechnern leistungsmäßig auf Platz 3 mit 42 TFlops.

Platz 500 nimmt ein Microway Pentium 3 Cluster mit 134 GFlops ein. Im letzten November reichte das noch für Platz 279. Damit sind in diesem Juni 220 Rechner aus der Top500 Liste vom November herausgefallen. Die gesamte Linpack-Leistung aller Systeme der Top-500-Liste wuchs von 135 TFlops im November 2001 auf 222 TFlops im Juni 2002.

Alternative IDC HPC Benchmark

Das Marktforschungsunternehmen IDC (International Data Corporation) erarbeitete zusammen mit HPC (High-Performance Computing, Supercomputing) User Forum einen eigenen HPC-Benchmark, der es auf eine breitere Basis stellte. Es bezieht die Rechenleistung, die Speicherbandbreite und die Skalierung mit ein. Zur Rechenleistung gehört der Linpack-Benchmark für einen Knoten sowie die SPECfp_rate_base2000 und SPECint_rate_base2000. Für die Zukunft sind weitere Prozessormetriken geplant.

Die Leistung des Speichersystems erfasst IDC mit der Speicherbandbreite eines Knotens und dem STREAM-Triad-Benchmark, einer Vektoroperation, bei der permanent Daten vom Speicher geholt, bearbeitet und wieder abgespeichert werden.

Die Skalierung, das Erweitern auf große Systeme, spielt im Supercomputing eine bedeutende Rolle. Hier gehen die Zahl der Prozessoren und die Bandbreite des Gesamtsystems ein. IDC unterteilt die Rechner noch in die Klassen:

Auf der IDC Webseite kann sich der Leser die Ergebnistabellen und die zu Grunde liegenden Excel-Tabellen herunterladen. Zusätzlich kann er eigene Tabellen erstellen, indem er beispielsweise einer der drei Einflussgrößen ein höheres Gewicht gibt, zum Beispiel speicherintensiven Programmen.

USA dominiert die Supercomputer-Welt

Mit 238 (48 Prozent) der installierten Supercomputer führen die USA bei der installierten Basis. Die Systeme bringen insgesamt 101 TFlops, das sind 46 Prozent der gesamten Rechenleistung, ein. Dann folgt Europa mit 171 Systemen (34 Prozent) und 54 TFlops. Durch den Earth Simulator hat Japan leistungsmäßig aufgeholt. Mit nur 53 Rechnern (11 Prozent) und 57 TFlops erreicht das Land 26 Prozent der gesamten Leistung.

Der große Rechnerlieferant sind ebenfalls die USA mit 456 Rechnern. Damit stellen sie 91 Prozent des Marktes mit einer Leistung von 164 TFlops. Mit dem Rest des Kuchens begnügt sich Japan mit 43 Systemen und 57 TFlops, entsprechend 26 Prozent.

Japan liefert übrigens die einzigen Vektorrechnersysteme der Liste. Stolz kann Megware aus Chemnitz sein, sie sind seit Jahren der erste europäische Rechnerlieferant.

Die deutschen Top 15

Deutschland hat inzwischen kräftig installiert, im Bereich Forschung und Hochschule beispielsweise das Hochleistungsrechenzentrum Nord in Berlin und Hannover sowie die Max-Planck-Gesellschaft jeweils mit einer IBM Regatta. Die Zahl der Rechner erhöhte sich vom November 2001 von 59 mit insgesamt 12 TFlops auf jetzt 64. Damit besitzt Deutschland zwar mehr Systeme als Japan, kommt aber in der Summe nur auf 20 TFlops, entsprechend 9 Prozent der weltweiten Gesamtleistung.

Da inzwischen Eigenbau-Cluster wie die in Heidelberg und der Universitäten in Chemnitz oder Tübingen an Bedeutung gewinnen, gibt es vom Top-500-Team eine neue Liste für Cluster. In dieser sind auch die Verbindungstopologien aufgelistet.

Auf dieser Webseite können Sie sich unter der Rubrik Database auch eigene Listen erstellen. Möglich sind beispielsweise Sortierungen nach industrieller Nutzung oder nach allen IBM-Rechnern in Deutschland. Daneben finden sich auch Statistiken zu den Rechner- und Prozessorarchitekturen.

Amerikas ASCIs...

Mit dem milliardenschweren ASCI-Programm, einer Initiative des amerikanischen Energieministeriums, sollen Wissenschaftler Atombombenversuche simulieren. So können die USA auf reale Versuche unterirdisch oder in der Atmosphäre verzichten (siehe auch tecVision-Beitrag zum Thema Informationstechnik und Krieg).

Die drei großen nationalen Laboratorien Sandia, Lawrence Livermore und Los Alamos erhalten mit die modernsten und schnellsten Rechner. Die Aufträge wurden an unterschiedliche Rechnerhersteller vergeben. Bisher haben Intel, IBM und SGI ihre Top-Systeme installiert. IBMs ASCI White und Blue belegen dabei Platz 2 und 9 der aktuellen Top 500, Intels ASCI Red Platz 7. Der ASCI Blue Mountain von SGI liegt auf Platz 15.

Compaq wird mit ASCI Q das neueste System liefern. Der über 200 Millionen US-Dollar schwere Auftrag sieht ein aus 11.968 Prozessoren bestehendes System vor, das mehr als 30 Tera-Operationen pro Sekunde ausführen kann. Die Basis bilden 374 32-Wege-GS320-Systeme mit einem Gesamtspeicherausbau von 12 TByte. Der Rechnerraum misst 4000 qm, die Hälfte davon wird ASCI-Q einnehmen.

... gegen Japans Earth Simulator

Die japanische Regierung förderte seit 1997 das Projekt Earth Simulator. NEC entwickelte einen Rechner für zivile Projekte, beispielsweise für die Erdbebenvorhersage, Wetter- und Klimaforschung wie auch für die Bestimmung des El NinoNEC.

Das System mit 5120 CPUs mit Ein-Chip-Vektorprozessoren mit 8 GFlops bei 500 bis 1000 MHz ist in 0,15-µ-Technologie realisiert. Das gesamte System besteht aus 640 Prozessor-Nodes mit jeweils acht Ein-Chip-Vektorprozessoren und je 16-GByte-Speicher. Es erreicht eine Spitzenleistung von 40 TFlops bei einem Gesamtspeicherausbau von 10 TByte.

Es wurde zeitplangemäß im Frühjahr 2002 in Betrieb genommen und schreckte mit seinen Leistungen die Amerikaner auf. Jack Dongarra, der Linpack-Papst, benannte ihn gleich als Computnik im Vergleich zum russischen Sputnik, der eine ähnliche Wirkung auf Amerika hatte. Obwohl das Projekt seit Jahren bekannt ist, glaubte niemand an den Erfolg mit 36 TFlop/s Linpack-Leistung.

Dieses Rmax rammte alle amerikanische Supercomputer in den Boden, um einen Faktor 5 schneller als die Top-500-Nummer-2 aus den USA. Die Projekte ASCI Q und Earth Simulator liefen parallel, der NEC Rechner hat nun die Nase vorn. Man darf gespannt sein, wann erste Ergebnisse von ASCI Q veröffentlicht werden. Für den Earth Simulator baute Japan ein Gebäude mit der Grundfläche von 50 mal 65 Metern. Zumindest hinsichtlich der Fläche wird ASCI Q einen ähnlichen Wert belegen.

Ausblick

Horst Simon, Direktor National Energy Research Scientific Computing mit dem damals schnellsten zivilen Rechner der Top500, wagte bereits auf der Supercomputer-Tagung 2001 einen Blick in die Zukunft. Er erwarte ein schnelles Wachstum bei Mikroprozessoren und offener Software. Zudem wachse die optimierte Netzwerkbandbreite schneller als Moore's Gesetz. Dennoch rechne er mit einem 100-TFlops-System erst 2005, zwei Jahre später als im ASCI-Szenario geplant.

Das PFlops-System erwartet er um 2009. Da sich aber im HPC-Bereich technologische Entwicklungen schnell vollziehen, sind sichere Prognosen sehr schwierig. Cluster-Systeme dominieren, wobei in den USA SMP- und in Japan Vektorknoten vorherrschen. In punkto Betriebssystem ist Linux für die kleine HPC-Gemeinde die Zukunft. Das bislang eingesetzte MPI-Programmiermodell (Message Passing Interface) sieht Horst Simon ausgereizt. Es stammt aus den 80er Jahren und war der kleinste gemeinsame Nenner. In der Zukunft könne es jedoch zur Barriere werden. (fkh/ala)

Informationen über den Autor:

Uwe Harms studierte Mathematik und Informatik an der Universität Hannover. Ab 1973 betreute er Anwender aus dem Hochschulbereich in der Nutzung der CDC Cyber 76 des Regionalen Rechenzentrums für Niedersachsen (RRZN) und ab 1984 niedersächsische Nutzer der Cray 1 in Berlin. Er leitete ab 1980 die Projektgruppe Parallel- und Vektorrechnersysteme des RRZN. 1986 wechselte er zur Industrieanlagen-Betriebsgesellschaft in Ottobrunn bei München. Dort unterstützte er industrielle Anwender des Supercomputers Fujitsu-Siemens VP200 in den Bereichen Automobil-, Luft- und Raumfahrttechnik sowie Forschung. Seit 1993 ist er als selbstständiger Berater für Supercomputing tätig und war einige Jahre Mitorganisator der HPCN. Derzeit ist er am EU-Projekt Hoise beteiligt.