Tollhouse - TU Dresden baut modernen HPC-Komplex

15.07.2005
Die TU-Dresden lässt von SGI einen Hochleistungsrechner bauen. In den nächsten 15 Monaten entsteht dabei eine Shared-Memory-Plattform SGI Altix der nächsten Generation, die mit über 1000 Intel Itanium-2-Prozessorkernen arbeitet.

Den Rechner mit dem Codenamen „Tollhouse“ ergänzt ein Speichersystem und eine PC-Farm. Sechs TByte Hauptspeicher stehen dem System zur Verfügung. SUSE Linux Enterprise Server kommt als Betriebssystem zum Einsatz. Am Zentrum für Informationsdienste und Hochleistungsrechnen (ZIH) der TU Dresden wird für den Koloss eigens ein neuer dreigeschossiger Maschinenraum entstehen, um die neue Rechner- und Speichertechnik auf einer Gesamtfläche von 430 Quadratmetern unterzubringen.

Allein das SGI-Tollhouse-System wiegt rund 18 Tonnen. Die HPC-Plattform (High Performance Computing) wird mit Luft, die PC-Farm mit Wasser gekühlt. An elektrischer Energie wird die Gesamtlösung mehr als ein halbes MegaWatt verbrauchen. Die Fertigstellung des Raums ist für Anfang 2006 geplant.

Neben der Shared-Memory-Plattform ergänzt eine intelligent organisierte Massenspeicherung mit schnellem Zugriff auf große Datenmengen das Projekt. SGI installiert dafür ein HPC-SAN, das mit einer Bandbreite von 8 GByte/s an das Altix-System angeschlossen ist. Das SAN bietet 60 TByte Plattenspeicher. Zum Einsatz kommen dabei InfiniteStorage-Lösungen von SGI und FibreChannel-Disk-Array-Systeme von DataDirectNetworks. Zusätzlich ist an das SAN mit hoher Bandbreite ein PetaByte großes Archiv-Bandroboter-System angebunden.

Der riesige Speicherkomplex muss mindestens 4 TByte in nicht mehr als zehn Minuten in den Speicher der Tollhouse-Systems liefern können, so lautetet die Anforderung der TU. Den Weg vom HC ins „Archiv“ sollten 25 TByte in vier Stunden bewältigen können. Allinea Software stellt das Software-Tool DDT-Debugger plattformübergreifend zur Verfügung. Der Debugger soll die Nutzung des Gesamtsystems erleichtern.

„Wir wollten keinen weiteren Numbercruncher“

Der schnelle Weg zum Speicher gilt als ein Schlüssel für den Einsatz des Systems. Die bandbreitenstarke Anbindung an den Massenspeicher bietet den Vorteil, dass das System in kurzer Zeit neuen Benutzern oder Projekten zur Verfügung steht. Und genau darin sieht die TU die Besonderheit ihres HPC-Ansatzes: Das System soll ausgewählten Benutzer und Projekten über eine gewisse Zeit hinweg eine mächtige Computing-Ressource bieten, mit der hochkomplexe Fragestellungen angegangen werden können. Die SGI-Plattform fungiert dabei als Capability-Computing-Maschine: Die geballte Verarbeitungs- und Speicherkapazität des Systems oder großer Teile davon könnte so zu einem Zeitpunkt einer einzelnen Anwendung oder einer einzelnen Benutzergruppe zur Verfügung stehen.

Professor Wolfgang E. Nagel, Direktor des ZIH, erläutert den Ansatz so: "Wir wollten nicht ein weiteres Rechenzentrum einrichten, das im Wesentlichen nur Numbercrunching unterstützt. Unser Fokus ist, der wissenschaftlichen Computing-Gemeinde ein neuartiges Instrument, einen neuen Typ von HPC-Tool zur Verfügung zu stellen. Nicht die üblichen Simulationsprobleme stehen hier im Vordergrund, es geht uns mehr darum, den Anwendern eine Plattform zu liefern, mit der sie aus Unmengen von strukturierten oder unstrukturierten Daten, welche viel verstecktes Wissen in sich tragen, neues Wissen, mehr Wissen, dichteres Wissen extrahieren und herausarbeiten können."

Flottes Beiwerk - PC-Farm für simultane Nutzung

Ergänzend zum HPC-Komplex integriert SGI auch noch eine PC-Farm, die als Plattform für heterogenes Computing dienen soll. Die PC-Farm wird von LinuxNetworx geliefert, zum Einsatz kommen aktuelle AMD-Opteron-Prozessoren. Das ZIH sei so in der Lage, Software für unterschiedliche Prozessortypen (Itanium und Opteron) zu unterstützen.

Auch für die PC-Farm wird ein SAN-Komplex integriert. Laut TU Dresden ebenfalls mit 60 TByte RAID-Storage des Herstellers DDN sowie mit schneller Anbindung sowohl an die Farm wie auch an das HPC-SAN. Als Shared-Filesystem für den PC-Farm-Teil kommt Lustre zum Einsatz. In US-Laboratorien gilt Lustre laut ZIH als Standard für Linux-Cluster.

Die Wissenschaftler erhoffen sich durch den Rechner-Komplex Antworten auf verschiedenste Fragestellungen aus den Bereichen Physik, Materialforschung, Engineering bis hin zu Bioinformatik und Nanotechnologie.

Die TU zählt dazu etwa die Erforschung von organischen Stoffen, die bei chirurgischen Eingriffen an Knochen metallische Legierungen ersetzen können und weniger Unverträglichkeiten hervorrufen. Materialforschung mit Analyse komplexer biomolekularer Reaktionen sind dazu nötig. Ein weiteres Feld könnte die Züchtung neuartiger und perfekter gewachsener Kristalle sein. Die Forscher wollen dabei elektrisch leitfähige Fluide unter Einfluss von Magnetfeldern betrachtet und mit Methoden der Computational Fluid Dynamics (CFD) turbulente Strömungen des Fluids analysieren. Weitere Probleme, die es zu lösen gilt, sind etwa die Beeinflussung von Störgeräuschen im Innenraum eines Autos und das bessere Verständnis der chemischen Reaktionen beim Protein-Docking.

Die Realisierung des Gesamtprojekts ist in zwei Stufen geplant. Die Technologie wird zu einem Drittel, noch diesen Herbst angeliefert. Das ZIH sieht darin eine ´“Preparation“-Umgebung, auf der Benutzer Anwendungscodes und Algorithmen entwickeln und optimieren können. Die Stufe 1 bedeutet die Installation eines SGI-Altix-Bx2-Systems. Lieferstufe 2 soll ab 2006 erfolgen und im Sommer abgeschlossen sein. Die komplette Installation dauert nach Planungen der TU 15 Monate. Das neue System löst bereits während der Stufe 2 den Vorgänger BX2 ab.

Zusätzliche Informationen zum Thema entnehmen Sie den Reports Deutschlands schnellster Supercomputer und Supercomputing. (uba)