CERN: 200.000 PCs in einem Grid

03.09.2003 von UWE HARMS

Der neue Teilchenbeschleuniger LHC des CERN wird 8 PByte Daten pro Jahr erzeugen. Das Forschungszentrum Karlsruhe ist eines der Zentren zur Datenauswertung - und rüstet seine Hardware derzeit massiv auf.

Das Bundesforschungsministerium wählte als nationales Grid-Rechenzentrum das Institut für wissenschaftliches Rechnen (IWR) am Forschungszentrum Karlsruhe aus. GridKa soll für das CERN -Projekt Large Hadron Collider (LHC), den größten Beschleuniger der modernen Teilchenphysik, die Messwerte auswerten.

Bis 2007 will CERN einen 27 Kilometer langen, kreisförmigen Teilchenbeschleuniger nahe Genf 100 Meter unter der Erdoberfläche bauen. In ihm werden Protonen oder Atomkerne mit nahezu Lichtgeschwindigkeit aufeinander geschossen. Die beim Zusammenstoß zerplatzenden Elementarteilchen geben einen Einblick in die innere Struktur der Materie. Pro Jahr entsteht dabei eine Datenflut von 8 Petabyte (8 Millionen Gigabyte), die 8000 Wissenschaftler weltweit analysieren und auswerten. Gespeichert auf Floppy-Disks würden dafür über fünf Milliarden Stück benötigt, ein Turm von knapp 20.000 Kilometer Höhe.

Um diese Datenmengen zu verwalten, zu speichern und zu bearbeiten, realisierten die Beteiligten ein Mehrebenenkonzept. Die Datensammlung, Schicht 0, übernimmt CERN. Neben CERN stellen acht bis zehn Zentren weltweit Rechenkapazität bereit und speichern die Experimente als Ebene 1. Die Ebene 2 umfasst etwa 100 Universitätsrechenzentren, die nächste etwa 1000 Institutsrechner. Aus der Ebene 4 greifen etwa 8000 Forscher auf die Kapazitäten zu.

Speicherplatz für Petabytes

Das Forschungszentrum Karlsruhe weihte das GridKa Ende Oktober 2002 ein. Es ist eines der zehn nationalen Zentren der Ebene 1. Inzwischen wird die Rechen- und Speicherkapazität dort massiv erweitert. Am 24. Juli 2003 nahm das Zentrum zunächst einmal 70 Terabyte (70.000 Gigabyte) Plattenplatz in Betrieb. Dieser wird vertragsgemäß bis 2005 in Stufen auf 340 Terabyte ausgebaut.

Natürlich wird eine derart massive Beschaffung von Ausrüstung europaweit ausgeschrieben. In dem harten Duell setzte sich der herstellerunabhängige Systemintegrator Systematics Technology Solutions durch, der Plattensysteme von IBM auswählte. Es war das kostengünstigste und technisch tragfähigste Angebot.

Für Systematics und IBM ist das Forschungszentrum Karlsruhe schon lange ein guter Kunde. Innerhalb von drei Tagen installierten die Partner die 70 Terabyte in nur dreieinhalb Schränken (Racks). GridKa erweitert damit das vorhandene Storage Area Network (SAN) und verbessert zugleich die Verfügbarkeit. Kontinuierlich will das Zentrum den Plattenplatz auf Petabyte-Niveau erweitern.

Die eingesetzten TotalStorage-Speichersysteme von IBM mit innovativer Fibre-Channel-Technologie sollen bis in diese Dimensionen skalieren. Daneben unterstützt der IBM FAST Storage Manager die Funktionalitäten FlashCopy, schnelles Kopieren der gespeicherten Dateien ohne Behinderung des SAN-Verkehrs, Dynamic Volume Expansions, Online-Modifizieren der Größe der logischen Einheiten sowie das Remote Mirroring.

200.000 PCs in einem Grid

Neben den Plattensystemen stehen 460 Pentium-3- und Pentium-4-Prozessoren mit etwa 900 GFlop/s (Milliarden Rechenoperationen pro Sekunde) Spitzenleistung bereit. Auch ihre Zahl soll sich noch im Jahr 2003 verdoppeln. Für das Jahr 2008, wenn die ersten Messdaten vom LHC-Projekt ankommen, wird GridKa erheblich größer sein. Klaus-Peter Mickel, Leiter des IWR am Forschungszentrum Karlsruhe, rechnet mit etwa 23.000 PCs, 1,4 Petabyte Platten- und 3,5 Petabyte Bandspeicher. Auf die zehn Rechenzentren der Ebene 1 bezogen, summiert sich die Zahl der PCs auf mehr als 200.000.

Diese Rechner sollen dem Forscher der Ebene 4, der die LHC-Daten analysiert, wie ein einziger Rechner erscheinen. Bei diesem virtuellen System weiß er natürlich nicht, wo die Daten und die Auswertungsprogramme lagern und wo sein Job bearbeitet wird. Das ist Grid-Computing in Reinkultur. Die Beteiligten müssen daher bis 2008 die Middleware auf der Basis offener Software so gestalten, dass dieses Vorgehen tatsächlich möglich wird. Auch müssen 200.000 PCs und 15 Petabyte verwaltet werden.

Schon im Frühjahr 2003 kündigten CERN und IBM eine Kooperation im Openlab für DataGrid-Anwendungen an. Sie arbeiten an einer Speichervirtualisierung, Dateiverwaltung und einem Dateisystem, die diese Dimensionen unterstützen. Die IBM Labs entwarfen Storage Tank, das viele und riesige Dateien unabhängig vom Lagerort und Betriebssystem verwaltet. Gemeinsam erweitern sie das System für einen weltweiten Zugriff auf ein beliebiges Rechenzentrum.

Start 2007 - Test jetzt

Die LHC-Aktivitäten starten zwar erst 2007/2008, doch schon jetzt nutzen Teilchen- und Hochenergiephysiker das GridKa zur Auswertung anderer Experimente. Inzwischen greifen 19 Forschungseinrichtungen mit etwa 350 Wissenschaftlern auf das Zentrum zu.

Vier verschiedene Nicht-LHC-Beschleunigerexperimente, werten sie dort aus: BaBar SLAC in Stanford, die Experimente CFD (The Collider Detector) und D0 am Fermi Lab und Compass am CERN. Dazu kommen dann noch die Experimente ALICE, ATLAS, CMS, LHCb, für die das GridKa schon jetzt eine Testumgebung bietet.

Neben der Auswertung der Daten wird sich am GridKa ein enormes Know-how über Grid-Computing entwickeln. Dies will man dann für andere Forschungsbereiche wie Biologie, Klima, Medizin oder Verkehrswissenschaften nutzbar machen.

Mehr zum Thema Grid lesen Sie in unserem Beitrag The Grid - Intelligentes Internet. Weitere Informationen zum Supercomputing bieten die Artikel Supercomputing: Die neue Top500-Liste und Supercomputing sowie unsere voll sortierbare Tabelle der aktuellen Top500 Rechner.(ala)