The Grid - Intelligentes Internet

28.08.2002 von Günter Unerholzner

Durch die Erfindung des World Wide Web hat das CERN schon einmal das Internet revolutioniert. Kann es diesen Erfolg durch die Entwicklung superschneller, intelligenter Prozesse wiederholen?

Die Geschwindigkeit der Datenübertragung ist ein wichtiges Merkmal von Internet-Verbindungen. Doch immer häufiger liegt der Flaschenhals an anderer Stelle, zum Beispiel in der Verwaltung und Berechnung der angefragten Daten. Derzeit spüren das zwar nur einige Forschungsgruppen, diese dafür umso heftiger.

So arbeiten zum Beispiel die Physiker an der European Organization for Nuclear Research (CERN) mit Hochdruck an einem neuen Teilchenbeschleuniger. Dieser soll in fünf Jahren fertig gestellt sein und Datenmengen produzieren, die mit dem Internet in der heutigen Form nicht mehr zu bewältigen wären. "Der alte Beschleuniger lieferte Daten über zwei bis drei Ereignisse in der Sekunde, der neue wird Milliarden pro Sekunde ausspucken", so Hans Hoffmann, Direktor für Technologietransfer am CERN.

Die Erfassung dieser Datenmenge ist dabei nicht das Problem, dafür sind die heute eingesetzten Hochleistungsprozessoren bereits schnell genug. Die Auswertung der Daten bereitet Schwierigkeiten. Denn neben dem CERN wollen etwa 500 angeschlossene Institute diese Daten für ihre Forschungsprojekte nach unterschiedlichen Kriterien vorsortieren und durchrechnen.

Ziel des CERN ist es daher, in Kooperation mit anderen Instituten, eine Internet-basierte Technik zu entwickeln, die jedem Nutzer selbst auf komplexeste Fragen maßgeschneiderte Antworten liefert. Die Rechner holen sich im Internet automatisch selbst alles Nötige zusammen: Daten, Anwendungsprogramme und sogar die Rechnerkapazität. Dieses "Gitter" aus Tausenden miteinander vernetzten Computern weltweit gab dem Projekt auch seinen Namen: "The Grid".

Ein neuer Ansatz

Bisher greifen die Nutzer im Internet auf fertige Informationen zurück. Die Suchmaschinen gleichen die Seiten mit Schlüsselwörtern ab, und die Ergebnisse werden angezeigt. Im Prinzip funktioniert das World Wide Web daher wie eine riesige Bibliothek. The Grid soll dieser statischen Abfrage nun Dynamik verleihen. Das bedeutet, der Nutzer stellt dem Internet eine beliebige Frage. Sein PC organisiert daraufhin selbstständig die erforderlichen Daten, Anwendungsprogramme und Rechenkapazität, um anschließend die im Netzwerk berechnete Antwort anzuzeigen.

Wie diese Technik genau funktionieren wird, lässt sich heute noch nicht sagen. Sie dürfte aber auf bereits realisierten Grid-Programmen aufbauen. So setzt in den USA das "National Technology Grid" der National Partnership for Advanced Computational Infrastructure (NPACI) und der National Computational Science Alliance (NCSA) das vom Globus Project entwickelte Globus Toolkit ein. Diese Grid-Software verwendet man ebenfalls in Supercomputing-Zentren, Forschungslaboren, Colleges und Universitäten. Allerdings sind diese meist über ein Intranet miteinander verbunden.

Die Standard-Software

Damit diese Middleware auch im Internet funktioniert, entwickelt das Globus Project gerade die dritte Version ihres Toolkits. Und dabei arbeitet es auch mit dem CERN und dem dort angesiedelten DataGrid Project zusammen. "Middleware" ist übrigens eine allgemeine Bezeichnung für Programme, die jeweils zwei separate und bereits existierende Programme miteinander verbinden oder verknüpfen. Über diese Middleware können Applikationen, die für den Zugriff auf eine Datenbank geschrieben wurden, auch auf andere Datenbanken zugreifen.

Für die Anwendung des Globus Toolkits im Web muss dessen Architektur auf XML-Sprachen umgestellt werden. Eine große Rolle dürfte dabei das Simple Object Access Protocol (SOAP) spielen, das den Datenaustausch zwischen Server und Client regelt. SOAP ist unabhängig vom Transportprotokoll und funktioniert mit HTTP, FTP oder Java Messaging Service (JMS). Web Services Description Language (WSDL) und WS-Inspection könnten ebenso wie weitere noch zu entwickelnde XML-Sprachen mitspielen.

Eine kurze Geschichte

Initialzündung für das im Sommer 2000 gegründete DataGrid-Projekt des CERN waren vier Forschungsprojekte, die jedes für sich eine riesige Menge an zu verarbeitenden Daten erzeugen werden:

Die CMS- und ATLAS-Experimente am 2005 fertiggestellten Large-Hadron-Teilchenbeschleuniger untersuchen die Entstehung der Masse sowie Fragen um die Elementarteilchen.

LIGO soll die Gravitationswellen von Pulsaren, Supernovae und Sternenpaaren aufdecken.

SDSS wird automatisch und systematisch den Himmel nach Sternen, Galaxien, Nebulae sowie großräumigen Strukturen durchsuchen.

Alleine der Teilchenbeschleuniger wird dabei jährlich mehrere Petabyte an Daten liefern. Bereits die einfachsten Auswertungsschritte dieser Daten werden nur Supercomputer mit über 10 TFlops Rechenpower bewältigen können. Derzeit kommt dafür lediglich NECs Earth Simulator mit 36 TFlops in Frage. Bereits die Nummer zwei der aktuellen Computerrangliste ist mit ihren 7,2 TFlops zu leistungsschwach.

Vernetzung vieler kleiner Rechner

Statt immer leistungsfähigere Computer zu bauen, kann man aber auch auf die Vernetzung vieler kleiner Rechner zurückgreifen. Diese in den frühen 80er Jahren eingeführte Technik ist bereits Standard in den Netzwerken von Rechenzentren, Universitäten oder Firmen. So bestehen heute einige der schnellsten Supercomputer in Wirklichkeit aus einem Netzwerk einzelner Rechner.

Dass diese Netzwerke nicht auf einen Raum beschränkt sein müssen, wurde bereits früh erkannt. 1985 zeigte Miron Livny, dass die meisten Rechner in der täglichen Arbeit nicht ausgelastet werden und sich diese freien Kapazitäten über das Internet miteinander verbinden lassen. Sein System "Condor" wird heute standardmäßig in den meisten Universitäten eingesetzt. Doch den großen Durchbruch erreichte erst Scott Kurowski 1997 mit dem 30.000 Rechner umfassenden Entropia-Netzwerk, das die höchste bekannte Primzahl errechnete. Heute stellt das SETI@home-Projekt von David Anderson mit 500.000 über das Internet verbundenen Rechnern das größte Netzwerk dar. Es analysiert die Daten des Arecibo-Radioteleskops nach Anzeichen extraterrestrischer Intelligenz.

Wer ist dabei?

Grid-Computing soll nicht nur eine große Menge an Daten erfassen, sondern sie auch intelligent auswerten. Die ersten Konzepte dafür wurden 1995 im so genannten I-WAY-Experiment getestet. Dieses verband kurzzeitig 17 Supercomputer in Nordamerika. Wenig später wurde das älteste noch existierende Projekt ins Leben gerufen, das "National Technology Grid" der National Science Foundation (NSF). Die NASA konterte mit ihrem Information Power Grid.

Die Europäer setzten von Anfang an auf eine offene Architektur und Open Source. Deswegen arbeiteten sie auch sofort mit den nordamerikanischen Institutionen zusammen. Tatsächlich stehen heute sämtliche Grid-Projekte miteinander in Kontakt und tauschen ihre Erkenntnisse aus. Dazu gehört das am CERN angesiedelte DataGrid ebenso wie das Grid Physics Network (GriPhyN), das Particle Physics Data Grid (PPDG), das Network for Earthquake Engineering Simulation Grid (NEESgrid), das International Virtual Data Grid Laboratory (iVDGL) oder das National Technology Grid.

Gemeinsame Standards

Alle an diesen Projekten beteiligten Institutionen sowie einige weitere arbeiten im Rahmen des Grid-Forums an gemeinsamen Standards für Services und Protokolle. Schließlich war auch der einheitliche Standard TCP/IP der Schlüssel zum Erfolg des Internets.

Schon heute bauen alle größeren Grid-Projekte auf dem Globus Toolkit des Globus-Projekts auf, das einer Zusammenarbeit zwischen dem Argonne National Laboratory in Chicago und dem Information Sciences Institute der Universität von Südkalifornien entspringt. Es gilt somit als Quasi-Standard. Auch dieses Paket ist Open Source und verfügt über eine offene Architektur. Es bietet die grundsätzlichen Services, um Grid-Anwendungen zu programmieren: Sicherheitsfunktionen, Entdeckung und Management von Quellen sowie Datenzugriff.

Die Zukunft

Bislang beschränkt sich die Entwicklung der Grid-Applikationen auf rein wissenschaftliche Fragestellungen. Doch denken die Entwickler an die Zukunft. So sollen nicht nur die Wissenschaftler in Form von kleineren, flexibleren und einfacheren Data-Grids profitieren, sondern auch Unternehmen und sogar der normale Durchschnittssurfer.

Der erste Schritt außerhalb der Wissenschaft dürfte wohl von Firmen beschritten werden. So haben bereits Anfang des Jahres IBM und das Globus-Projekt gemeinsam die "Open Grid Service"-Architektur (OGSA) vorgestellt, die Grid-Computing mit Internet-Services verbinden soll. Auch für Geschäftsanwendungen will man Grid-Computing nutzen. IBM plant, die OGSA dabei als Kernbestandteil in sein Projekt eLiza zu integrieren, das automatische Kontrolle, Konfiguration und Problembeseitigung sehr komplexer Netzwerkstrukturen ermöglichen soll. OGSA wird bereits von anderen Unternehmen genutzt wie etwa AVAKI, Entropia, Microsoft oder Platform Computing.

Suchmaschinen und Grid-Computing

Auch Suchmaschinen könnten stark von Grid-Computing profitieren. Schließlich ist dessen komplexe und dynamische Abfragefunktion geradezu prädestiniert für Google, Yahoo und Co. Schon heute feiert eine Suchmaschine in englischsprachigen Ländern große Erfolge, die mit einem relativ einfachen Trick Sucheingaben im Klartext ermöglicht: AskJeeves. Sie sucht den eingegebenen Text nur nach Schlüsselwörtern ab und grenzt über Gegenfragen die möglichen Suchergebnisse immer weiter ein, bis nur wenige übrig bleiben. So erhält man selbst auf scheinbar unsinnige Fragen wie "Wer bin ich?" überraschend vernünftige Antworten. Grid-Computing könnte selbst komplexe Fragen sofort korrekt beantworten.

Jede Menge weiterer Anwendungen sind denkbar. So sinniert Hans Hoffmann vom CERN: "Ich will mir zum Beispiel ein Grundstück kaufen. Wenn in den Immobilienanzeigen dann künftig die Koordinaten stehen, kann ich mir den Ort über die Erdbeobachtung durch Satelliten auf meinem Computer anschauen. Ich kann mir die Zahl der Sonnentage der letzten zehn Jahre für diesen Fleck sagen lassen. Ich kann alle möglichen Sachen machen, die ich allein frage, sonst niemand. Wenn die technischen Möglichkeiten da sind, werden Provider auch die entsprechenden Dienste anbieten." (kpf)