Grid-Technologie Teil 2: Grundlagen, Dienste und Tools

10.05.2006 von Dr. Klaus Manhart
Die Grid-Technologie ermöglicht das Lösen komplexer Rechenaufgaben in einem ortsunabhängigen Verbund von Rechnern. Die Leistungsfähigkeit und Effizienz von Grids hängt aber von den Eingesetzten Diensten, Tools und Software ab.

Der erste Teil unserer kleinen Artikel-Serie beschäftigte sich mit Grundlagen, Standards und Aufbau der Grid-Technologie. Dabei haben wir detailliert die Architektur und Funktionsweise von Grids erläutert.

Der zweite Teil widmet sich den Diensten und Tools für das Grid-Computing. Dazu behandeln wir unter anderem die Grid-Software „Globus Toolkit“ und andere Grid-Computing-Tools. Zusätzlich stellen wir die wichtigsten Grid-Technologien namhafter Unternehmen wie IBM, HP, Oracle und Sun detailliert vor.

Serie: Grid-Technologie

Teil 1

Grundlagen

Teil 2

Tools und Anwendungen

Software für Grids: Globus Toolkit

Zu Beginn der Grid-Bewegung gab es nur Spezial-Software, die auf das jeweilige Problem zugeschnitten war. Standards oder Schnittstellen zu anderen Systemen waren nicht vorhanden. Erst die Globus Alliance trieb die Entwicklung von Grid-Standard-Software voran.

Das von der Globus Alliance entwickelte Globus Toolkit (GT) gilt derzeit als De-facto Standard. Sie ist die einzig verfügbare Umsetzung von OGSA. Die Open Source Implementierung des OGSA-Schichtenmodells besteht aus Open-Source-Werkzeugen und -Protokollen, welche dem Administrator die Konfiguration und Benutzung leichter machen sollen. Mit diesen Tools lassen sich Datenbanken und Rechenleistung über geografische Grenzen hinweg verteilen und benutzen.

Von GT gibt es inzwischen mehrere Versionen, die alle immer in drei Teile aufgespalten sind. Zum einen das Ressource Management zum Verwalten der Ressourcen, des weiteren die Information Services und zuletzt das Data Management.

GT2 basiert noch auf existierenden Internet-Standards und beschleunigte die Grid-Entwicklung, da es relativ weit verbreitet war. Im Vordergrund standen bei GT2 vor allem Benutzbarkeit und Interoperabilität. Nach der Veröffentlichung von GT2 wurde der OGSA-Standard eingeführt. In den folgenden Toolkits gewann deshalb die Entwicklung von Standards, die mit Web Services gut kooperierten, an Bedeutung.

Weitere Globus Toolkits

GT3 ist stark Web Service orientiert und eine Referenzimplementierung von OGSI. GT3 teilt sich in mehrere Schichten auf. Die Core-Layer beinhalten die Software zum Erstellen von Grid Services und stellen die Programmierschnittstelle dar. Die Securtiy-Service-Layer sind für die Grid Security Infrastruktur zuständig – Sicherheitsmaßnahmen für Transport und Authentifizierung. Weiter gibt es noch die Base Service Layer für diverse Dienste und die Data Service Layer, ein erweitertes FTP- und Datentransfer-Protokoll.

GT4, die neueste Version, arbeitet mit WSRF anstelle von OGSI. Es besteht sowohl aus Komponenten mit und ohne Web Services und ist stark service-orientiert. Eine besonders wichtige Komponente von GT4 ist GRAM (Grid Ressource Allocation and Management), das für die Übertragung und Kontrolle der Jobs zuständig ist.

Sun Grid Engine und andere Tools

N1 Grid Engine 6 von Sun

Neben Globus gibt es aber auch andere Grid-Software. An erster Stelle zu nennen ist dabei die N1 Grid Engine 6 von Sun, die frühere Sun Grid Engine.

N1 Grid Engine ist eine kommerzielle Software für Unternehmen zum verteilten Rechnen in einem Grid. Ressourcen können auf der Grundlage von Policies ausgewählt und im Grid genutzt werden. Dabei werden die Aufträge jeweils auf den Rechnern im Grid mit den meisten freien Ressourcen ausgeführt, so dass eine optimale Lastverteilung im Grid erreicht wird.

Die N1 Grid Engine 6 unterstütze alle führenden Unix-Plattformen einschließlich Solaris und Linux und ist in der Lage, bis zu 10.000 Systeme in ein einziges Grid zusammenfassen. Eine Einführung in die Sun Grid Engine gibt es beispielsweise an der Universität Hamburg in Englisch oder eine Kurzeinführung in Deutsch.

Für die Sun Grid Engine gibt es eine Reihe von Zusatztools. Das N1 Grid Tool Kit bietet Entwicklern eine kostenlose Lizenz für das N1 Grid Service Provisioning System und erleichtert mit dem N1 Grid Service Provisioning System Developer Guide den Einstieg in die N1 Grid Systeme.

Sun Grid Tools

Die Ready-to-Deploy Grid Computing Solution ist das Sun Fire V20z Compute Grid Rack System auf Basis von AMD Opteron Servern. Diese Cluster-Lösung steigert die Auslastung der Ressourcen um 90 Prozent, minimiert den Systemrollout auf wenige Stunden und die Installation von 32 Knoten für das Betriebssystem auf unter 60 Minuten.

Kommerziell nutzbare Grid-Software wurde vor allem auch an Universitäten entwickelt. Das NorduGrid ist eine Open-Source-Software, die auf Standards wie dem GT beruht und auch unter der Global Toolkit Licence läuft.

Gleichermaßen für lokal und global verteilte Knoten eignet sich Legion, ein Grid-Projekt der Universität Virginia. Es handelt sich dabei um ein objektorientiertes Metasystem für eine Grid-Infrastruktur und setzt in diesem Bereich Standards für die gemeinsame Nutzung von Ressourcen bei parallelem Rechenbetrieb.

Cactus ist ein quelloffenes Framework, das sich als universelle Problemlösungsumgebung versteht. Es behandelt Anwendungen wie Module, die über eine einheitliche Schnittstelle miteinander kommunizieren, um technische Probleme parallel auf unterschiedlichen Plattformen zu bewältigen.

Condor ist ein Batchsystem, das sich sehr gut für dafür eignet, rechenintensive Prozesse mit wechselnden Parametern bei hohem Datendurchsatz auszuführen. Es ist komplementär zum Globus Toolkit: Condor-Pools lassen sich mit Hilfe von Condor G in Computational Grids einklinken, die auf dem Globus Toolkit aufsetzen. Globus kümmert sich um Sicherheit und Ressourcen, während Condor eingesetzt wird, um Jobs auf Systeme zu submitten, die von Globus gemanagt werden.

Oracles Grid Computing Software

Auch Oracle will software-seitig beim Grid-Computing mitmischen. Der Datenbank-Konzern versucht derzeit eine Ausweitung seines Geschäftsfeldes um Grid-Software. Wenn Oracle von Grid Computing spricht ist allerdings nicht das Internet gemeint, sondern Oracle beschränkt sich auf unternehmensinterne Anwendungen. Firmen sollen damit ihre vorhandene IT optimaler ausnutzen, anstatt weiterhin zusätzliche Kapazitäten für einzelne Projekte hinzuzukaufen.

Oracles Grid-Ansatz nennt sich Oracle 10g. Er unterstützt Konzepte für die Virtualisierung und dynamische Bereitstellung von Ressourcen. Zwei Software-Produkte spielen dabei eine Hauptrolle: Die Oracle Database 10g und der Oracle Application Server 10g. Über die beiden Programme lassen sich Server und Speicher zu einer „On-Demand-Rechenressource“ für die Rechenbedürfnisse eines Unternehmens zusammenschalten. Jede Art von System - Großrechner, UNIX, Windows- oder Linux-Server - kann damit zum Aufbau eines Enterprise Grid auf der Basis der Oracle Infrastruktursoftware 10g genutzt werden.

Technologien wie Oracle Real Application Clusters (RAC), Oracle Ressource Manager, Automatische Speicherverwaltung und Oracle Scheduler sollen dabei IT Ressourcen mit den geschäftlichen Prioritäten in Übereinstimmung bringen. Datenbereitstellungsdienste wie Oracle Transportable Tablespaces, Data Pump und Oracle Streams stellen dabei Informationen verschiedenen Nutzern, Anwendungen und Servern bedarfsorientiert zur Verfügung.

Details zu Oracles Grid Computing Software

Herzstück von Oracles Grid Computing Philosophie ist die Datenbank-Cluster-Technologie Oracle Real Application Clusters. Auf der geclusterten Datenbank laufende Anwendungen können unverändert betrieben werden, selbst wenn der Cluster um zusätzliche Server und Storage erweitert wird. Die integrierte Clusterware umfasst eine Reihe üblicher Clustering-Services, die in die Oracle Datenbank 10g eingebaut sind.

Zur einfachen Verwaltung der Enterprise Grids dient der Enterprise Manager 10g. Der Grid-Manager beinhaltet eine automatisierte Verwaltungssoftware, die einen vollständigen Überblick über die komplette EDV-Infrastruktur eines Unternehmens liefert. Hinzu kommt mit Oracle Grid Control eine Software, die die gesamte Grid Infrastruktur auf einer einzigen Konsole verwalten und überwachen kann. Sie liefert zudem gezielte Vorschläge zur Kapazitäts-, Verfügbarkeits- und Performance-Steuerung im Grid.

HP Storage Grids

HP versucht ebenfalls, Grid-Technologien in seine Produkte zu integrieren. Wie Oracle nimmt das Unternehmen eine sehr verkürzte Grid-Perspektive ein und beschränkt sich auf unternehmensinterne Enterprise-Lösungen.

HP will Kunden mit Grid-Funktionen bei den neuen Servern locken. Diese beinhalten eine Architekturerweiterung auf Basis der Advanced Architecture in Richtung der Itanium II-Chips von Intel und Schnittstellenerweiterungen.

Vor allem will HP sein Speichergeschäft um Grid-Funktionen erweitern. Im Speicherkontext bedeutet Grid, dass sich Anwender nicht mehr um die Art des Speicherns von Daten kümmern, sondern sich vielmehr auf die Möglichkeiten der Datennutzung konzentrieren sollten.

Um die Vorzüge eines Grids auch für Speicherlösungen zu nutzen hat HP die Storage Grid-Architektur eingeführt. Das Kernstück dieser Architektur sind so genannte „Smart Cells“ - in sich geschlossene Systeme mit eigenem Prozessor, Arbeitsspeicher und Speicher. Smart Cells setzen sich aus Komponenten zusammen, die auf Industriestandards basieren und unterstützen das vom Global Grid Forum definierte Grid-Protokoll. Im Prinzip sind alle Zellen identisch. Jede Zelle kann jedoch beispielsweise durch mehr Arbeitsspeicher oder einen schnelleren Prozessor unterschiedlich konfiguriert werden.

Details zu HP Storage Grids

Ihre jeweiligen Aufgaben im Grid werden erst durch die auf ihnen laufende Software definiert. Einzelne Zellen fungieren so beispielsweise als File-Server, arbeiten als Archivierungs- sowie Retrieval-Lösung oder übernehmen Reporting-Funktionen. Administratoren können Zellen jederzeit je nach Bedarf auch andere Aufgaben zuweisen. Diese Architektur ermöglicht hochgradig skalierbare und leicht zu verwaltende Speichersysteme.

Über so genannte „Content Services“ lassen sich in einem HP Storage Grid Daten automatisiert aufbereiten. So ermöglichen Storage Grid-Systeme beispielsweise integrierte Suchfunktionen oder können Dokumente nach definierten Vorgaben ablegen, bereitstellen oder löschen. Auf Wunsch erhalten Nutzer auch Informationen über Veränderungen im Datenbestand. Dies erleichtert IT-Verantwortlichen das Management von Daten und senkt dadurch die Kosten für die Administration.

Erste, auf Storage Grids basierende Lösungen sind bereits erhältlich. So bietet HP beispielsweise mit dem StorageWorks Reference Information Storage System (RISS) eine umfassende Information Lifecycle Management-Lösung. Ihre Grid-basierte Architektur erfasst und indiziert Informationen applikationsspezifisch und contentbasiert. So lassen sich wichtige Informationen aus unterschiedlichen E-Mail-Programmen, Microsoft Office-Dokumenten oder anderen gängigen Datenformaten rasch aktiv archivieren und wiederfinden. Außerdem können statische Daten wie etwa Microsoft Exchange Messages auf RISS verlagert werden. Damit erweitert HP seine traditionellen Speichertechniken um klassische Dokumenten-Management-Funktionen

Ein Beispiel, wie Storage Grids in der Praxis eingesetzt werden, findet sich hier

Kommerzielle Service Grids – Suns Public Grid

Kleinere und mittlere Unternehmen, die nicht in eine eigene Grid-Infrastruktur investieren wollen, können auf Service Grids zurückgreifen. In diesem Segment sind derzeit vor allem HP, Sun und IBM aktiv. Von allen Grid-Dienstleistern hebt sich besonders Sun durch eine extrem einfache Nutzung ab.

Von Sun gibt es schon länger einige öffentliche Grid-Rechenzentren in den USA, England und Schottland. Zum Preis von einem US-Dollar je CPU und Stunde sowie einem US-Dollar je GB Speicherplatz pro Monat bietet das Sun Grid echtes Utility Computing. Die Sun ONE Grid Engine bildet dabei das Herz der Grid-Initiative von Sun.

Auf dem Grid in Schottland läuft beispielsweise eine Anwendung für die Finanzbranche. Mit Hilfe der Applikation CDOSheet von CDO2 in London kommen Anwender aus der gesamten Finanzbranche in den Genuss der Vorteile von Simulationen, die zuvor nur von großen Investmentbanken wirtschaftlich zu nutzen waren. CDOSheet führt Risikobeurteilungen von Schuldverschreibungen („Collateralized Debt Obligations“, CDOs) durch. Bequem per Browser abrufbar, erledigt CDOSheet auf dem Sun Grid mit 256 Prozessoren in weniger als einer Stunde die Arbeit, für die zuvor ein leistungsfähiges System Tage benötigt hätte.

Seit Mitte März können auch kleinere Kunden Rechenzeit auf Suns „Public Grid“ buchen. Der Service steht auf Network.com zur Verfügung. Interessenten kaufen dabei einfach über das Webportal Rechenleistung ein – ebenfalls für einen Dollar pro CPU-Stunde. Bezahlt wird mit Kreditkarte oder über den Bezahlservice Paypal.

Suns Public Grid im Detail

Obwohl die Zielgruppe von Sun nicht klar genannt wird, dürfte das Angebot vor allem für KMUs interessiert sein, die nur kurzfristig auf höhere Rechenleistungen zurückgreifen wollen. Ein Architekt zum Beispiel könnte die Grid-Leistung nutzen, um schnell ein paar 3D-Modelle für eine Kundenpräsentation zu rendern.

Die Infrastruktur für das Unternehmens- und das neue, öffentliche Grid sind im Wesentlichen identisch. Allerdings können Enterprise-Kunden auch Linux als Betriebssystem fahren, das Public Grid findet exklusiv auf Solaris 10 statt. Akzeptiert werden 32-Bit-Programme, die selbstständig unter Solaris 10 für x86 lauffähig sind. Über die Solaris-Standardbibliotheken hinaus gehende Zusatzbibliotheken müssen mitgeliefert werden. Eine genaue Beschreibung der Grid-Bedienung können Sie in einer PDF-Datei nachlesen.

Tests in der Betaphase haben ergeben, dass das Public Grid bis zu 2000 Benutzer gleichzeitig verträgt. Wegen der von der US-Regierung verlangten Sicherheitsüberprüfung vergehen allerdings 24 Stunden bis zur Bearbeitung eines Antrags. Das derzeit größte Manko: Wegen der Sicherheitsbedenken der US-Regierung können vorerst nur US-Bürger den Grid-Service nutzen. Im Herbst soll der Dienst aber auch Kunden in England zur Verfügung stehen. Mit weiteren europäischen Partnern stehe man in Verhandlungen, heißt es bei Sun.

IBMs Grid Projekte

Auch IBM bietet Unternehmen Grid-Computing als Service an. Big Blue will den Grid-Service unter der Fahne des Demand Computing anbieten, von dem vor mehreren Jahren bereits im Kontext von Virtualisierung und Partitionierung die Rede war. Dazu will IBM große Supercomputer-Grids betreiben, um Rechnerleistung und Speicherressourcen an Firmen zu verkaufen. Unternehmen sollen damit die Möglichkeiten von Supercomputern nutzen können, ohne die Kosten für den Betrieb tragen zu müssten.

Eine ganze Reihe von Grid Services hat IBM bereits gestartet. Grid & Grow beispielsweise richtet sich an Unternehmen aus der produzierenden Industrie, der öffentlichen Verwaltung, dem Finanzwesen und anderen Branchen. Wie der Name andeutet, ist die Lösung darauf ausgelegt, mit den Anforderungen des Unternehmens zu wachsen und kann als Basis für größere Grid-Implementierungen dienen.

Mit ihrer skalierbaren Architektur soll Grid & Grow vor allem Unternehmen mit rechenintensiven Anwendungen unterstützen, ihre Ziele schneller zu erreichen. Kern des Pakets ist die IBM-eServer-BladeCenter-Plattform mit Linux und anderen Betriebssystemen sowie einem Grid Scheduler, der die Rechenressourcen im Grid zusammenfasst und den jeweiligen Anwendungen zuteilt. IBM Global Services sorgt für die Installation, das Anpassen und Testen der Lösung sowie für Schulungen im Unternehmen.

IBMs weltweite Grid-Aktivitäten

Die Aktivitäten von IBM beim Grid-Computing sind immens. So hat IBM beispielsweise über mehrere Standorte verteilte Supercomputer der Forschungs- und Entwicklungslabors in den USA, Israel, der Schweiz, Japan, England und Deutschland zum so genannten IBM IntraGrid verbunden. Dieses Netz wird vornehmlich für weltweite Forschungsaktivitäten zu Grid-Services und -Lösungen genutzt.

In Deutschland hat das IBM Entwicklungszentrum Böblingen intern ein Grid-Netzwerk auf verschiedenen Plattformen und Rechnersystemen im produktiven Einsatz. Genutzt wird diese Rechenpower vor allem im Chip-Design für rechenintensive Simulationen. Hier wird aber auch an Pilotprojekten mit Kunden aus der Automobilindustrie, der Mineralölindustrie und der Biotechnologie gearbeitet.

Fazit

Unsere zweiteilige Artikel-Serie zeigt: Wer sich mit Grid Computing beschäftigt sieht sich einer verwirrenden Vielfalt an Begriffen, Projekten, Standards und Software gegenüber. Dieser Komplexität steht bislang noch eine relativ geringe Ausbeute an praktischen Ergebnissen und Anwendungen gegenüber.

Vom Ziel der Grid-Technik, die gesamte Hardware, Software und Services Grid-fähig zu machen, ist noch nicht viel umgesetzt. Von flexiblen Systemen, die sich selbst verwalten und ihre Ressourcen, Anwendungen und Daten den Anwendungen und Nutzern nach deren Bedarf als Dienst zur Verfügung zu stellen, sind erst Ansätze erkennbar. Sein Versprechen wird Grid Computing erst erfüllen, wenn die Technik ebenso kostengünstig wie zuverlässig und abhörsicher ist. Dafür dürfte noch einige Zeit verstreichen.

Am vielversprechendsten sind derzeit noch unternehmensweite Grids, die noch nicht im Internet, sondern im firmeneigenen Intranet realisiert werden. Erst die nächsten Entwicklungsstufen sind die Realisierung von Grids zwischen Unternehmen und schließlich das World-Wide-Grid.

Auch Grid Services können bereits punkten. Zumindest mittelfristig ist denkbar, dass sich damit ein ganz neuer IT-Dienstleistungszweig entwickelt, der Computerressourcen on-demand bereitstellt. Erste Ansätze dazu sind vorhanden, wie Suns Grid Initiative demonstriert. Davon profitieren vor allem mittlere und kleinere Unternehmen, die sich leistungsfähige Rechenpower billig mieten können. (hal)

Serie: Grid-Technologie

Teil 1

Grundlagen

Teil 2

Tools und Anwendungen