Verschlungene SAN-Pfade

17.08.2001
Für den Aufbau dedizierter Speichernetze hat sich Fibre-Channel durchgesetzt. Der kostengünstige Arbitrated Loop stößt rasch an Leistungsgrenzen, weshalb Unternehmen zunehmend auf die Fabric-Switch-Topologie setzen. Schwachstelle bleibt die unzureichende Standardisierung.

Von: Rainer Graefen

Standards haben das Manko, dass sie nie den aktuellen Stand der technischen Entwicklung erreichen. Dieses gilt auch für Storage Area Networks (SAN). "Führende Unternehmen der Storage-Networking-Branche präsentieren bahnbrechende Interoperabilitäts-Initiative", meldete Brocade Mitte Juni. "Erste echte Interoperabilitäts-Lösung", verkündete auch McData; die Erklärungen von IBM, EMC, Hitachi Data Systems und Compaq lauteten in ähnlicher Weise.

Analysten von IDC und Gartner würdigen die gemeinsame Anstrengung der sechs Hersteller. John McArthur, Vice President Storage Research bei IDC, spricht von einem Quantensprung und Nick Allen, Vice President und Research Director der Gartner Group, bestätigt, dass sich die Marktführer des Problems angenommen haben und den Weg hin zu einer echten Interoperabilität von Fibre-Channel-Switches (FC) freimachen.

Interoperabilität als Basis

Was sich so liest, als ob die Marktführer nun ihre Switches, Server und Speicher beliebig zusammenschalten könnten, ist nichts weiter als ein Supportabkommen - das "SNIA Supported Solution Forum". Auf Initiative der SNIA (Storage Networking Industry Association) sichern sich darin sechs Gründungsmitglieder in bilateralen Verträgen zu, dem Anwender gemeinschaftlichen Support zu gewähren.

Ein derartiges Phänomen ist von zentraler Bedeutung; es zeigt auf, dass viele Komponenten im Speichernetz nicht miteinander "reden". Die Hersteller versprechen schon seit zwei Jahren, SAN-Inseln zusammenzuführen. Die Fibre-Channel-Vernetzungstechnik enthält die Voraussetzungen für die Interoperabilität. SNIA unterscheidet hier drei Ebenen:

- Layer 1: Die Standard-Kompatibilität, bei der nachweislich die Komponente den geltenden Standards entspricht.

- Layer 2: Die Interoperabilität auf der Geräteebene, bei der Paare oder größere Gruppen von Geräten fehlerfrei zusammenarbeiten müssen.

- Layer 3: Die dritte Ebene setzt die Interoperabilität eines vollständigen Speichernetzes voraus, von

- den Geräten über die Software bis zu den gespeicherten Daten.

Auf der Komponentenebene (Layer 1) kümmert sich die FCIA (Fibre Channel Industry Association) mit dem "Sanmark"-Programm um die Überprüfung der Standards, die das ANSI-Komitee T11 festlegt. Die Zusammenarbeit von Geräten auf Ebene 2 demonstrieren die Hersteller, die sich regelmäßig zu Interoperabilitäts-Events treffen. Die dritte Ebene der Interoperabilität erreichen die in der SNIA vereinigten FC-Anbieter ansatzweise erst mit dem Supported Solutions Forum. Hier sollen Supportabkommen den Nutzen von Speichernetzen für die Anwender sicherstellen.

Erst das Netzwerk, dann der Loop

Die Fibre-Channel-Industrie steht noch immer am Anfang der Bemühungen, eine gemeinsame technische Basis durchzusetzen. Die Entwicklung des SAN verläuft ähnlich holprig wie die Anfänge des LANs, nur das Tempo ist viel schneller. So hat diese Entwicklung manche Hersteller wie Sun oder Hewlett-Packard sogar überrannt. Beide setzten auf den Fibre Channel-Arbitrated Loop (FC-AL), statt auf das Switched-Fabric-Protokoll. Mit FC-AL können Administratoren 126 Geräte beziehungsweise Knoten über eine Verbindung aus Kupfer oder Glasfaser zusammenschließen. Die einfachste Form, der FC-Loop, verbindet jeweils den Ausgang eines Geräts mit dem Eingang des nachfolgenden Geräts. Dieser geschlossene Kreislauf beginnt und endet am FC-Controller des Servers, dem so genannten Host Bus Adapter (HBA).

Für den professionellen Einsatz eignet sich der FC-Loop nicht, da der Ausfall eines Geräts die Datenübertragung unterbricht. Abhilfe schafft FC-AL mit FC-Hubs, die fehlerhafte Geräte aus dem Loop herausnehmen und neue hinzufügen können.

Im Vergleich zum Switch ist der Aufbau eines SANs mit Hubs um den Faktor fünf bis zehn preiswerter. Bei vielen Anwendern befinden sich Speicher- und Datensicherungssysteme wegen der SCSI-Längenbeschränkung von maximal 25 Meter meistens im selben Raum und bieten damit keinen Katastrophenschutz. FC-AL überbrückt mit einer Kupferverdrahtung Distanzen von 30 Metern, mit Multimode-Glasfaser 500 Meter und mit Single-Mode-Glasfaser sogar 10 Kilometer. Wo sonst teure SCSI-Extender notwendig sind, bietet Fibre-Channel eine vergleichsweise kostengünstige Möglichkeit, Datentresore oder gespiegelte Rechenzentren aufzubauen.

Zwei Nachteile machen den Kostenvorteil von FC-Hubs allerdings zunichte. Wenn ein Netzwerk wächst, stellt der Anwender schnell fest, dass eine theoretische Bandbreite von 100 MByte/s zum Flaschenhals wird, da sie von allen angeschlossenen Geräten geteilt werden muss. Zudem können immer nur zwei Geräte zur selben Zeit miteinander kommunizieren. Deshalb ist auch der FC-Loop nicht geeignet, performante Speichernetze aufzubauen.

Fabric-Prozeduren

Der Datenzugriff und die Datensicherung in einem Loop können Probleme verursachen. Beim Ein- und Ausschalten von Geräten erfassen so genannte LIP-Kommandos (Loop Initialization Primitive) die Loop-Konfiguration jedes Mal neu. Dieser Vorgang führt bei einem aktiven Bandlaufwerk zu einer Re-Initialisierung, welche die laufende Datensicherung unterbricht.

Einen Hub gegen einen Switch auszutauschen ist im LAN kein Problem. Im SAN funktioniert dies nur, wenn der Switch Loop-Geräte unterstützt oder wenn der am Hub angeschlossene Server mit seinem HBA korrekt auf die Fabric-Login-Prozedur antwortet. Letzteres bieten Sun und HP nur für einen Teil ihrer Unix-Versionen.

Noch schwieriger ist es, Switches unterschiedlicher Hersteller zusammenzuschalten. Dabei wäre dies ganz einfach, wenn sich alle an die Standards halten würden. Die Prozeduren nach dem Einschalten sehen typischerweise so aus, dass der Fabric-Switch auf einer hardwarenahen Ebene die Discovery-Routinen zur automatischen Erkennung der angeschlossenen Komponenten startet. Dieser Vorgang gelingt inzwischen laut Brocade in 95 bis 98 Prozent aller Fälle. Beim Rest muss das Discovery manuell durchgeführt und der jeweilige Port über das Fabric-Betriebssystem statisch zugeordnet werden.

Die Port-Treiber etablieren dann eine korrekte Kommunikation. Beim Start sollte jeder Port eines Fabric-Switches laut Standard als U-Port (Universal-Port) konfiguriert sein, der zuerst mit LIP-Kommandos ermittelt, ob FC-Loop-Geräte angeschlossen sind. Erhält er innerhalb einer gewissen Zeitspanne keine Antwort, wechselt der Port in den G-Port-Status (Generic Port). Er versucht dann, per Heartbeat-Messages zu erkennen, ob sich ein anderer Fabric-Switch einloggt. Ist das der Fall, arbeitet die Schnittstelle nun als ein E-Port (Expansion-Port). Nur dieser ermöglicht das Routing und damit den Aufbau einer Fabric, die mehrere Fabric-Switches vermascht zusammenschaltet. Mit dieser Technik lassen sich bis zu 15,5 Millionen Geräte adressieren. Weitere mögliche Portzustände sind laut ANSI nicht standardisiert. Der automatische Ablauf der Discovery, an dessen Ende die Interoperabilität eines kompletten Speichernetzes stehen sollte, ist sehr aufwändig.

Von der höheren Warte einer Management-Software aus, beispielsweise "SAN-Point-Control" von Veritas, sollen in naher Zukunft alle Port-nahen Vorgänge in einer heterogenen Fabric herstellerneutral über In-band- oder Out-of-band-Zugriffe gesteuert werden. Brocade unterstützt beim Zugriff auf den Switch über Fibre-Channel (In-band) sowohl SNMP, HTTP und Telnet als auch einen FC-Management-Server. Bei der Steuerung über das Ethernet-Netzwerk (Out-of-band) sind nur SNMP, HTTP und Telnet möglich.

Speichernetz-Infrastruktur

Den für Routing notwendigen E-Port unterstützen derzeit Brocade, McData, Vixel und Inrange. Um Daten durch eine Fabric routen zu können, müssen die Fabric-Switches diverse Informationen miteinander austauschen. Hierzu zählen zum Beispiel ihre spezifischen Domain-IDs inklusive der Adressen des jeweiligen Ein- und Ausgangsports, der auf dem Weg von der Quelle bis zum Ziel liegt. Die Domain-ID ist in den ersten acht Bit der 24-Bit-Port-Adresse abgelegt. Bei Übereinstimmung der IDs, können die zugehörigen Port- und Domain-Adressen aus einer Routing-Tabelle abgefragt werden. Sollten durch das Zusammenschalten von zwei Fabrics doppelte Adressen auftreten, sorgt ein Master für die Vergabe einer neuen Domain-ID. Ist die Domain-ID allerdings "hart" gesetzt, lässt sich keine Fabric bilden, die Verbindung über den E-Port kommt nicht zustande. Beide Segmente arbeiten aber wie zuvor selbstständig weiter.

Zonengrenze

Die Switches müssen Informationen über die in Datenzonen zusammengefassten Ports und ihre aktiven Geräte austauschen. Dieses "Zoning" kann als Soft- oder als Hard-Zoning organisiert sein. Letzteres weist in der Regel herstellerspezifische Variationen auf. Beim Soft-Zoning können Masken den Datenverkehr in der Datenzone anhand von World Wide Names (WWN), Port oder Alias-Namen regeln. Ein großer Nachteil ist, dass Hacker durch WWN-Spoofing Zugriff auf die Daten der eigentlich abgeschotteten Zone erhalten können.

Das Hard-Zoning unterbindet diese Sicherheitslücke. Die Lösung von Inrange überprüft den kompletten Pfad, die von Brocade legt im Ausgangsport eine Access Control List (ACL) mit den Port-Identifiern (PID) ab. Die Liste enthält die für die Datenübertragung zugelassenen Eingangs-Ports.

Bei der Brocade-Variante sind überlappende Zonen möglich. Inrange erhöht die Sicherheit dadurch, dass beim Ausfall eines Fabric-Switches die Zone nicht mehr ordnungsgemäß arbeiten kann. Mit "Silkworm 12 000", dem demnächst erscheinenden 128-Port-Fabric-Switch, will Brocade bei der Sicherheit gleichziehen. Er liest nicht nur die ersten acht Byte eines FC-Frames, sondern gleich 64 Byte. Damit lassen sich auch die acht Byte langen WWNs auswerten und die Daten nicht nur an den Port schicken, sondern direkt an das richtige Gerät. Für ein heterogenes Zoning existiert allerdings kein Standard. Die Interoperabilitäts-Initiative arbeitet deshalb mit der unsicheren Soft-Variante.

Die Schwierigkeiten mit dem Zoning betreffen nicht nur die Fabric. Bei Änderungen müssen alle Teilnehmer einer Zone darüber unterrichtet werden. Das übernimmt der Standard-Fabric-Dienst, vorausgesetzt die Spielregeln des vor kurzem verabschiedeten FC-SW2-Standards werden eingehalten. Ein wichtiges Element ist die RSCN-Funktion (Registered State Change Notification), die jedes beim Fabric-Dienst registriertes Gerät über Änderungen informiert. Allerdings ignoriert zum Beispiel das Betriebssystem AIX von IBM diese Funktion. Der Host erkennt Neuerungen erst nach einem Re-Boot. Ähnliche Probleme treten mit der Caching-Funktion von Windows NT auf. Sie verhindert für unvorhersehbare Zeitspannen, dass Änderungsinformationen weitergereicht werden.

Zoning für Speichersysteme

Auch beim LUN-Masking (Logical Unit Number) hat jeder Hersteller seine eigene Spielart. SCSI-RAID-Systeme unterteilen den Speicher in Sub-Einheiten, die so genannten LUNs, auf die Betriebssysteme wie auf Festplatten zugreifen. Fast jeder Betriebssystem- und Speicher-Hersteller hat hierfür seine eigene Aufteilungsmethode. Aufgrund der Softwaresteuerung erfolgt der Zugriff erst nach mehreren Millisekunden. Ein LUN-Masking über Speichersysteme unterschiedlicher Hersteller hinweg ist bislang nicht möglich.

Brocade will auch diese Hürde mit dem Silkworm 12 000 Core-Switch nehmen. Die hardwareverdrahtete Logik des ASICs soll die Zugriffszeit um den Faktor 1000 beschleunigen. Das würde in einer homogenen Fabric-Umgebung zumindest einen herstellerunabhängigen Zugriff auf die Speichersysteme ermöglichen.

Fazit: Angesichts dieser Entwicklungen stellt sich die Frage, ob Anwender weiterhin auf Standards setzen sollen. Marktführer Brocade tut jedenfalls alles dafür, das Gewicht seiner technischen Führerschaft im Kampf um Marktanteile einzubringen und die eigenen Entwicklungen zum De-facto-Standard zu machen. Selbst mit Standards müssten die Anwender mit zahlreichen funktionellen Einschränkungen leben. Zudem darf eines nicht vergessen werden: Interoperabilität auf der Netzwerkebene ist nur die Basis für höhere Managementfunktionen. Und hier zeichnen sich bei Virtualisierung und Sicherheit bereits die nächsten Interoperabilitäts-Probleme ab. (ok)

Zur Person

Dipl.-Ing. Rainer Graefen

ist freier Redakteur in München mit den Spezialgebieten Backup und Speichernetze.