Spürhund fürs Speichernetz

Rundum-Sorglos-Paket

SAN QoS besteht aus Hard- und Softwarekomponenten. Zur Ermittlung der Messdaten sind eine oder mehrere Hardware-Probes nötig. In den Datenpfad geschaltet, überwachen sie den SAN-Verkehr in Leitungsgeschwindigkeit mit derzeit 1 oder 2 GBit/s. Aus den Datenpaketen ermittelt die Probe Messwerte und leitet diese an eine Management-Komponente. Um die im Datenpfad liegenden Probes nicht zum Single-Point-of-Failure im SAN zu machen, bietet Finisar die Option, das Signal über optische Splitter auszukoppeln. Die als Taps bezeichneten Splitter sind entweder mit einem Kanal oder - als Managed Taps - mit bis zu acht Kanälen ausgestattet. Bei Bedarf lassen sich 8-Port-Taps kaskadieren, um ein Monitoring für mehr Kanäle zu realisieren. Allerdings können eine Probe und ein Tap zu jedem Zeitpunkt immer nur eine Verbindung überwachen.

Die ermittelten Monitoring-Daten sendet die Probe über eine Ethernet-Verbindung zur SAN-QoS-Portal-Software. Diese sammelt und konsolidiert die Daten von bis zu 16 Probes. Das Programm läuft auf einem Windows-NT/2000/XP- oder Solaris-8-System. Zur Ausführung benötigt es die Java Runtime Edition (JRE) ab Version 1.3 und das Jiro Runtime Package ab Version 1.5 von Sun Microsystems. Als Datenspeicher kommt eine My-SQL-Datenbank zum Einsatz. Als Frontend stellt der Anbieter zwei Komponenten zur Verfügung. Ein Web-Interface wartet mit vordefinierten Views auf und stellt einen groben breiten Überblick der Monitoring-Daten dar. Tiefer gehende Einblicke liefert "Views FC", das detaillierte Informationen für jede Initiator-Target-LUN-Verbindung (ITL) zeigt. Die Software ist zudem in der Lage, unterschiedlichste Fehler zu erkennen und darzustellen. In Kombination mit anderen Performance-Daten für das SCSI- und Fibre-Channel-Protokoll lassen sich anhand von Tabellen und Grafiken schnell vorhandene und potenzielle Fehlerquellen ausmachen. Zusätzlich zur manuellen Auswertung bietet das Programm die Möglichkeit, für alle Messungen Schwellwerte zu definieren, deren Über- oder Unterschreiten einen Alarm auslöst. Auf Wunsch schreibt die Software die Alarme auch in einen LogFile oder versendet sie als E-Mail. Als Besonderheit bietet Views FC die Option, alle Ereignisse aufzuzeichnen, sobald ein Alarm auftritt (Recording). Dabei erfasst das Programm auch noch Ereignisse, die bis zu zwei Minuten vor der Alarmauslösung stattgefunden haben, was die Fehlersuche erleichtert.

Wir installierten mit Unterstützung des deutschen Finisar-Distributors Men@Net Trade eine Probe FC und die gesamte Software-Suite in unserer Laborumgebung. Diese bestand aus einem Brocade-Switch "Silkworm 3200", einem "Nstor-3100F"-Raid-System und zwei Servern mit Windows 2000. Auf dem Storage-System hatten wir zwei LUNs definiert und per LUN-Mapping auf die beiden Server aufgeteilt. Die Finisar Probe FC schalteten wir in den Signalweg zwischen den Brocade-Switch und den Speicher. Mit Hilfe des Installation Guides installierten wir dann die Software und konfigurierten die Probe. Um Last zu erzeugen, verwendeten wir Intel "IO-Meter" und starteten anschließend die Portal-Software, die problemlos Kontakt zur Probe fand und umgehend Status-Informationen zu liefern begann. Anschließend verwendeten wir zunächst das Web-Interface, um einen Überblick über unser kleines SAN zu erhalten. Bereits nach kurzer Zeit lieferte dieses eine interessante Information. Es zeigte sich nämlich, dass einer der Testserver einen deutlich geringeren Datendurchsatz hatte als der andere, obwohl eigentlich beide dieselbe Last hätten generieren müssen. Also wechselten wir zur Views-FC-Software, um mehr Informationen darüber zu ermitteln. Trotz der Vielzahl vorhandener Messwerte ließ sich die genaue Ursache nicht klären, da unterschiedliche Performancedaten per se keinen Fehlerzustand darstellen und wir zudem auch keinen entsprechenden Alarm definiert hatten. Um einen tatsächlichen Fehler zu simulieren, zogen wir daraufhin das Verbindungskabel ab, das von der Probe zum Storage-System führte und schlossen es wieder an. Innerhalb einer Sekunde hatte die Probe das Problem erkannt und stellte es grafisch dar. Dabei fiel uns auf, dass SAN QoS zwar über Informationen zu allen beteiligten Geräten verfügt, diese aber nur in Form der dynamisch vergebenen 24-Bit-Fibre-Channel-Adressen anzeigt. Die eindeutigen World Wide Names (WWN) sind nicht sichtbar. Somit bleibt es dem Systemverwalter überlassen, anhand der Eintragungen im Simple Name Server seiner Switches herauszufinden, welche Geräte ein Prob-lem verursacht haben.