Dauertest: Opteron als Server

04.07.2003 von Jörg Luther
Mit dem Opteron will AMD dem Konkurrenten Intel den Markt für kleine und mittlere Server streitig machen. Das Dual-Opteron-System von Newisys muss im Vergleich mit Xeon-basierten Maschinen von Dell und IBM beweisen, was es kann.

Spät kam er, aber doch: Kurz vor Ostern traf frisch aus Austin, Texas, ein Dual-Opteron-Testrechner von Newisys bei tecCHANNEL ein. Trotz der 1HE-Ausführung lässt sich der Newisys 2100 (alias "Kephri") nicht wirklich als Pizzabox umschreiben: Bei einer Gehäusetiefe von stolzen 73 Zentimetern passt der Server bei weitem nicht in jedes Rack.

Neben zwei 1800-MHz-CPUs des Typs Opteron 244 bringt das Testsystem 2 GByte Registered DDR-333-SDRAM sowie zwei als Mirror Set konfigurierbare 36-GByte-Festplatten mit Ultra320-SCSI-Interface mit. Neben dem für Letztere zuständigen SCSI-Controller von LSI Logic finden sich auf dem Board integriert auch noch ein Trident-Grafikchip und zwei 100/1000-Mbit/s-Ethernet-Controller von Broadcom. Zwei über getrennte Busse angesteuerte PCI-X-Slots stehen für Erweiterungskarten (einmal volle, einmal halbe Baulänge) parat.

Für Management-Angelegenheiten zeichnet ein eigener Serviceprozessor verantwortlich, der unter anderem die zahlreichen Temperatur-, Spannungs- und Lüftersensoren des Boards überwacht. Er lässt sich per HTTPS oder SSL über eine eigene Fast-Ethernet-Schnittstelle ansprechen. Auf diesem Weg kann der Administrator bei Bedarf auch den Server herunterfahren oder neu starten.

Die Konkurrenz

AMD positioniert den Opteron trotz seiner 64-Bit-Fähigkeiten als Konkurrenz zu Intels Xeon-CPU - eine Einschätzung, die auch Intel teilt. Demgemäß lassen wir den Newisys gegen zwei P4-Xeon-Konkurrenten antreten: Den Einstiegsserver x225 von IBM und den Abteilungsserver PowerEdge 4600 von Dell.

Unser Testsystem IBM xSeries 225 bringt zwei Xeon-Prozessoren mit 2,40 GHz Taktrate sowie 2 GByte Dual-Channel-DDR266-SDRAM mit. Als Massenspeicher werkelt eine einzelne Ultra320-SCSI-Disk, immerhin hätten aber sechs Stück im Gehäuse Platz. Grafik- und 100/1000-Mbit/s-Ethernet-Controller finden sich auf dem Board, für Erweiterungen stehen ein PCI-32- und vier PCI-64-Steckplätze zur Verfügung. Typische Server-Features wie Management-Chipsatz, zugriffsgeschützte Laufwerke oder redundante Komponenten lässt der x225 vermissen. Zu dieser Workstation-Anmutung passt auch der für einen Server absolut ungewöhnliche AGP-Slot auf dem Board.

Der Dell PowerEdge 4600 stellt das absolute Komplement dazu dar. Als robuster Arbeitsgruppen-Lastesel ist er mit einem ServerWorks-Management-Chipsatz und zahlreichen High-Availability-Merkmalen, wie etwa redundanten Netzteilen, ausgestattet. Ein Zweikanal-RAID-Controller bedient bis zu zehn Ultra320-SCSI-Disks mit maximal knapp 1,5 TByte Nennkapazität. Sieben PCI-Steckplätze, davon sechs in PCI-X-Ausführung, nehmen Erweiterungen auf. Für reichlich Rechenleistung sollen zwei mit 2800 MHz getaktete Xeon-CPUs sorgen, die in unserem Testsystem auf 4 GByte Registered DDR200-Speicher zugreifen können.

Testumgebung

Auf allen drei Testrechnern installieren wir als Betriebssystem die aktuelle Variante des SuSE Linux Enterprise Server 8 für x86, kurz: SLES8. Für die 64-Bit-Tests auf dem Opteron-System steuern die Nürnberger freundlicherweise zudem noch den Gold-Code des (wie der Opteron seit 22. April verfügbare) SLES8 für AMD64 bei. Somit können wir auf allen drei Maschinen in identischer 32-Bit-Betriebssystem-Umgebung sowie auf dem Opteron-Rechner unter nahezu quellidentischem 32- und 64-Bit-OS testen. Auf den Xeon-Maschinen von Dell und IBM testen wir zum einen mit den originalen 2,8- beziehungsweise 2,4-GHz-Prozessoren. Zum anderen bestücken wir den IBM x225 zum Vergleich mit brandneuen 3,06-GHz-Xeons.

Als Benchmarks verwenden wir eine Reihe von quelloffenen Testsuiten, mit denen sich die Performance unter mittleren bis hohen Systemlasten prüfen lässt. Eine portierte Variante des bekannten Byte-Benchmarks stellt unixbench dar, aus dessen Fundus wir sechs multiprozessorfähige Tests auswählen. Aus dem Werkzeugkasten der Samba-Entwickler stammt dbench, das unter Verwendung gescripteter Netzwerkdaten den Zugriff hoher Client-Zahlen auf das Filesystem simuliert. Zur Ermittlung einiger grundlegender Bandbreitendaten setzen wir den lmbench ein. Für die Messung von Lastdaten im Multiuser-Betrieb dient die Suite VII aus den AIM-Benchmarks von SCO.

Alle Benchmarks kompilieren wir unmittelbar auf den Zielplattformen, was speziell bei den AIM-Benchmarks etwas Nacharbeit am Code erfordert, um einen fehlerfreien Ablauf zu garantieren. Des Weiteren entfernen wir aus den Suites Harddisk-spezifische Benchmarks, um die nicht ganz identische Ausstattung der Testsysteme zu kompensieren. Den mit doppelt so viel RAM wie die Konkurrenz ausgestatteten Dell PowerEdge 4600 beschränken wir per Kernel-Bootparameter auf die Verwendung von 2 GByte Speicher. Vor jedem Testlauf starten wir die Rechner neu, um Speicher und Filesystem von etwaigen Überbleibseln des vorherigen Benchmarks zu säubern.

Erste Eindrücke

Bereits bei der Einrichtung der Betriebssysteme und ersten Ad-hoc-Tests lassen sich einige Eindrücke von der Leistungsfähigkeit des Dual-Opteron-Systems gewinnen. Insgesamt wirkt der Newisys, besonders bei massiven Systemlasten, deutlich flüssiger als die Xeon-Konkurrenz. AMDs Claim, der Opteron könne aktuellen Intel-CPUs Paroli bieten, scheint also nicht ganz von der Hand zu weisen. Gleichzeitig zeigen sich aber auch kleinere Schwächen des Newisys-Testsystems.

Wie die Überwachung mit Hilfe des integrierten Management-Prozessors ergibt, treten bei hohen Lasten thermische Probleme auf. Diese betreffen jedoch erstaunlicherweise nicht die schwer werkelnden CPUs, die stets deutlich innerhalb der nominalen Temperaturspanne bleiben. Stattdessen erwärmt sich der PCI-X-Bridge-Chip hart an den Rand des tolerablen Bereichs. Dabei hat er gar nichts zu bedienen - die Erweiterungs-Slots sind frei.

Allerdings handelt es sich beim Newisys-Board noch um ein Developer-Sample. Bis zur Serienproduktion muss der Hersteller diese Schwäche jedoch noch ausbügeln, sonst sind Ausfälle speziell im Rack-Betrieb vorprogrammiert. Während unserer Benchmarks, die das System teils für Stunden bis zum Anschlag belasten - teilweise treten System-Loads von mehr als 2500 auf - hält sich die Hitzebelastung jedoch gerade noch in akzeptablen Grenzen.

Update: AIM Suite VII

Als Benchmark für die Verarbeitung hoher Prozesslasten - eine natürliche Domäne jedes Servers - dient uns die AIM Suite VII von SCO. Sie arbeitet eine gemischte Arbeitslast von rund 60 Tests aus den Bereichen Arithmetik, I/O, Prozessgenerierung und Filesystem-Handling ab. Dabei misst sie die Anzahl der verarbeiteten Aufgaben pro Minute. Die festplattenspezifischen Tests der Suite haben wir dabei ausgeklammert: Zum einen, um die unterschiedliche Ausstattung der Testrechner zu kompensieren; zum anderen, um gezielt die Leistung des Prozessors zu ermitteln.

Das Ergebnis fällt mehr als deutlich aus. Sowohl im 32- als auch im 64-Bit-Modus hängt der Opteron die Xeon-Konkurrenz über den ganzen Messbereich hinweg klar ab. Während sich bei den Xeon-Maschinen ab 48 parallelen Tasks die Leistung langsam zu nivellieren beginnt, steigt beim Opteron die Leistungskurve auch mit höherer Aufgabenlast weiter an.

Neu: AIM Suite VII Dauertest

Die bisherigen Messergebnisse lassen die Frage offen, wie sich Opteron und Xeon wohl bei noch massiveren Lasten verhalten. Daher entschließen wir uns zu einem Dauertest, bei dem die Systeme in Einer-Schritten zwischen 1 und 512 parallelen Tasks abarbeiten müssen. Diese Sysiphos-Aufgabe belegt den Newisys 2100 für knapp 38 Stunden mit Beschlag; die zwei Xeons des Dell PowerEdge 4600 werkeln mehr als doppelt so lang.

Wie sich schon im ersten Test ankündigte, erschöpfen sich die Leistungsreserven des Dual-Xeon-Rechners wesentlich früher: Bei mehr als 178 parallelen Tasks kann er keinen Leistungszuwachs mehr erzielen und pendelt sich bei rund 4500 Jobs pro Minute ein. Der Dual-Opteron dagegen erreicht seine Grenzen erst wesentlich später: Er legt im Test noch bis 298 Tasks an Performance zu und verarbeitet maximal knapp 9500 Jobs je Minute.

lmbench

Warum der Opteron höhere Prozesslasten so gut abarbeitet, zeigen unter anderem die Ergebnisse des lmbench. Dieser frei verfügbare, quelloffene Benchmark ermittelt verschiedenste Messdaten auf der untersten Systemebene, darunter auch Timings zur Prozesserzeugung.

Wie man hier erkennt, erledigt der Opteron einen schlichten fork() mit folgendem exit() fast doppelt so schnell wie die Xeon-Systeme. Auch kompliziertere Prozessaufrufe arbeitet er generell deutlich schneller ab als die höher getakteten Xeons. Auch bei einem fork() in die Shell operiert der AMD-Prozessor immer noch gut 20 Prozent zügiger als die Intel-Konkurrenz.

Erst ein im Vergleich zum Opteron fast doppelt so hoch getakteter, neuer 3,06-GHz-Xeon kann bei einfacheren Aufrufen mithalten. Operiert der AMD-Prozessor aber im 64-Bit-Modus, hat auch der schnellste Xeon das Nachsehen.

unixbench I

Das bisher entstandene Bild untermauert auch der Test mit unixbench. Bei dieser Suite handelt es sich um eine Portierung des bekannten Byte-Benchmarks für Linux-Systeme. Neben zahlreichen Tests atomarer Operationen bringt unixbench einige Messreihen mit, die auch SMP-Systeme unter Last setzen. Unixbench gibt die Ergebnisse als Anzahl der verarbeiteten Zeilen pro Zeiteinheit aus.

Hier gibt sich der Opteron bei der Erzeugung einfacher Prozesse ebenfalls deutlich performanter als die Xeon-CPUs. Bei Shell-Aufrufen mit einer, acht und sechzehn konkurrierenden Aufgaben hängt der mit 1,8 GHz operierende AMD die Konkurrenz nicht mehr ganz so klar ab, speziell der 3,06-GHz-Xeon kann hier aufschließen. Im 64-Bit-Betrieb erzielt der Opteron jedoch immer noch einen Performance-Vorsprung zwischen 10 und 17 Prozent.

unixbench II

Einige der weiteren Benchmarks aus der unixbench-Suite demonstrieren, dass 64 Bit nicht zwangsläufig schneller sein muss als 32 Bit. Beim Pipe-basierten Umschalten des Kontexts beispielsweise fällt der Opteron im 64-Bit-Modus auf Grund des höheren Overheads hinter die 32-Bit-Variante zurück.

Ein Paradebeispiel für arithmetische Tests bietet die Berechnung der Quadratwurzel von 2 auf 99 Stellen hinter dem Komma. Die Intel-Prozessoren erledigen diese Aufgabe um so zügiger, je höher die Taktrate liegt: Der mit einem 3,06 GHz schnellen Prozessor versehene IBM erledigt diese Aufgabe zügiger als der Dell mit 2,8-GHz-CPUs, das Schlusslicht bildet der IBM in originaler 2,4-GHz-Ausstattung. Schon im 32-Bit-Betrieb kann der Opteron die zwei langsameren Xeons toppen. Mit 64 Bit legt er noch einmal ein Drittel an Geschwindigkeit zu und überflügelt selbst den 3,06-GHz-Xeon um fast 28 Prozent.

Ähnlich, wenn auch nicht mit ganz so dramatischem Geschwindigkeitsvorteil für den Opteron, sieht es beim Abarbeiten gemischter Arbeitslasten aus. Beim Durchsatztest mit dem C-Compiler überflügelt der Opteron, egal in welchem Modus, die Xeons aber immer noch um gut 8 Prozent.

Update: dbench

Aus der Feder des Samba-Entwicklers Andrew Tridgell stammt die dbench-Testsuite. Das Samba-Team benutzt die Suite, um das Lastverhalten des Filesystems im Allgemeinen sowie des Samba-Servers im Speziellen zu untersuchen. Für unseren Test lassen wir die Samba-spezifischen Teile der Suite außer Acht und verwenden lediglich dbench selbst. Mit gescripteten Anfragedaten aus einem echten netbench-Testlauf simuliert er den Zugriff vieler Clients auf das I/O-System. Das hat den Vorteil, das Filesystem unter hohe Lasten setzen zu können, ohne dazu Hunderte von Clients zu installieren.

Auch in diesem Test sorgt der Opteron für eine angenehme Überraschung. Bei parallelen Anfragen sehr vieler Clients bleibt das AMD-System responsiv und erzielt dramatisch höhere Datendurchsätze als die Xeon-Rechner. Das gilt sowohl für den Betrieb im 32-Bit-Modus als auch bei Verwendung der 64-Bit-Spielart. Bei dem Filesystem-lastigen und prozessintensiven Test schneiden alle Xeon-Varianten in etwa gleich ab: Zwar sind die CPUs der Dell-Maschine höher getaktet, werden jedoch durch langsameren Speicher (DDR200 statt DDR266 beim IBM) gebremst. Auch der mit 3,06 GHz getaktete Xeon kann nur bei niedrigeren Arbeitslasten leicht zulegen, zeigt aber sonst dasselbe Verhalten wie die langsameren Intel-CPUs.

Neu: dbench-Dauertest

Wie bei der AIM Suite VII erscheinen uns auch hier die Messergebnisse so interessant, dass wir einen Test mit massiveren Lasten vornehmen. Dazu lassen wir bis zu 512 simulierte Clients auf die Testsysteme los. Die Rechendauer für diesen Test ist beträchtlich: Der Newisys 2100 werkelt 225,5 Stunden (gut 9 Tage), der Dell PowerEdge beendet den Testlauf erst nach 654,1 Stunden (etwas über 27 Tagen).

Bei hunderten von Stunden im Volllastbetrieb kommen beide Rechner offensichtlich ins Schwitzen. Das Opteron-System leistet sich im Bereich zwischen rund 350 und 400 Clients einen Ausrutscher nach unten. Der Dual-Xeon führt den Test zwar ohne Fehlermeldungen aus, protokolliert für den Bereich zwischen 117 und 382 Clients jedoch die Messwerte nicht mit. Für beide System lässt sich jedoch ein klarer Leistungstrend aufzeigen. Er ist in der obigen Grafik als durchgezogene Linie aufgeführt, die Punkte markieren die ermittelten Messwerte.

Das Bild spricht für sich: Der Dual-Opteron-Rechner von Newisys kommt mit Filesystem-Lasten klar, die dreimal höher liegen als bei Dells Dual-Xeon-System. Zwar fällt die Leistungskurve des Opteron-Servers etwas schneller ab, bleibt aber konstant auf wesentlich höherem Niveau als beim Xeon-bestückten Konkurrent.

Update: Kopf an Kopf?

AMDs Entscheidung, seine Hammer-Architektur zuerst einmal in der Servervariante auf den Markt zu bringen, erweist sich in zweifacher Hinsicht als richtig. Zum einen spielt der Sledgehammer alias Opteron offensichtlich gerade im Betrieb als Serverplattform seine Vorzüge ideal aus. Zum zweiten kann der Opteron trotz der relativ niedrigen Taktrate von 1,8 GHz in diesem Segment mit seinen architektonisch bedingten Vorteilen der wesentlich höher getakteten Intel-Konkurrenz noch eine Weile lang Paroli bieten.

Allerdings steht zu erwarten, dass Intel seine Xeon-CPUs schon bald an mehreren Fronten nachbessert. Schon jetzt kann der neue, mit 3,06 GHz getaktete Prozessor mit dem 1,8-GHz Opteron im 32-Bit-Mode mithalten - und die Taktraten steigen weiter. Das gilt nicht zuletzt auch für die im Augenblick mit 2,8 GHz getaktete Xeon-MP-Variante, die bei Systemen ab vier CPUs mit dem Opteron konkurrieren wird.

Zudem hat Intel dem Xeon gerade einen L3-Cache spendiert, der je nach Anwendung bis zu 20 Prozent Leistungszuwachs in Aussicht stellt. Ob AMD den Vorsprung des Opteron halten kann, hängt wohl davon ab, ob man in Dresden die bereits mehrfach kolportierten Probleme mit dem Transistordesign der CPU in den Griff bekommt und höhere Yields hoch getakteter Opterons erzielen kann.

Update: Fazit

Unabhängig von der Taktrate bietet der Opteron gerade im Servereinsatz einen entscheidenden Vorteil, den die Konkurrenz derzeit nicht kontern kann. Anders als Intel nagelt AMD den Anwender nicht auf eine Entscheidung für 32 oder 64 Bit fest, sondern lässt alle Wege offen.

Schon als 32-Bit-Server-CPU weist der Opteron Intels Xeon in die Schranken. Daneben offeriert er jedoch auch ein nahtloses Upgrade in die 64-Bit-Welt: Je nach Bedarf kann man die AMD-CPU auch im 64-Bit-Betrieb mit 32-Bit-Applikationen füttern oder komplett auf das neue Format umstellen. (jlu)