Server-Test: Xeon "Nocona" mit Linux

02.08.2004 von Christian Vilsbeck und Jörg Luther
Intels Xeon Nocona wandert mit dem neuen Lindenhurst-Chipsatz in den Server. Dort muss sich die CPU gegen AMDs Opteron-Prozessor beweisen. Im tecCHANNEL-Labor erfolgt in der ersten Runde der 32-Bit-Schlagabtausch.

Den Test vom 11.11.2007 des Intel Xeon finden Sie hier.

In Workstations unter 32-Bit-Windows bietet Intel mit dem Xeon "Nocona" dem Opteron wieder Paroli. Jetzt muss sich der Nocona erstmals im Server-Einsatz bewähren. Dort weist AMDs Opteron die bisherigen Xeons "Prestonia" schon im 32-Bit-Betrieb unter Linux in die Schranken.

Für ein zügigeres Arbeiten der Xeons im Server-Einsatz soll der neue Dual-Prozessor-Chipsatz E7320/7520 "Lindenhurst" sorgen. So gelangen die Intel-CPUs endlich schneller an ihre Daten. Über einen 800-MHz-Prozessorbus greifen die Noconas nun auf DualDDR2-400-Speicher zu. Der Vorgänger musste sich mit DDR266-SDRAM zufrieden geben. Allerdings pufferte der alte Xeon DP viele Speicherzugriffe mit einem großen L3-Cache ab - dieser fehlt dem Nocona. Dafür gibt es einen auf 1 MByte verdoppelten L2-Cache.

Im tecCHANNEL-Testlabor treten der Xeon "Nocona, sein Vorgänger "Prestonia" und der Opteron im Server-Betrieb unter Linux gegeneinander an. Zum Test von Intels neuer Server-Plattform stellte uns Dell den 2-Wege-Server PowerEdge 1850 zur Verfügung. AMDs Opteron-CPUs nehmen im Newisys 2100 Platz. Der eServer xSeries 225 von IBM diente als Testplattform für die Prestonia-Xeons. In der ersten Testrunde haben wir die Geschwindigkeit der Lindenhurst-Plattform im von Intel favorisierten 32-Bit-Einsatz unter die Lupe genommen. Den aktuellen Test des Intel Xeon finden Sie hier.

Details zum Xeon "Nocona"

Die bisherigen Intel Xeon DPs für Single- und Dual-Prozessorsysteme basieren auf dem 130-nm-Prestonia-Core, der im Prinzip dem Northwood-Core des Pentium 4 entspricht. Die schnellste Prestonia-Variante arbeitet mit 3,20 GHz und verwendet einen 533 MHz schnellen FSB. Die CPUs unterstützen Hyper-Threading und sind mit einem 512 KByte großen L2-Cache ausgestattet. In die Topmodelle integrierte Intel zusätzlich einen 1 oder 2 MByte großen L3-Cache.

Der neue Xeon DP "Nocona" setzt auf den Prescott-Core aktueller Pentium-4-Prozessoren. Die Taktfrequenzen der in 90-nm-Technologie gefertigten Nocona-CPUs betragen zum Debüt 2,80, 3,00, 3,20, 3,40 und 3,60 GHz. Der FSB arbeitet mit 800 MHz. Der L1-Daten-Cache mit 16 KByte und die zweite Pufferstufe mit 1 MByte besitzen gegenüber dem Vorgänger das doppelte Fassungsvermögen. Auf einen L3-Cache müssen die 90-nm-Xeons allerdings verzichten. Durch Einsatz des Prescott-Cores können die Nocona-CPUs dafür auf ein verbessertes Hyper-Threading und Intels SSE3-Erweiterung mit 13 neuen Befehlen zurückgreifen.

Für eine Server-/Workstation-CPU ungewöhnlich ist das "Demand Based Switching" DBS des Nocona. Hinter dem Begriff verbirgt sich Intels Technologie "Enhanced SpeedStep" zum Energiesparen. Mit SpeedStep kann der Xeon DP die Taktfrequenz und Core-Spannung je nach CPU-Auslastung dynamisch anpassen. Im Dual-CPU-Betrieb muss dabei eine Synchronisation der Taktfrequenzreduzierung zwischen beiden Prozessoren erfolgen. Die minimale Taktfrequenz im SpeedStep-Modus liegt beim Xeon 3,60 GHz bei 2,80 GHz. Dabei variiert die Core-Spannung zwischen 1,40 und 1,20 V. Intel gibt zwischen beiden Modi eine Energieeinsparung von 25 Prozent an.

Intels 64-Bit EM64T-Architektur

Der 90-nm-Xeon-DP erhält als erste Intel-CPU die "Extended Memory 64 Technology" EM64T. Die zu AMDs 64-Bit-Register-Erweiterung kompatible Technologie erlaubt den Einsatz von 32- und 64-Bit-Betriebssystemen.

Um problemlos mit 32- und 64-Bit-Software agieren zu können, beherrscht der Xeon DP mit EM64T verschiedene Betriebsmodi: Legacy Mode, 64-Bit-Mode und Compatibility Mode. Findet der Xeon DP aktuelle 32-Bit-Betriebssysteme wie Windows XP vor, so arbeitet die CPU im so genannten Legacy-Mode. Der Xeon mit EM64T verhält sich dabei wie ein normaler x86-Prozessor und ist voll kompatibel zu vorhandenen 16- und 32-Bit-Betriebssystemen und -Anwendungen. Die 64-Bit-Features liegen dann brach.

Steht dem Nocona-Xeon dagegen ein 64-Bit-Betriebssystem zur Seite, schaltet die CPU in den IA-32e getauften Betriebsmodus. Der IA-32e Mode von Intels Extended Memory 64 Technology beinhaltet zwei Untermodi: den 64-Bit Mode und den Compatibility Mode. 64-Bit-Anwendungen arbeiten im entsprechenden 64-Bit Mode. Der Nocona besitzt dabei eine physikalische Adressbreite von 40 Bit sowie einen 48 Bit breiten virtuellen Adressraum. Die Lindenhurst-Server-Chipsätze verfügen über eine physikalische Adressbreite von 36 Bit. Dies entspricht theoretischen 64 GByte.

Der Compatibility Mode des Nocona erlaubt unter 64-Bit-Betriebssystemen eine binäre Kompatibilität mit vorhandenen 16- und 32-Bit-Anwendungen. Diese Programme müssen nicht neu kompiliert werden. Den 64 Bit großen Adressraum des Betriebssystems können diese aber nicht nutzen, sie bleiben auf 32 Bit beschränkt.

Die drei verschiedenen Betriebsmodi von Intels 64-Bit-Erweiterung entsprechen somit denen der AMD64-Architektur. Nur heißt der IA-32e Mode bei AMD Long Mode. Laut Intel arbeiten Applikationen, die für AMD64-Prozessoren geschrieben wurden, im Regelfall auch mit dem Xeon DP mit EM64T. Wie Intel weiter betont, unterscheidet sich die Intel-Architektur aber durch zusätzliche Features wie SSE3 und Hyper-Threading.

Details zum E7320/7520 "Lindenhurst"

Intel stellte am 28. Juni 2004 den Xeon "Nocona" zusammen mit dem Workstation-Chipsatz E7525 "Tumwater" vor. Mit den Lindenhurst-Chipsätzen E7320 und E7520 folgen im August die entsprechenden Server-Produkte. DDR2-Speicher und die PCI-Express-Schnittstelle feiern damit ihr Debüt im Server-Segment.

Der E7320/7520 für zwei FSB800-Prozessoren besitzt wie sein Vorgänger ein Dual-Channel-Speicher-Interface. Statt DDR266-SDRAM steuert Lindenhurst wahlweise DDR266/333- oder DDR2-400-SDRAM an. Die maximale Bandbreite steigt somit von 3,97 (DualDDR266) auf 4,97 (DualDDR333) beziehungsweise 5,96 GByte/s (DualDDR2-400). Trotz der höheren Bandbreite benötigt der DDR2-400-Speicher auf Grund seiner geringeren Betriebsspannung bis zu 40 Prozent weniger Energie als DDR333-SDRAM.

Pro Speicherkanal dürfen beim Lindenhurst vier registered DIMMs zum Einsatz kommen. Damit kann der E7320/7520-Chipsatz insgesamt 16 GByte Arbeitsspeicher adressieren. Neben einer ECC-Unterstützung bieten die Chipsätze Schutz vor defekten Chips auf den Speichermodulen, sofern diese eine x4-Organisation besitzen. Intel bezeichnet die auch als Chipkill bekannte Funktion mit x4 SDDC (Single Device Data Correction). Außerdem erlaubt der E7320/7520-Chipsatz ein "DIMM sparing". Bei Defekten in einem Modul kann der Chipsatz auf ein Reservemodul umschalten. Als weiteres Sicherheits-Feature beherrschen die Server-Chipsätze Memory Mirroring. Der Arbeitsspeicher lässt sich damit in zwei gespiegelte Segmente aufteilen. Dabei wird ein Speicherkanal auf den anderen abgebildet.

Der E7320 unterscheidet sich vom E7520 durch die Anzahl an PCI-Express-Segmenten. Für "preissensitive" Server sieht Intel den E7320 mit einem PCI-Express-x8-Link vor. Dieser lässt sich auch in zwei x4-Segmente aufteilen. Mit dem E7520 adressiert Intel dagegen "Performance-Server". Der Chipsatz bietet insgesamt drei PCI-Express-x8-Links. Zusätzlich unterstützt der E7520 das Hot-plug-Verfahren für PCI-Express-Karten.

An die PCI-Express-Lanes der Lindenhurst-Chipsätze findet beispielsweise der Bridge-Baustein Intel 6700 PXH Anschluss - dieser bietet dann zwei PCI-X-Busse. Für die Standardperipherie zeichnet dagegen der ICH5R verantwortlich. Die "Southbridge" kommuniziert über Intels Hub-Architektur mit dem Memory Controller Hub. Zum Repertoire des ICH5R zählen acht USB-2.0-Ports, zwei Serial-ATA- und zwei Ultra-ATA/100-Anschlüsse sowie ein 32-Bit-PCI-Bus.

Xeon-Server: Dell PowerEdge 1850

Mit dem PowerEdge 1850 bietet Dell einen laut eigenem Bekunden hochverfügbaren und einfach zu wartenden Allzweck-Server in einer 1HE-Ausführung an. Bei einer Gehäusetiefe von 76 cm passt der Server aber nicht in jedes Rack.

Der PowerEdge 1850 tritt die Nachfolge des Modells 1750 an. Dells Dual-Prozessor-Server setzt auf Intels Xeon mit Extended Memory 64 Technology. Je nach Konfiguration bleibt die Wahl zwischen 2,80 und 3,60 GHz Taktfrequenz. Intels E7520-Server-Chipsatz steuert über insgesamt sechs DIMM-Steckplätze bis zu 16 GByte DDR2-400-SDRAM an. Der PowerEdge 1850 unterstützt über sein BIOS alle Sicherheits-Features des E7520 wie beispielsweise das Memory-Mirroring.

Bei den Massenspeichern setzt Dell auf zwei Ultra320-SCSI-Festplatten mit wahlweise 10.000 oder 15.000 U/min. Damit erlaubt der PowerEdge 1850 mit der Verfügbarkeit der 300-GByte-Laufwerke bis zu 600 GByte Speicherkapazität. Die Hot-plug-fähigen SCA-Festplatten steuert ein integrierter Singel-Channel-Ultra320-SCSI-Controller oder ein optionaler PERC-RAID-Adapter an. Für Installationszwecke stehen ein Disketten- und CD-ROM-Laufwerk zur Verfügung.

Zum Erweitern mit Steckkarten lässt Dell beim PowerEdge 1850 die Wahl zwischen zwei PCI-X- (1x 100 MHz und 1x 133 MHz) oder zwei PCI-Express-Steckplätzen (ein x4- und ein x8-Slot). Den Kontakt zu weiterer Peripherie und der Außenwelt übernehmen vier USB-Ports sowie zwei Intel-Gigabit-Ethernet-Adapter.

Über den integrierten Base Management Controller BMC lässt sich der PowerEdge 1850 remote verwalten. Der BMC ist kompatibel mit dem Intelligent Platform Management Interface (IPMI) 1.5. Zum Verwalten eignet sich somit jede Management-Software mit IPMI-Unterstützung. Die Option DRAC4/I erweitert die Möglichkeit zur Fernverwaltung durch fortlaufende Video-Verbindungen, virtuelle Disketten-/CD-Laufwerke und die Integration von Active Directory oder LDAP.

Der Austausch von Komponenten erfolgt beim PowerEdge einfach und ohne Werkzeug. Dies gilt beispielsweise für die optionale redundante Hot-plug-Stromversorgung sowie für die redundanten Lüfter. Nicht ideal löste Dell die rückwärtigen Anschlüsse, die durch eine weit ausladende Gehäuseoberkante teils schwer und fummelig zu erreichen sind.

Dell bietet den PowerEdge 1850 zum Einstiegspreis von 1913 Euro an. Die Konfiguration besteht aus einem Xeon 2,80 GHz, 512 MByte Arbeitsspeicher und einer 36-GByte-Festplatte. Ein dreijähriger Vor-Ort-Service mit Reaktionszeit am nächsten Arbeitstag ist inklusive. Der von tecCHANNEL getestete PowerEdge 1850 mit zwei Xeon 3,00 GHz, 1 GByte DDR2-Speicher, zwei 73-GByte-Festplatten, PERC4/DC-RAID-Controller und redundantem Netzteil kostet 3902 Euro.

Die Konkurrenz

Die Intel Xeon-Prozessoren mit EM64T testen wir gegen die Prestonia-Xeons sowie den Hauptkonkurrenten AMD Opteron. Als AMD-Testrechner verwenden wir den Newisys 2100. Neben zwei Opteron 244 mit 1,8 GHz Taktfrequenz verfügt der Server über 2 GByte Registered DDR-333-SDRAM. Zwei als Mirror Set konfigurierbare 36-GByte-Festplatten mit Ultra320-SCSI-Interface stehen als Massenspeicher parat. Für Erweiterungskarten bietet der Newisys 2100 zwei PCI-X-Slots (einmal volle, einmal halbe Baulänge).

Für Management-Angelegenheiten zeichnet ein eigener Serviceprozessor verantwortlich, der unter anderem die zahlreichen Temperatur-, Spannungs- und Lüftersensoren des Boards überwacht. Er lässt sich per HTTPS oder SSL über eine eigene Fast-Ethernet-Schnittstelle ansprechen. Auf diesem Weg kann der Administrator bei Bedarf auch den Server herunterfahren oder neu starten.

Als Testsystem für die Prestonia-Xeons dient ein IBM xSeries 225. Der Server bringt zwei Xeon 3,06 GHz sowie 2 GByte Dual-Channel-DDR266-SDRAM mit. Als Massenspeicher werkelt eine einzelne Ultra320-SCSI-Disk, immerhin hätten aber sechs Stück im Gehäuse Platz. Grafik- und 100/1000-Mbit/s-Ethernet-Controller finden sich auf dem Board, für Erweiterungen stehen ein PCI-32- und vier PCI-64-Steckplätze zur Verfügung.

Typische Server-Features wie Management-Chipsatz, zugriffsgeschützte Laufwerke oder redundante Komponenten lässt der x225 vermissen. Zu dieser Workstation-Anmutung passt auch der für einen Server absolut ungewöhnliche AGP-Slot auf dem Board.

Testumgebung

Auf dem Dell PowerEdge 1850 haben wir als Betriebssystem die aktuelle SuSE Linux 9.1 Professional installiert, um das Zusammenspiel der neuen Xeon-Spielart mit dem aktuellen Kernel 2.6 näher unter die Lupe zu nehmen. Die Messwerte für den Newisys 2100 und den IBM xSeries 225 entstammen einer umfangreichen Testserie unter dem SuSE Linux Enterprise Server 8 (SLES8) für x86 beziehungsweise AMD64, der mit Kernel 2.4 arbeitet. Insofern lassen sich die Ergebnisse nicht direkt vergleichen, erlauben aber dennoch Rückschlüsse auf die Leistungsfähigkeit der Lindenhurst-Plattform.

In der ersten Testrunde haben wir uns auf die Performance des neuen Xeon-Prozessors als 32-Bit-Plattform konzentriert. Hier handelt es sich um den Einsatzmodus, den Intel explizit für die CPUs empfiehlt. Derzeit laufen jedoch im tecCHANNEL-Labor auch schon Tests der Lindenhurst-Plattform im 64-Bit-Modus. Die Ergebnisse stellen wir Ihnen demnächst in einem Update dieses Artikels vor.

Als Benchmarks verwenden wir eine Reihe von quelloffenen Testsuiten, mit denen sich die Performance unter mittleren bis hohen Systemlasten prüfen lässt. Eine portierte Variante des bekannten Byte-Benchmarks stellt unixbench dar, aus dessen Fundus wir sechs multiprozessorfähige Tests auswählen. Aus dem Werkzeugkasten der Samba-Entwickler stammt dbench, das unter Verwendung gescripteter Netzwerkdaten den Zugriff hoher Client-Zahlen auf das Filesystem simuliert. Zur Ermittlung einiger grundlegender Bandbreitendaten setzen wir den lmbench ein. Für die Messung von Lastdaten im Multiuser-Betrieb dient die Suite VII aus den AIM-Benchmarks von SCO.

Alle Benchmarks kompilieren wir unmittelbar auf den Zielplattformen, was speziell bei den AIM-Benchmarks etwas Nacharbeit am Code erfordert, um einen fehlerfreien Ablauf zu garantieren. Des Weiteren entfernen wir aus den Suites Harddisk-spezifische Benchmarks, um die nicht ganz identische Ausstattung der Testsysteme zu kompensieren. Als Arbeitsspeicher stehen allen Testsystemen 2 GByte zur Verfügung. Vor jedem Testlauf starten wir die Rechner neu, um Speicher und Filesystem von etwaigen Überbleibseln des vorherigen Benchmarks zu säubern.

AIM Suite VII

Als Benchmark für die Verarbeitung hoher Prozesslasten - eine natürliche Domäne jedes Servers - dient uns die AIM Suite VII von SCO. Sie arbeitet eine gemischte Arbeitslast von rund 60 Tests aus den Bereichen Arithmetik, I/O, Prozessgenerierung und Filesystem-Handling ab. Dabei misst sie die Anzahl der verarbeiteten Aufgaben pro Minute. Die festplattenspezifischen Tests der Suite haben wir dabei ausgeklammert: zum einen, um die unterschiedliche Ausstattung der Testrechner zu kompensieren; zum anderen, um gezielt die Leistung des Prozessors zu ermitteln.

Das Ergebnis fällt deutlich zu Gunsten der Nocona-bestückten Maschine aus. Das Dell-PowerEdge 1850 hängt den Opteron-bestückten Newisys 2100 über den ganzen Messbereich hinweg klar ab und deklassiert auch den Prestonia-bestückten IBM-Server. Während sich beim x225 ab 48 parallelen Tasks die Leistung langsam zu nivellieren beginnt, steigt beim Dell PowerEdge 1850 die Leistungskurve mit höherer Aufgabenlast weiter an und flacht selbst bei 128 parallelen Tasks noch nicht ab.

dbench

Aus der Feder des Samba-Entwicklers Andrew Tridgell stammt die dbench-Testsuite. Das Samba-Team benutzt die Suite, um das Lastverhalten des Filesystems im Allgemeinen sowie des Samba-Servers im Speziellen zu untersuchen. Für unseren Test lassen wir die Samba-spezifischen Teile der Suite außer Acht und verwenden lediglich dbench selbst. Mit gescripteten Anfragedaten aus einem echten netbench-Testlauf simuliert er den Zugriff vieler Clients auf das I/O-System. Das hat den Vorteil, das Filesystem unter hohe Lasten setzen zu können, ohne dazu Hunderte von Clients zu installieren.

Auch in diesem Test sorgt die Nocona/Lindenhurst-Plattform für eine angenehme Überraschung. Selbst bei parallelen Anfragen sehr vieler Clients bleibt das neue Intel-System responsiv und bietet dramatisch höhere Datendurchsätze als frühere Xeon-Varianten. Mit dem Opteron-244-System zieht der Dell PowerEdge 1850 bei diesem Test praktisch gleichauf und erzielt bei Lasten unter 16 Clients sogar die besseren Werte.

lmbench

Warum der Dell PowerEdge 1850 hohe Prozesslasten so gut abarbeitet, zeigen unter anderem die Ergebnisse des lmbench. Dieser frei verfügbare, quelloffene Benchmark ermittelt verschiedenste Messdaten auf der untersten Systemebene, darunter auch Timings zur Prozesserzeugung.

Wie man hier erkennt, erledigt der Lindenhurst bei der Prozesserzeugung die gestellten Aufgaben in allen Fällen schneller als ein Opteron 244. Dabei liegt die Differenz zwischen 11 Prozent bei einem fork() mit folgenden /bin/sh -c und fünf Prozent bei fork() +execve().

unixbench

Das bisher entstandene Bild untermauert auch der Test mit unixbench. Bei dieser Suite handelt es sich um eine Portierung des bekannten Byte-Benchmarks für Linux-Systeme. Neben zahlreichen Tests atomarer Operationen bringt unixbench einige Messreihen mit, die auch SMP-Systeme unter Last setzen. unixbench gibt die Ergebnisse als Anzahl der verarbeiteten Zeilen pro Zeiteinheit aus.

Hier lässt sich die neue Intel-Plattform von Opteron-basierten Systemen ebenfalls nicht mehr abhängen. Sowohl bei der Erzeugung neuer Prozesse als auch bei der Kontextumschaltung zwischen laufenden Rechenvorgängen erzielt der Dell PowerEdge 1850 Durchsatzwerte, die deutlich über denen der Vorgängergeneration Prestonia liegen und sich kaum von den für Opterons gemessenen Daten unterscheiden.

Fazit und Ausblick

Mit der Nocona/Lindenhurst-Plattform offeriert Intel eine Server-Generation, die es in Sachen Leistung zumindest im 32-Bit-Betrieb problemlos mit der Opteron-Konkurrenz von AMD aufnehmen kann. Nach wie vor - und trotz der EM64T-Erweiterungen - empfiehlt Intel allerdings für den 64-Bit-Einsatz die Verwendung des großen Bruders Itanium.

Was es mit dieser Empfehlung auf sich hat und wie sich die Lindenhurst-Plattform im 64-Bit-Betrieb behauptet, prüfen wir derzeit im tecCHANNEL-Labor. Dort tritt der Dell PowerEdge 1850 gerade gegen einen Opteron-bestückten IBM eServer 325 zum Duell unter 64-Bit-Linux an. Über die Ergebnisse informieren wir Sie demnächst in einem Update dieses Artikels. (cvi/jlu)