Test: Intel "Foster" Xeon

21.05.2001 von Christian Vilsbeck
Xeon - hinter diesem Namen verbirgt sich Intels neuer Pentium 4 basierter Workstation-Prozessor. Unser Test eines P4-Doppelpacks mit multiprozessorfähigen Anwendungen liefert überraschende Resultate.

Den Test von 11.11.2007 des Intel Xeon finden Sie hier.

Für einen Highend-Prozessor weist der Pentium 4 ein großes Manko auf: Er unterstützt keinen Dualprozessorbetrieb. Jetzt trägt Intel diesem Zustand Rechnung und führt einen neuen Prozessor ein.

Xeon, Intels neuer Workstation-Prozessor mit Pentium-4-Core, tritt die Nachfolge der Pentium-III-Xeon-Prozessoren an. Der neue Xeon DP, so die exakte Bezeichnung, ist auf den Betrieb mit zwei Prozessoren beschränkt. Die Cache-Größe bleibt zum Pentium 4 unverändert. Dafür erhält der Xeon zumindest ein paar Pins mehr und benötigt damit einen neuen Sockel. Diese neuen Pins waren auch der Grund für den verzögerten Launch des Xeon. Ein Tag vor dem ersten Versuch am 8. Mai zog Intel wegen elektrischer Probleme die Notbremse.

Im 4. Quartal 2001 kommt eine weitere Variante des Xeon auf den Markt: Der Xeon MP kann dann mit mehreren CPUs zusammenarbeiten und kommt mit größeren Caches. Damit hat Intel auch das entsprechende Server-Produkt zur Hand.

Sehr gelegen dürfte Intel kommen, dass es für den AMD Athlon noch immer keine Dualprozessor-Chipsätze gibt. AMDs hauseigener 760MP macht seit über einem halben Jahr nur mit Verzögerungen auf sich aufmerksam - zur Jahresmitte soll er endlich fertig werden. Für den Xeon hat Intel mit dem i860 den passenden Chipsatz dagegen gleich mitgeliefert.

Im tecChannel.de-Testlabor müssen die Xeons ihre Leistungsfähigkeit bei multiprozessorfähigen Anwendungen jetzt unter Beweis stellen. Gelingt es dem Pentium 4 im Doppelpack den Athlon zu schlagen?

Details zum Xeon

Zum Start bietet Intel den Xeon mit 1,4, 1,5 und 1,7 GHz Taktfrequenz an. Eine 2-GHz-Variante soll im dritten Quartal folgen. Die Fertigung des Xeon erfolgt wie beim Pentium 4 im 0,18-Mikron-Prozess. Auch die Anzahl der Transistoren blieb mit 42 Millionen unverändert.

Die NetBurst-Architektur zeichnet den Xeon wie schon den Pentium 4 aus:

Mehr Details zu den einzelnen Funktionen der NetBurst-Architektur finden Sie in unserem Grundlagenartikel zum Pentium 4.

Intel i860-Chipsatz für Xeon

Zusammen mit den Xeon-DP-Prozessoren hebt Intel den neuen Dualprozessor-Chipsatz i860 aus der Taufe. Der bislang unter dem Codenamen Colusa bekannte Chipsatz unterstützt ausschließlich den Xeon DP sowie den Prestonia - die kommende 0,13-Mikron-Variante des Xeon DP.

Als Arbeitsspeicher kommt nur RDRAM zum Einsatz. Der i860 verwendet zwei Rambus-Kanäle und erreicht eine Speicherbandbreite von 2,98 GByte/s. Damit harmoniert der Chipsatz mit dem 400-MHz-Systembus des Xeon, der ebenfalls 2,98 GByte/s an maximaler Transferrate erlaubt. Allerdings müssen sich beide Prozessoren den Systembus zum Chipsatz hin teilen. Die maximale Cache-Line-Größe ist mit 64 Byte unverändert zum Pentium-4-Chipsatz i850 geblieben.

Der Intel i860 mit seiner Hub-Architektur besteht in der Basiskonfiguration aus einer Zweichip-Lösung: Dem 82860 Memory-Controller-Hub MCH sowie dem 82801BA I/O-Controller-Hub ICH2. Ein Highspeed-Interface stellt eine Bandbreite von 266 MByte/s zwischen beiden Bausteinen zur Verfügung.

Der MCH unterstützt mit seinen beiden Rambus-Kanälen bis zu 4 GByte RDRAM. Allerdings müssen dann zwei MRHs zum Einsatz kommen. Unterstützung von AGP4x-Grafikkarten inklusive AGP-Pro-Steckplatz kann der 82860 ebenso bieten wie für vier PCI-64-Bit-Slots - diese sind aber nur über zusätzliche P64H-Controller einsetzbar.

Für die Peripherie zeichnet der seit dem i815E-Chipsatz verwendete ICH2 verantwortlich. Er unterstützt zwei IDE-Kanäle im UltraDMA/100-Betrieb sowie zwei USB-Controller mit insgesamt vier Ports. Außerdem sind ein 10/100 MBit Ethernet-Interface und Surround Sound mit sechs Kanälen nach dem AC97-Standard integriert.

Neuer Sockel, VRM & RIMM-Raiser

Um die Kommunikation zwischen den Prozessoren zu ermöglichen waren für den Xeon zusätzliche Pins erforderlich. Gegenüber dem Pentium 4 mit 423 Anschlüssen erhöht sich beim Xeon ihre Anzahl auf 607. Xeon-CPUs verlangen somit nach einem neuen Sockel - dem Socket 607.

Ähnlich dem Pentium 4 benötigen die Xeons eine sehr stabile Stromversorgung. Jeder Xeon verfügt über zusätzliche Spannungsregler, die in Form einer Steckkarte neben dem CPU-Sockel Platz finden. Intel taufte dieses Konzept der Voltage Regulator Modules auf den Namen VRM9.0. Ändern künftige Xeon-Prozessoren ihre Core-Spannung benötigen sie somit nur ein neues VRM-Modul - bei unverändertem Mainboard.

Der Pentium 4 mit seinem i850-Chipsatz kann maximal 2 GByte RDRAM verwalten - zu wenig für eine Workstation. Auch der Xeon-Chipsatz i860 kann pro Rambus-Kanal nur zwei RIMMs fassen und wäre bei 512-MByte-Modulen auf 2 GByte Arbeitsspeicher beschränkt. Über so genannte MRHs lassen sich die zwei Kanäle aber in jeweils zwei weitere so genannte Stick-Channels aufsplitten. Insgesamt stehen dem i860 bei Verwendung der MRHs somit 8 RIMMs beziehungsweise 4 Kanäle zur Verfügung. Damit kann die maximale Adressierbarkeit des i860-Chipsatzes von 4 GByte (mit 512-MByte-RIMMs) ausgereizt werden.

Die Speicherbandbreite des i850 bleibt aber bei 2,98 GByte/s (1,49 pro Kanal). Der pro Kanal eingesetzte MRH bewirkt mit seinen beiden Stick-Channels keine Bandbreitenverdopplung, sondern erweitert nur die Anzahl der möglichen RIMMs

Xeon-Workstation: Dell Precision 530

Zu den ersten Systemen mit Intel-Xeon-Prozessoren zählt die Precision WorkStation 530 von Dell. Wahlweise mit einem oder zwei Xeons ausgestattet soll das System die traditionellen Workstation-Segmente wie Digital Content Creation, CAD oder Softwareentwicklung bedienen.

Die Precision WorkStation 530 kann bis zu 4 GByte RDRAM mit Hilfe von RIMM-Raiser-Cards verwalten. Einen AGP-Pro-Slot hat Dell auf seinem Mainboard ebenso integriert wie zwei 64-Bit-PCI-Steckplätze. Weiter bietet das Board zwei Ultra-ATA/100-Anschlüsse sowie Ultra160-SCSI. Bei den Laufwerken stehen verschiedene EIDE- und SCSI-Festplatten zur Wahl.

Als Grafiksubsystem sieht Dell eine NVIDIA Quadro2-Pro-Grafikkarte vor. Die für den OpenGL-Einsatz optimierte Grafikkarte bietet 64 MByte DDR-SDRAM und basiert auf dem Geforce2-Pro-Chip. Wer noch mehr OpenGL-Power erwünscht, kann die Precision WorkStation 530 wahlweise mit einer FGL Graphics Fire GL2 oder 3D Labs Wildcat 2 5110 bestellen.

Dell Precision 530: Aufbau und Preise

Praktisch für das Einlesen digitaler Videodaten sind die 1394-Anschlüsse, die sich bedienerfreundlich an der Vorder- und Rückseite des Gehäuse befinden.

Auf den beiden Xeon-Prozessoren platziert Dell große passive Kühlkörper. Für Luftzirkulation sorgen zwei am Gehäuse montierte Lüfter sowie eine große Lufthutze über den CPU-Kühlkörpern.

Dell bietet die Precision WorkStation 530 ab 4450 Mark an. Unser Testsystem mit zwei 1,5-GHz-Xeons, 512 MByte RDRAM, NVIDIA Quadro2 Pro, 73 GByte Ultra160-SCSI-Festplatte, 16fach DVD-ROM und 12/8/32fach CD-RW-Brenner kostet inklusive Windows 2000 13500 Mark.

Benchmark-Vorbetrachtung

Alle Benchmarks mit den Xeon- und Pentium-III-Xeon-Prozessoren führten wir an den Dell Workstation Precision 530 und 620 durch. Beide Systeme verfügten mit 512 MByte PC800-RDRAM, NVIDIA Quadro2-Pro-Grafikkarte, Seagate-Cheetah-73-Festplatte über eine identische Ausstattung.

Für die Tests der Pentium-4-Prozessoren und des Athlon 1333 verwendeten wir dieselben Komponenten, um vergleichbare Ergebnisse zu erhalten. Die Pentium-4-CPUs testeten wir in einem Intel DesktopBoard DG850, der Athlon 1333 fand in einem MSI K7T266 Pro-R Platz.

Bis auf das Benchmark-Paket SPECapc for 3D Studio Max R3 wurden alle Tests unter Windows 2000 SP1 durchgeführt. Für SPECapc mussten wir Windows NT4 verwenden - der Benchmark setzt dieses Betriebssystem voraus. Zusätzlich haben wir die Systeme für das speicherintensive SPECapc mit 768 MByte Arbeitsspeicher ausgestattet.

Benchmark Betriebssystem

Windows NT4 und Windows 2000 verwenden für Uni- und Multiprozessor-Umgebungen verschiedene Betriebssystem-Kernel. Bei Windows NT4 müssen hierzu nur die im System32-Verzeichnis vorhandenen Dateien hal.dll und ntoskrnl.exe ausgetauscht werden. Windows 2000 unterscheidet neben Uni- und Multiprozessor-PCs zusätzlich noch ACPI-fähige Varianten. Entsprechend angepasste Installationen wurden von uns für das jeweilige System durchgeführt.

Bitte beachten Sie, dass die Werte für SYSmark2000, Cinebench 2000 und Quake III Arena nicht mit den Ergebnissen unserer bisherigen Prozessor-Benchmarks vergleichbar sind. Für die Workstation-Tests hat tecChannel.de eine andere Konfigurationen verwendet (Grafikkarte, Arbeitsspeicher, Festplatte).

Systemleistung: SYSmark2000

Ein guter Anhaltspunkt für die Leistungsfähigkeit von Prozessoren ist die Benchmark-Suite SYSmark2000 von Bapco. Das Paket besteht aus insgesamt 12 Programmen der Bereiche Office Productivity und Internet Content Creation. Die Anwendungen von SYSmark2000 nutzen bis auf den Windows Media Encoder 4 kein Multiprocessing. Zwar unterstützen bestimmte Filter das enthaltene Photoshop 5.5 SMP, doch in den SYSmark2000-Skripts kommen diese nicht zum Einsatz.

Die Ergebnisse der SYSmark2000-Tests spiegeln somit das Leistungsvermögen der Prozessoren bei "ganz normalen" Anwendungen wieder.

Dass die SYSmark2000-Werte der Xeon-Prozessoren im Doppelpack schneller sind als bei einem Xeon, liegt am Windows Media Encoder 4.0, das multithreaded programiert ist.

Beide SYSmark-Tests mit Xeon-CPUs wurden mit dem Multiprocessor-Kernel von Windows 2000 durchgeführt. Damit finden die Prozessoren den gleichen Betriebssystem-Overhead vor. Leicht erklärbar ist somit auch das Ergebnis des Pentium-4-Prozessors, der bei gleicher Taktfrequenz bis zu 13 Prozent schneller ist als ein Xeon: Die verwendete Windows-2000-Installation des Pentium 4 basiert auf einem Uniprocessor-Kernel. Er erzeugt weniger Overhead und performt bei 1-Prozessor-Systemen somit besser als der Multiprocessor-Kernel.

Wird für den Xeon-Prozessor der Uniprocessor-Kernel verwendet verschwinden die Performance-Unterschiede zwischen Pentium 4 und Xeon.

3D-Animation: SPECapc for 3ds max

3D Studio MAX von Discreet/Autodesk ist eine professionelle Software für 3D-Modellierung, Animation und Rendering. Das objektorientierte 3D-Werkzeug nutzt bei einer Vielzahl von Berechnungen, Lichteffekten und Render-Vorgängen SMP.

Um die Leistungsfähigkeit von 3D Studio MAX auf verschiedenen Hardwareplattformen standardisiert testen zu können, gibt es vom Benchmark-Konsortium SPEC das Benchmark-Paket SPECapc for 3D Studio MAX R3. Die umfangreichen Tests von SPECapc spiegeln die typischen Berechnungen bei der Erstellung von Animationen wieder.

Der Performance-Vorteil zweier Xeons gegenüber einem, jeweils auf Multiprozessor-Kernel, ist beim SPECapc-Test mit 15 Prozent relativ klein. Allerdings setzt sich der Gesamtwert Graphic Mean aus 25 einzelnen Schritten zusammen. Beim Vergleich einzelner Zwischenergebnisse ist der Dual-Xeon teilweise um bis zu 35 Prozent schneller als ein einzelner Xeon, beispielsweise beim "stepping through landscape scene with smooth shading".

Die Ergebnisse des Pentium 4 mit Singleprozessor-Kernel zeigen aber, wie stark der Dual-Xeon mit seinem Multiprocessor-Overhead beschäftigt ist. Er frisst die gesamte Mehrleistung der zweiten CPU wieder auf.

Beim Pentium III Xeon steigert die zweite CPU die Performance weitaus mehr. Die Pentium III Xeons sind durch ihre geringere Rechenleistung stärker ausgelastet als die Xeons. Hier bremsen andere Komponenten wie Grafikkarte und Speicher das System nicht so sehr.

Erstaunlich stark ist die Leistung des Athlon 1333 einzustufen.

Rendern: 3D Studio MAX

Neben der Simulation komplexer Arbeitsschritte von 3D-Animationen mit SPECapc testen wir die reine Rendergeschwindigkeit von 3D Studio MAX. Beim Rendern von Szenen nutzt das Programm konsequent die Rechenleistung von Multiprozessor-Systemen.

Als Rendervorlage dienen die im 3D-Studio-MAX-Paket enthaltenen Szenarien "Island" und "Apollo". Als Render-Einstellungen haben wir die Default-Vorgaben der Szenarien übernommen.

Raytracing: Cinema 4D XL

Cinema 4D XL von Maxon ist ein professionelles 3D-Modelling- und Animationswerkzeug. Eigens für Performancetests entwickelte Maxon den Cinebench 2000. Er basiert auf Cinema 4D XL und führt Shading- und Raytracing-Tests durch. SMP wird von Cinema 4D XL sowie dem Benchmark unterstützt.

Beim Raytracing-Leistungstest fordert Cinebench 2000 besonders die FPU der Prozessoren. Der Benchmark verwendet eine Szene, in der sehr stark von Anti-Aliasing, Schatten, Transparenzen und Spiegelungen Gebrauch gemacht wird.

Bildbearbeitung: Photoshop 6.0

Photoshop von Adobe wendet bei einer Vielzahl integrierter Filterfunktionen SMP an. Bildbearbeitung eignet sich durch große lineare Datenmengen sehr gut für Multithreading. Mehr Informationen hierzu finden Sie in unserem Grundlagenbeitrag.

Dazu zählen auch die Filter Gaußscher Weichzeichner, Helligkeit interpolieren und Konturen scharf zeichnen, die wir für unsere Testzwecke ausgewählt haben. Die Filter wurden auf ein 50 MByte großes Testbild im TIFF-Format angewendet. SSE-Optimierung, wie kürzlich von Adobe angekündigt, ist in den verwendeten Filtern noch nicht integriert.

Encoding: Windows Media Encoder

Der Windows Media Encoder 7.0 von Microsoft encodiert Video- und Audiodateien in einen Windows-Media-Format-Stream. Die Software nutzt Intels SSE2-Befehlssatz und unterstützt außerdem SMP.

Zum Test der Encoder-Performance dient ein 30 Sekunden langes AVI-File im Format 320x240 Pixel. Das Benchmark-Skript encodiert die Datei mit folgenden Einstellungen: 720x480 Pixel Auflösung, MPEG4-V3-Video-Kompression, Windows-Media-V7-Audio-Kompression mit 44 KHz Stereo sowie einer Framerate von 30 fps.

MPEG2: FlaskMPEG

FlaskMPEG dient dem Konvertieren von MPEG-2-Streams in andere Videoformate. Zu den bekanntesten zählt dabei der DivX-Codec. Die Umwandlung basiert auf zwei Schritten:

Die inverse diskrete Cosinus-Transformation übernimmt der IDCT-Codec. Der Algorithmus für die Dekodierung gestaltet sich sehr rechenaufwendig. Speziell optimierte Codec-Versionen für Intels SSE2- und AMDs 3DNow!-Befehlssätze sind in FlaskMPEG enthalten. In der Version 0.60 Beta bietet FlaskMPEG zudem Unterstützung für SMP.

Zum Test der Konvertiergeschwindigkeit eines MPEG-2-Streams in ein DivX-basierendes AVI-Format dient die DVD-Video "Armageddon". Die Umwandlung erfolgt mit folgenden Einstellungen: DivX MPEG-4 Low Motion mit 750 KBit/s Datenrate, keine Audio-Kompression, Bildgröße 512x384 Pixel und HQ Bikubische Filterung.

MP3-Encoding: eJay MP3 Plus

Die Audio-Software eJay MP3 Plus dient dem Konvertieren von Audiodaten zwischen WAV- und MP3-Formaten. Der integrierte MP3-Encoder von eJay bietet SSE-Unterstützung und nutzt die Rechenleistung von Mehrprozessorsystemen aus.

Zum Test der Encodier-Performance konvertieren wir eine aus mehreren Audio-Tracks bestehende WAV-Datei ins MP3-Format. Die MP3-Bitrate wurde auf 128 KBit/s eingestellt.

3D-Benchmark: Quake III Arena

Quake III Arena sowie Spiele mit der Q3-Engine zählen zu den wenigen dualprozessorfähigen Spielen. Spiele wie Quake III sind zwar keine typische Workstation-Anwendung, es eignet sich aber hervorragend, um Schwachstellen von SMP aufzudecken.

Um den Multiprozessorbetrieb bei Quake III Arena zu aktivieren muss der Konsolenbefehl r_smp 1 eingegeben werden. Um die Einflüsse von Grafikkarte und Arbeitsspeicher zu minimieren, testen wir Quake III in der Einstellung Fastest bei einer Auflösung von 640x480 Bildpunkten. Der Prozessor wird dabei maximal belastet.

Bei sehr speicher- und grafikintensiven Anwendungen wie Quake III wird die potenzielle Rechenleistung zweier Xeons nicht mehr genutzt. Die Speicherbandbreite und Grafikkartenleistung sind zu gering und werden zum Flaschenhals.

Beim Pentium III Xeon sorgt eine zweite CPU dagegen noch für einen geringen Anstieg der Framerate. Die Rechenleistung dieser Prozessoren ist noch nicht so hoch, dass der Arbeitsspeicher und die Grafikkarte sie ausbremsen.

Wie sehr die Grafikkarte die Rechenleistung der schnellen Prozessoren limitiert zeigen auch die Quake-III-Tests bei sehr hohen Auflösungen: Die Frameraten unterscheiden sich zwischen den Prozessoren kaum mehr. Während die Grafikkarte bei der hohen Auflösung voll gefordert wird, langweilen sich die Prozessoren sprichwörtlich. Die CPU-Auslastung, besonders im Dualbetrieb, liegt bei Beobachtung des Systemmonitors oft weit unter 75 Prozent.

Ein Dualprozessorsystem macht bei Spielen wie Quake III Arena nur Sinn, wenn es sich um "leistungsschwache" Prozessoren handelt. Dann ist die Grafikkarte noch nicht der limitierende Faktor.

Fazit

Bei Programmen, die Multithreading unterstützen, sind Dual-Xeon-Systeme derzeit unschlagbar. Effektiv programmierten Anwendungen entlockt ein zweiter Xeon bis zu 95 Prozent höhere Leistung. Im Durchschnitt der getesteten Programme sind es immerhin sehr gute 75 Prozent.

Nur ist die Zahl multiprozessorfähiger Anwendungen bislang sehr begrenzt - die Programmierung für Multithreading gestaltet sich aufwendiger und komplizierter. SMP-fähige Anwendungen finden sich somit hauptsächlich im Profisegment. Gemessen an der eingesparten Arbeitszeit sind die Mehrkosten für das Programm sowie den zweiten Prozessor verschwindend gering.

Bei "normalen" Anwendungen, die kein Multithreading unterstützen, bringt das Xeon-Doppelpack keinen Vorteil gegenüber dem Pentium 4. Der Core beider CPUs ist identisch. Im Gegenteil, durch den Multiprozessor-Overhead müssen sogar einige Prozent Geschwindigkeitseinbußen hingenommen werden. Ein Dualprozessorsystem bringt bei normalen Anwendungen nur Vorteile, wenn mehrere Programme gleichzeitig arbeiten. Hier können die Programme tatsächlich parallel rechnen.

Der geringe Unterschied zwischen AMDs Athlon und Intels Xeon-Doppelpack zeigt dessen Potenzial als Workstation-Prozessor. Intel kann derzeit nur auf weitere Probleme des seit sechs Monaten verspäteten AMD-760 Multiprozessor-Chipsatzes hoffen. (cvi)