Test: 64-Bit-Xeon 3,60 GHz "Nocona" in Workstations

22.07.2004 von Christian Vilsbeck
Intels Xeon "Nocona" fordert mit 3,60 GHz Taktfrequenz, 64-Bit-Extensions, SSE3 und DDR2-Speicher AMDs Opteron zum Duell. Zieht Intel jetzt davon und wie verhalten sich die CPUs bei Profianwendungen im Dualbetrieb?

Intel poliert die neue Xeon-DP-Generation für Dualprozessor-Systeme gehörig auf. Die Workstation-CPU arbeitet jetzt mit bis zu 3,60 GHz Taktfrequenz und verfügt über Features wie 64-Bit-Erweiterung. Für mehr Performance sollen zudem der SSE3-Befehlssatz sowie die ebenfalls neue Workstation-Plattform sorgen.

Vor allem gelangt der Xeon DP mit dem Workstation-Chipsatz E7525 "Tumwater" endlich schneller an seine Daten. Über einen 800-MHz-Prozessorbus greift der Nocona nun auf DualDDR2-400-Speicher zu. Der Vorgänger musste sich mit DDR266-SDRAM zufrieden geben. Allerdings pufferte der alte Xeon DP viele Speicherzugriffe mit einem großen L3-Cache ab - dieser fehlt dem Nocona. Dafür steht dem 3,60-GHz-Prozessor der auf 1 MByte verdoppelte L2-Cache zur Seite.

Große Caches und ein flinker Speicherzugriff sind für den Xeon DP auch vonnöten. Der Opteron mit seinem integrierten DualDDR400-Speicher-Controller erweist sich bei grafikintensiven Workstation-Anwendungen als besonders leistungsfähig. Außerdem profitiert ein Opteron-System dank der HyperTransport-Architektur sehr gut von einer zweiten CPU.

Im tecCHANNEL-Testlabor treten der Xeon DP Nocona, sein Vorgänger Prestonia und der Opteron bei Direct3D-, OpenGL- und Rendering-Applikationen gegeneinander an. Professionelle Software wie 3ds max, AutoCAD und Maya fordert neben den Prozessoren auch die Workstation-Grafikkarten voll. Hier zeigt sich, welche Kombination am besten harmoniert. Außerdem müssen sich die Workstation-CPUs im Dualprozessor-Betrieb beweisen. Hier ergeben sich ebenfalls interessante neue Resultate bei der Skalierung der Performance.

Xeon-DP-Modelle im Überblick

Intel bietet den Xeon DP auf Nocona-Basis mit fünf Modellen von 2,80 bis 3,60 GHz Taktfrequenz an. Der L1-Daten-Cache mit 16 KByte und die zweite Pufferstufe mit 1 MByte besitzen gegenüber dem Vorgänger das doppelte Fassungsvermögen. Auf einen L3-Cache müssen die 90-nm-Xeons allerdings verzichten. Der Prozessorbus des Nocona-Xeon arbeitet jetzt wie beim Pentium 4 mit 800 MHz. Die bisherigen Xeon DPs mit Prestonia-Core besitzen einen FSB400/533. Allen Xeon-Prozessoren gemeinsam ist die Hyper-Threading-Technologie sowie der Socket 604.

In der Tabelle finden Sie alle aktuellen Xeon-CPUs für Dual-Processing im Überblick.

Intels Xeon-DP-Modelle im Überblick

Modell

Cache

FSB

Core

Xeon 3,60 GHz

1M L2

800 MHz

Nocona

Xeon 3,40 GHz

1M L2

800 MHz

Nocona

Xeon 3,20 GHz

1M L2

800 MHz

Nocona

Xeon 3,20 GHz

512K L2 / 2M L3

533 MHz

Prestonia

Xeon 3,20 GHz

512K L2 / 1M L3

533 MHz

Prestonia

Xeon 3,06 GHz

512K L2 / 1M L3

533 MHz

Prestonia

Xeon 3,06 GHz

512K L2

533 MHz

Prestonia

Xeon 3,00 GHz

1M L2

800 MHz

Nocona

Xeon 3,00 GHz

512K L2

400 MHz

Prestonia

Xeon 2,80 GHz

1M L2

800 MHz

Nocona

Xeon 2,80 GHz

512K L2 / 1M L3

533 MHz

Prestonia

Xeon 2,80 GHz

512K L2

533 MHz

Prestonia

Xeon 2,80 GHz

512K L2

400 MHz

Prestonia

Xeon 2,66 GHz

512K L2

533 MHz

Prestonia

Xeon 2,60 GHz

512K L2

400 MHz

Prestonia

Xeon 2,40 GHz

512K L2 / 1M L3

533 MHz

Prestonia

Xeon 2,40 GHz

512K L2

533 MHz

Prestonia

Xeon 2,40 GHz

512K L2

400 MHz

Prestonia

Xeon 2,00 GHz

512K L2

533 MHz

Prestonia

Ausführliche Details über die Architektur des Xeon DP Nocona können Sie in unserem Artikel Opteron-Gegner: Intels erster Xeon mit 64 Bit nachlesen.

Opteron-Modelle im Überblick

Lateinisch optimus heißt übersetzt "der Beste". AMD hat daraus den Namen Opteron abgeleitet. Mit dem Opteron adressiert AMD den Server-/Workstation-Bereich und bietet ihn als 1-, 2- und 8-Wege-CPU an.

Den Opteron gibt es von 1,40 bis 2,40 GHz Taktfrequenz. Seit Februar 2004 bietet AMD mit dem Opteron EE und HE zusätzliche Low-Voltage-Versionen mit TDP-Werten von 30 beziehungsweise 55 Watt - statt 82 bis 89 Watt bei den Standardmodellen. Allen Opteron-Modellen gemein sind die L1-Caches von je 64 KByte für Daten und Befehle sowie der 1 MByte große L2-Cache.

Niedrigere Latenzzeiten beim Speicherzugriff realisiert der Opteron mit einem integrierten Dual-Channel-DDR333-SDRAM-Controller. Ab der Core-Revision C0 unterstützen die Opterons zusätzlich DDR400-Speicher. Über insgesamt acht DIMMs (vier pro Kanal) lassen sich pro CPU 8 GByte Speicher ansprechen. Die Speicherbandbreite beträgt mit DualDDR333-Speicher 4,98 GByte/s, mit DualDDR400-Speicher 5,96 GByte/s. Neuland betritt AMD auch beim I/O-Konzept: Statt des üblichen parallelen FSB kommuniziert der Opteron über HyperTransport-Schnittstellen mit I/O-Bausteinen oder benachbarten CPUs.

In der Tabelle haben wir für Sie alle Opteron-Modelle zusammengefasst.

Die Tabelle zeigt die Opteron-Modellpalette mit ihrer tatsächlichen Taktfrequenz.

Prozessor

Taktfrequenz [MHz]

Multi-Processing

Opteron 140

1400

nein

Opteron 140 EE

1400

nein

Opteron 142

1600

nein

Opteron 144

1800

nein

Opteron 146

2000

nein

Opteron 146 HE

2000

nein

Opteron 148

2200

nein

Opteron 150

2400

nein

Opteron 240

1400

2fach

Opteron 240 EE

1400

2fach

Opteron 242

1600

2fach

Opteron 244

1800

2fach

Opteron 246

2000

2fach

Opteron 246 HE

2000

2fach

Opteron 248

2200

2fach

Opteron 250

2400

2fach

Opteron 840

1400

8fach

Opteron 840 EE

1400

8fach

Opteron 842

1600

8fach

Opteron 844

1800

8fach

Opteron 846

2000

8fach

Opteron 846 HE

2000

8fach

Opteron 848

2200

8fach

Opteron 850

2400

8fach

Ausführliche Grundlagen über die AMD64-Architektur des Opteron können Sie ebenfalls bei tecCHANNEL nachlesen.

Listenpreise

Hinsichtlich der Preise empfiehlt es sich, gelegentlich einen Blick auf die offiziellen Listen der CPU-Hersteller zu werfen. Bei AMDs Preisliste gab es am 01. Juni 2004 die letzten Änderungen. Intels Preisliste wurde am 18. Juli 2004 aktualisiert.

OEM-Preise im Vergleich

Modell

Taktfrequenz [MHz]

Preis [US-Dollar]

Alle Preise in US-Dollar, bezogen auf eine Abnahmemenge von 1000 Stück. Stand: AMD-Preisliste vom 01. Juni 2004, Intel-Preisliste vom 18. Juli 2004.

Xeon Nocona

Xeon FSB800

2800

209

Xeon FSB800

3000

316

Xeon FSB800

3200

455

Xeon FSB800

3400

690

Xeon FSB800

3600

851

Xeon Prestonia

Xeon FSB533

2000

198

Xeon FSB533

2400

198

Xeon 1M L3 FSB533

2400

256

Xeon FSB533

2660

209

Xeon FSB533

2800

256

Xeon 1M L3 FSB533

2800

316

Xeon FSB533

3066

316

Xeon 1M L3 FSB533

3066

455

Xeon 1M L3 FSB533

3200

690

Xeon 2M L3 FSB533

3200

1043

Opteron 1xx

Opteron 140

1400

163

Opteron 140 EE

1400

417

Opteron 142

1600

178

Opteron 144

1800

218

Opteron 146

2000

278

Opteron 146 HE

2000

417

Opteron 148

2200

417

Opteron 150

2400

637

Opteron 2xx

Opteron 240

1400

198

Opteron 240 EE

1400

690

Opteron 242

1600

209

Opteron 244

1800

316

Opteron 246

2000

455

Opteron 246 HE

2000

690

Opteron 248

2200

690

Opteron 250

2400

851

Die 1000er Preise in den Tabellen sind auch ein Anhaltspunkt für die deutschen/europäischen Endkundenpreise in Euro. Unter Berücksichtigung der Mehrwertsteuer und einer geringen Händlermarge ergibt sich annähernd der Endkundenpreis. Nachfolgend finden Sie einen Link zu preiswerten Anbietern.

tecCHANNEL Preisvergleich & Shop

Produkte

Info-Link

Prozessoren

Preise & Händler

Benchmark-Vorbetrachtung

Bei den Workstation-Benchmarks treten in unserem Testlabor folgende Prozessoren gegeneinander an:

Alle CPUs mussten den Benchmark-Parcours im Single- und Dualprozessor-Betrieb durchlaufen. Die Xeons haben wir jeweils mit aktiviertem Hyper-Threading getestet. Das Betriebssystem Windows XP Professional SP1a arbeitete bei allen Tests mit dem Multiprozessor-Kernel.

Die getesteten Prozessoren werden alle gemäß ihren technischen Spezifikationen betrieben. Auch der Speicher, das Mainboard und die restlichen Komponenten sind nicht übertaktet, sondern arbeiten exakt nach den Vorgaben.

Testplattformen

Für den Test der Nocona-CPUs verwenden wir ein Supermicro X6DA8-G2. Das Workstation-Mainboard für zwei Prozessoren verwendet Intels E7525-Chipsatz "Tumwater" und unterstützt DDR2-400-SDRAM in einer Dual-Channel-Konfiguration. Bei den Speichermodulen setzen wir auf Registered DIMMs PC2-3200R von Infineon mit einer CAS Latency von 3. Für die Grafikkarte steht ein PCI-Express-x16-Steckplatz zur Verfügung.

Die Xeon DPs mit Prestonia-Core und FSB533 arbeiten in einem Intel SE7505VB2-Mainboard mit E7505-Chipsatz. Der Workstation-Chipsatz ist der Vorgänger von Intels E7525. Mit dem E7505 steht den Prozessoren DDR266-SDRAM mit CL3 zur Seite - ebenfalls in einer Dual-Channel-Konfiguration.

Opteron-CPUs von AMD nehmen in einem K8T Master2 von MSI mit VIAs K8T800-Chipsatz Platz. Über ihren integrierten Memory-Controller greifen die CPUs auf Dual-Channel-DDR400-SDRAM mit CL2 zurück. Die verwendeten Mushkin-Module sind dabei gepuffert ausgeführt.

Um gleiche Testkonfigurationen zu gewährleisten, steht den Prozessoren jeweils 1 GByte Arbeitsspeicher zur Verfügung. Einheit herrschte auch beim Massenspeicher, der sich aus Ultra320-SCSI-Festplatten mit 10.000 U/min aufbaut. Anschluss finden die Laufwerke an Adaptecs 2200S SCSI-RAID-Controller mit 64 MByte Cache.

Workstation-Grafikkarten

Für Workstations ist die Performance bei grafikintensiven Anwendungen von entscheidender Bedeutung. Wir setzen bei unseren Benchmarks auf OpenGL-zertifizierte Highend-Workstation-Grafikkarten aus NVIDIAs Quadro-FX-Serie.

Das Nocona-System mit PCI-Express-x16-Grafiksteckplatz verwendet eine NVIDIA Quadro FX 3400. Das Topmodell von NVIDIAs PCI-Express-Quadro-Serie verfügt über 256 MByte GDDR3-Speicher mit 900 MHz Taktfrequenz (per DDR) und über ein 256-Bit-Speicher-Interface. Die Quadro FX3400 basiert auf dem NV45GL-Chip, der mit 350 MHz Core-Taktfrequenz arbeitet.

In den AGP-8x-Mainboards des Opteron und Xeon DP "Prestonia" kommt eine NVIDIA Quadro FX 4000 zum Einsatz. Auf dieser Karte befindet sich der NV40GL-Chip, der als AGP-Pendant zum NV45GL der Quadro FX 3400 gilt. Standardmäßig arbeitet die Quadro FX 4000 allerdings mit 375 MHz Core- und 1000 MHz Speichertaktfrequenz.

Um vergleichbare Testbedingungen für die AGP- und PCI-Express-Systeme zu ermöglichen, haben wir die Taktfrequenz von Core und Speicher der 4000er Quadro auf das 3400er Niveau gesenkt. Identisch ist die Speicherausstattung der Quadro FX 4000: 256 MByte GDDR3-SDRAM bei einer Busbreite von 256 Bit.

SPEC CPU2000

Wir benutzen als Analyseinstrument die Benchmark-Suite SPEC CPU2000 unter Windows XP Professional SP1a. Das Benchmark-Paket verwendet Ganzzahlen- und Fließkomma-Programme und wird mit den Sourcecodes geliefert. Es handelt sich hierbei nicht um Lowlevel-Benchmarks, sondern um Software, die realitätsnahe Aufgabenstellungen bearbeitet. Vor dem Testlauf ist Programm für Programm zu kompilieren, was durch die Wahl der entsprechenden Parameter hervorragende Möglichkeiten zum Test einzelner CPU-Funktionsgruppen eröffnet.

Im SPEC-Komitee sitzen alle Prozessorhersteller, die im Workstation- und Server-Bereich das Sagen haben - auch einige große PC-Hersteller sind dabei. Die SPEC regelt den Gebrauch ihrer Benchmarks strikt und gibt exakt vor, in welcher Form die Ergebnisse an die Organisation zu melden sind. So müssen die verwendeten Compiler und die restliche Hard- und Software spätestens ein halbes Jahr nach dem Test für jedermann zu kaufen sein.

Die von den Herstellern eingereichten Ergebnisse werden auf der offiziellen CPU2000-Result-Seite veröffentlicht. Das alles schafft in der Theorie vergleichbare und faire Testbedingungen.

Tuning per Compiler

In der Praxis kompiliert jeder Hersteller die SPEC-Programme mit eigenen Parametern und selbst gewählten Compilern.

Damit ist das Dilemma der SPEC-Ergebnisse bereits erläutert: Jeder kann den SPEC-Benchmark optimieren, er muss es nur dokumentieren. Dazu darf er so viele Compiler einsetzen, wie er will. Allerdings ist zwischen dem Base-Rating und den Peak-Ergebnissen zu unterscheiden. Die 26 Programme des CPU2000-Pakets müssen in der Base-Wertung mit den gleichen Compiler-Parametern erzeugt werden. Das gilt jeweils für die zwölf Integer- und die 14 Fließkomma-Programme. Beim Peak-Rating dürfen sich die Hersteller richtig austoben und jedes Programm speziell tunen.

Sowohl nach den Regeln des Peak- als auch des Base-Ratings lassen sich Programme erzeugen, die nur auf dem gerade getesteten Prozessor laufen. So bringt beispielsweise ein Compiler-Lauf mit Intels C++ 8.0 und der Option -QxP sehr schnellen Code zustande, der durch die Verwendung von SSE3 aber nur mit dem Pentium 4 "Prescott" und Xeon DP "Nocona" läuft. Ein Xeon DP mit Prestonia-Core oder gar ein Opteron müssen mit der so präparierten Software passen.

Wir haben für diesen Test die jeweils besten Einstellungen für den Xeon DP "Nocona" (-QxP, SSE3-Support) sowie den Prestonia-Xeons und Opterons (-QxW, SSE2-Support) gewählt.

Bei allen Prozessoren kompilieren wir die SPEC-Programme mit den Intel-Compilern C++ 8.0 und Fortran 8.0 und nutzen Microsofts Visual Studio .NET 2002.

Ergebnisse: Integer

Wir setzen die SPEC-Benchmarks praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 8.0 und MS Visual Studio für alle Integer-Tests. Auch AMD und Intel verwenden diese Compiler für das Base-Rating, wie man an den von beiden Firmen offiziell gemeldeten Integer-Resultaten sehen kann.

SPECint_base2000: Official Run

Prozessor

Opteron 248

Opteron 250

Xeon 3,20 GHz 1M L3

Xeon 3,20 GHz 2M L3

Xeon 3,00 GHz 1M L2

Xeon 3,60 GHz 1M L2

Alle Angaben in Punkten. Höhere Werte sind besser. Bedeutung der Compiler-Optionen: -QxW = optimiert für Pentium 4/Xeon mit SSE2-Erweiterung und lauffähig auf dem Opteron. -QxP = optimiert für den Pentium 4/Xeon mit SSE3-Erweiterung.

Taktfrequenz

2,2 GHz

2,4 GHz

3,2 GHz

3,2 GHz

3,0 GHz

3,6 GHz

Sockel

940

940

604

604

604

604

Core

AMD64

AMD64

Prestonia

Prestonia

Nocona

Nocona

Speichertyp

DDR400 CL2

DDR400 CL2

DDR266 CL3

DDR266 CL3

DDR2-400 CL3

DDR2-400 CL3

Chipsatz

K8T800

K8T800

E7505

E7505

E7525

E7525

Compiler

-QxW

-QxW

-QxW

-QxW

-QxP

-QxP

Test

164.gzip

1195

1303

1291

1293

976

1166

175.vpr

1235

1328

848

1083

834

935

176.gcc

1144

1244

1616

1781

1597

1864

181.mcf

1102

1142

621

897

833

858

186.crafty

1565

1702

1211

1233

1094

1310

197.parser

1384

1494

1198

1335

1133

1322

252.eon

1707

1867

1458

1461

1281

1540

253.perlbmk

1486

1597

1401

1441

1400

1667

254.gap

1537

1662

1540

1572

1564

1831

255.vortex

2201

2404

2228

2454

2099

2438

256.bzip2

1202

1291

936

1217

935

1060

300.twolf

1512

1623

1197

1655

1151

1325

Gesamt

1412

1523

1234

1407

1195

1382

Im folgenden Diagramm finden Sie das Gesamtergebnis des SPEC-CPU2000-Integer-Benchmarks der Prozessoren nochmals übersichtlich im grafischen Vergleich:

Analyse: Integer

Der neue Intel Xeon DP 3,60 GHz muss sich in der Integer-Leistung seinem Vorgänger Xeon DP 3,20 GHz 2M L3 knapp geschlagen geben. Die geringere Gesamt-Performance der Nocona-CPU wird durch zwei Handikaps verursacht.

Hauptverantwortlich dafür ist der fehlende L3-Cache beim Nocona - trotz des 1 MByte großen L2-Cache. Entscheidend ist aber das kumulierte Fassungsvermögen der Cache-Stufen. So zieht sich der Nocona gegen den Prestonia mit 512 KByte L2- und 1 MByte L3-Cache noch gut aus der Affäre. Gegen die Version mit 2 MByte L3-Cache hat der Nocona trotz höherer Taktfrequenz und schnellerem Speicher keine Chance.

Die Auswirkungen der unterschiedlichen Cache-Größen sind bei der speicherintensiven Routing-Simulation 300.twolf gut zu erkennen. Der 3,20-GHz-Prestonia mit 1 MByte L3-Cache kann selbst den 3,00-GHz-Nocona nur knapp schlagen - den 3,60er muss er ziehen lassen. Die Daten können nicht mehr zum Gros im Cache gehalten werden. Die Nocona-Xeons profitieren hier von ihrem schnelleren Speicher und dem FSB800. Der Xeon DP 3,20 GHz mit 2 MByte L3-Cache hält dagegen die meisten Daten jetzt im großen Puffer. Die Speicher-Performance wird zur Nebensache.

Bei der Komprimieranwendung 164.gzip reicht eine L2-Cache-Größe von 512 KByte dagegen problemlos aus. Eine dritte Pufferstufe oder flinkerer Speicher nutzen hier nichts. Dennoch komprimiert der Nocona trotz deutlich höherer Taktfrequenz langsamer als die Vorgänger-Xeons mit Prestonia-Core. Die Erklärung für die geringere Performance liegt in der deutlich längeren Pipeline des Nocona. Intel verlängerte sie von 20 auf 31 Stufen. Falsche Sprungvorhersagen haben bei dieser Pipeline-Tiefe erheblich mehr negativ Auswirkungen auf die Performance. Diesen Nachteil wiegt auch nicht die verbesserte Sprungvorhersage des Nocona auf. Hinzu kommt außerdem, dass der L2-Cache beim Nocona langsamer ist als der des Prestonia-Xeons.

Den Opteron von AMD hält der Xeon weder mit Nocona- noch Prestonia-Core im Schach. Die Kombination eines 1 MByte großen L2-Cache mit dem integrierten Speicher-Controller lässt den Intel-CPUs das Nachsehen. Die vergleichsweise mit "geringer" Taktfrequenz arbeitenden Opterons arbeiten mit deutlich weniger Pipeline-Stufen. Falsche Sprungvorhersagen sind hier weniger tragisch. Der Opteron zieht auch einen Vorteil aus den DDR400-Speicherriegeln mit einer CAS-Latency von nur zwei Taktzyklen. Für den Xeon "Nocona" standen zum Testzeitpunkt nur gepufferte DDR2-400-Module mit CL3 zur Verfügung.

Ergebnisse: Floating Point

Wir setzen die SPEC-Benchmarks praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 8.0 und MS Visual Studio sowie Intel Fortran 8.0 für alle Fließkomma-Tests. Auch AMD und Intel benutzen diese Compiler für das Base-Rating bei den Fließkomma-Benchmarks, wie man an den von beiden Firmen offiziell gemeldeten FP-Resultaten sehen kann.

SPECfp_base2000: Official Run

Prozessor

Opteron 248

Opteron 250

Xeon 3,20 GHz 1M L3

Xeon 3,20 GHz 2M L3

Xeon 3,00 GHz 1M L2

Xeon 3,60 GHz 1M L2

Alle Angaben in Punkten. Höhere Werte sind besser. Bedeutung der Compiler-Optionen: -QxW = optimiert für Pentium 4/Xeon mit SSE2-Erweiterung und lauffähig auf dem Opteron. -QxP = optimiert für den Pentium 4/Xeon mit SSE3-Erweiterung.

Taktfrequenz

2,2 GHz

2,4 GHz

3,2 GHz

3,2 GHz

3,0 GHz

3,6 GHz

Sockel

940

940

604

604

604

604

Core

AMD64

AMD64

Prestonia

Prestonia

Nocona

Nocona

Speichertyp

DDR400 CL2

DDR400 CL2

DDR266 CL3

DDR266 CL3

DDR2-400 CL3

DDR2-400 CL3

Chipsatz

K8T800

K8T800

E7505

E7505

E7525

E7525

Compiler

-QxW

-QxW

-QxW

-QxW

-QxP

-QxP

Test

168.wupwise

1479

1591

1451

1449

1978

2221

171.swim

2103

2187

1254

1253

1845

1877

172.mgrid

1120

1208

926

998

1123

1276

173.applu

1138

1184

788

783

1183

1250

177.mesa

1629

1707

1400

1402

1318

1571

178.galgel

2009

2128

1681

2509

2009

2172

179.art

1795

1855

718

1692

823

835

183.equake

1422

1495

1104

1127

1479

1579

187.facerec

1695

1811

1264

1329

1620

1793

188.ammp

1131

1199

751

1100

851

935

189.lucas

1746

1811

1025

1034

1638

1663

191.fma3d

1307

1392

956

953

1199

1342

200.sixtrack

581

633

605

621

537

642

301.apsi

1279

1378

853

977

877

966

Gesamt

1397

1479

1013

1163

1238

1354

Im folgenden Diagramm finden Sie das Gesamtergebnis des SPEC-CPU2000-Integer-Benchmarks übersichtlich im grafischen Vergleich:

Analyse: Floating Point

Bei den Fließkommaberechnungen wenden Intels Xeons mit Nocona-Core das Blatt. Selbst der Xeon DP 3,00 GHz ist jetzt schneller als das Vorgänger-Topmodell mit 3,20 GHz Taktfrequenz und 2 MByte L3-Cache. Auch hier sind wieder zwei Ursachen Ausschlag gebend.

Zum einen sind die Floating-Point-Anwendungen der SPEC-CPU2000-Benchmark-Suite wesentlich speicherintensiver als die Integer-Tests. Selbst große L3-Caches können hier in vielen Fällen nicht mehr genügend Daten puffern. Die Noconas profitieren dann von dem deutlich schnelleren DDR2-400-Speicher. Den Xeons mit Prestonia-Core steht über dem E7505-Chipsatz nur DDR266-SDRAM zur Verfügung.

Deutlich wird dies beispielsweise im Fall der Flachwasser-Simulation 171.swim zur Berechnung finiter Wasserelemente. Hier liest die CPU in einem 1335 x 1335 großen Daten-Array eine Vielzahl von Datenblöcken im Burst-Modus aus dem Speicher. So nutzt bereits die Verdopplung der L3-Cache-Größe beim Xeon 3,20 GHz nichts mehr. Der Prestonia- und Nocona-Core arbeiten bei identischer Taktfrequenz hier zudem gleich schnell: Dies zeigte bereits unser Vergleich des Pentium 4 mit Northwood- und Prescott-Core bei identischer Speicherausstattung - die CPUs gelten als entsprechende Desktop-Pendants zu den Xeons. Bei 171.swim ist somit die Speicher-Performance von entscheidendem Einfluss. Auch der Opteron liegt mit seinem 400-MHz-Speicher auf dem Niveau der Nocona-Xeons mit DDR2-400.

Die zweite Ursache für das bessere Abschneiden der Noconas ist deren SSE3-Erweiterung. Besonders das mit Fortran erstellte 168.wupwise mit Berechnungen aus dem Bereich der Quanten-Chromodynamik profitiert von SSE3. Dabei kommen komplexe Matrix-Multiplikationen zum Einsatz, die von den SSE3-Befehlen addsubps, addsubpd, movsldup, movshdup und movddup beschleunigt werden. Bereits der Xeon 3,00 GHz rechnet 36 Prozent schneller als die 3,20-GHz-Prestonias. Natürlich profitiert der Nocona auch hier von seinem schnelleren Speicher, allerdings nur im gleichen Maße wie von SSE3. Und selbst der stets auf Topniveau rechnende Opteron fällt durch die fehlende SSE3-Erweiterung bei 168.wupwise stark zurück.

Neben 168.wupwise nutzen laut Intel die Anwendungen 189.lucas und 187.facerec SSE3-Befehle. Allerdings ist hier für den Performance-Vorsprung der Noconas zum Prestonia der schnellere DDR2-400-Speicher maßgeblich. Dies begründet auch das gute Abschneiden des Opterons bei 189.lucas und 187.facerec. Die AMD-CPU beherrscht kein SSE3, besitzt aber einen ähnlich schnellen Speicher wie die Nocona-Xeons.

Insgesamt kann der Opteron auch bei den Fließkommaberechnungen seine Führung behaupten. Die schnelle Speicheranbindung mit den kurzen Latenzzeiten macht die fehlende SSE3-Unterstützung noch mehr als wett.

32-Bit-Transfer

Die Cache- und Speicher-Performance der Prozessoren überprüfen wir mit unserem Programm tecMem aus der tecCHANNEL Benchmark Suite Pro. tecMem misst die effektiv genutzte Speicherbandbreite zwischen der Load-/Store-Unit der CPU und den unterschiedlichen Ebenen der Speicherhierarchie (L1-, L2-Cache und RAM). Die Ergebnisse erlauben eine getrennte Analyse von Load-, Store- und Move-Operationen.

64-Bit-Transfer

Hier testen wir mit tecMem die Performance mit den 64-Bit-Load und -Store-Kommandos aus dem MMX-Befehlssatz. Die Transferrate ist hier schon deutlich höher als bei den 32-Bit-Kommandos, da die CPU mit jedem Befehl mehr Daten transferieren kann.

128-Bit-Transfer

Mit den 128-Bit-SSE-Befehlen lässt sich die maximale Cache- und Speicher-Performance ermitteln, die eine CPU erreichen kann.

SPECapc: 3ds max 5

3D Studio Max 5 von Discreet/Autodesk ist eine professionelle Software für 3D-Modellierung, Animation und Rendering. Um die Leistungsfähigkeit von 3D Studio Max auf verschiedenen Hardware-Plattformen standardisiert testen zu können, gibt es vom Benchmark-Konsortium SPEC das Benchmark-Paket SPECapc for 3ds max 5. Die umfangreichen Tests von SPECapc spiegeln die typischen Berechnungen bei der Erstellung von Animationen wider.

Neben der Gesamt-Performance wird die CPU- und Grafikleistung getrennt bewertet und aufgelistet. Die Prozessorleistung wird aus zehn Einzelergebnissen ermittelt, die Grafik-Performance ergibt sich aus 25 individuellen Tests.

Bei der Bewertung der Grafikleistung nutzt der Benchmark die OpenGL-Beschleunigung der Grafikkarte voll aus. Die Performance der Quadro-FX-Grafikkarten wird durch NVIDIAs MAXtreme-Treiber V4 für 3ds max 5 zusätzlich gesteigert. Der Vorteil von Dual-Processing fließt in das Ergebnis nicht ein.

SPECapc: 3ds max 6

Discreet/Autodesk bietet die 3D-Modelling-, Animations- und Rendering-Software 3ds max aktuell als Version 6 an. Seit Juni 2004 gibt es von SPEC mit SPECapc for 3ds max 6 ein Tool zum Ermitteln der Leistungsfähigkeit dieser Software auf verschiedenen Hardware-Plattformen. SPECapc for 3dsmax 6 ermittelt die Performance anhand typischer und praxisrelevanter Workloads. Hierzu zählen Funktionen wie wireframe modeling, shading, texturing, lighting, blending, inverse kinematics, object creation, scene creation, particle tracing, animation und rendering.

Die Gesamt-Performance ermittelt SPECapc for 3ds max 6 mit einer Gewichtung von 20 Prozent für das rendering und 80 Prozent für die grafiklastigen interactive tests. Beide Einzelwertungen gibt der Benchmark getrennt aus.

Bei den Render-Vorgängen nutzt 3ds max 6 Multi-Processing voll aus. Intels Hyper-Threading-Technologie sowie ein zweiter Prozessor wirken somit beschleunigend.

Bei der Bewertung der Grafikleistung mit den interactive tests nutzt der Benchmark die OpenGL-Beschleunigung der Grafikkarte voll aus. Die Performance der Quadro-FX-Grafikkarten wird durch NVIDIAs MAXtreme-Treiber V6 für 3ds max 6 zusätzlich gesteigert. Der Vorteil von Dual-Processing fließt in das Ergebnis nicht ein.

SPECapc: Maya 6

Maya von Alias ist die mit einem Oscar ausgezeichnete, professionelle Software für 3D-Modelling, Animation und Rendering. Maya unterstützt den gesamten Produktions-Workflow und bietet mit seinem fortschrittlichen Feature-Set umfassende Werkzeuge für die Erzeugung kreativer, digitaler Inhalte.

Um die Performance von Maya 6 auf verschiedenen Hardware-Plattformen zu bestimmen, entwickelte Alias in Koorperation mit dem SPEC-Benchmark-Konsortium die Test-Suite SPECapc for Maya. Mit vier verschiedenen Szenarios bewertet der Benchmark die Grafikleistung, Prozessor- und I/O-Performance. Jedes der vier Szenarien - Werwolf, menschliche Hand, Insekt, Tintenfisch - wird gerendert und in fünf verschiedenen Modi dargestellt: Wireframe, Gouraud-shaded, Textur, Textur mit überzogenen Drahtmodell und selektierte Textur.

SPECapc for Maya ermittelt die Gesamt-Performance mit einer Gewichtung aus 70 Prozent Grafikleistung, 20 Prozent CPU- und 10 Prozent I/O-Performance.

Raytracing: Lightwave 3D

Das 3D-Programm Lightwave 3D 7.5 von NewTek ist für den Pentium 4 und Xeon optimiert. Laut NewTek betrifft das speziell den SSE2-Befehlssatz. Neben Intel-CPUs werden auch die AMD-Prozessoren besonders unterstützt. NewTek selbst hat die Athlon-Prozessoren für Lightwave 3D bereits im März 2001 zertifiziert. Von der SSE2-Optimierung in Lightwave 3D sollten auch die Opteron-CPUs profitieren.

AutoCAD 2005: AUGI Gauge

Die Autodesk User Group International stellt ihren Mitgliedern mit AUGI Gauge eine Benchmark-Suite für AutoCAD zur Verfügung. Mit AUGI Gauge lässt sich die Performance von AutoCAD im Zusammenspiel mit verschiedenen Betriebssystemen und Hardware-Plattformen ermitteln.

Die aktuelle AUGI Gauge Version 16.1 unterstützt AutoCAD 2002, 2004 und 2005. Bei unserem Test der Workstation-CPUs verwenden wir AutoCAD 2005. AUGI Gauge führt mit dem Real World Test und Synthetic Test zwei verschiedene Szenarien durch. In beiden Fällen gibt der Benchmark die insgesamt benötigte Zeit als Ergebnis aus.

Bei allen Tests aktivieren wir über die AutoCAD-Kommandozeile mit dem Befehl whipthread=3 das Multi-Processing für Redraw- und Regeneration-Operationen. Die Workstation-Grafikkarten NVIDIA Quadro FX nutzen bei den Benchmarks jeweils AutoCADs Heidi-OpenGL-Treiber. NVIDIAs POWERdraft-Treiber zur Beschleunigung von AutoCAD unterstützt in der aktuellen Version 15.06.06 kein AutoCAD 2005.

Der Real World Test von AUGI Gauge simuliert typische AutoCAD-Aktivitäten: Laden/Speichern von Dateien, Objekt-Selektion, Editieren und Anzeigen ausgeführter Befehle anhand einer Vielzahl von Grafiken.

Im Synthetic Test von AUGI Gauge erfolgen spezielle Kommandos wie beispielsweise Erzeugen eines Objekts und Verändern von 3D-Darstellungen. Bei diesem Testblock beginnt der Benchmark mit einer leeren Zeichnung.

Laut Autodesk profitiert AutoCAD von einem zweiten Prozessor in einer "Single Session" mit zirka zwei bis vier Prozent höherer Performance. AUGI Gauge fordert bei seinen Tests den Single-drawing Mode. Aktiviert man bei AutoCAD die Verwendung mehrer Fenster gleichzeitig, so sollte der Vorteil von Multi-Processing deutlich steigen.

AutoCAD 2005: CADALYST

Der CADALYST Systems Benchmark 2001 erlaubt den Vergleich der AutoCAD-Performance auf verschiedenen Systemen. Das Analyse-Tool unterstützt Autodesks AutoCAD bis zur Version 2004. Das für unsere Workstation-Benchmarks verwendete AutoCAD 2005 arbeitet ebenfalls mit CADALYST 2001 zusammen, wird offiziell aber noch nicht unterstützt.

Bei allen CADALYST-Tests aktivieren wir über die AutoCAD-Kommandozeile mit dem Befehl whipthread=3 das Multi-Processing für Redraw- und Regeneration-Operationen. Die Workstation-Grafikkarten NVIDIA Quadro FX nutzen bei den Benchmarks jeweils AutoCADs Heidi-OpenGL-Treiber. NVIDIAs POWERdraft-Treiber zur Beschleunigung von AutoCAD unterstützt in der aktuellen Version 15.06.06 kein AutoCAD 2005.

CADALYST Systems Benchmark 2001 analysiert die AutoCAD-Performance in vier Bereichen: Wireframe, Gouraud Shade, Non-graphics und 2D Graphics. Zusätzlich bildet der Benchmark einen Index für die Gesamt-Performance.

Laut Autodesk profitiert AutoCAD von einem zweiten Prozessor in einer "Single Session" durchschnittlich mit zirka zwei bis vier Prozent höherer Performance. Der CADALYST Systems Benchmark 2001 fordert bei seinen Tests den Single-drawing Mode. Aktiviert man bei AutoCAD die Verwendung mehrerer Fenster gleichzeitig, so sollte der Vorteil von Multi-Processing deutlich steigen.

CINEBENCH 2003

Mit dem CINEBENCH 2003 stellt Maxon seine aktuelle Version des bekannten Benchmark-Tools bereit. CINEBENCH 2003 basiert auf Cinema 4D Release 8 und führt wieder Shading- und Raytracing-Tests durch. Die aktuelle Version unterstützt nun SSE2 sowie Intels Hyper-Threading-Technologie. Intel selbst unterstützte Maxon bei der Optimierung von Cinema 4D.

Der Raytracing-Test von CINEBENCH 2003 überprüft die Render-Leistung des Prozessors. Eine Szene "Daylight" wird mit Hilfe des Cinema-4D-Raytracers berechnet. Sie enthält 35 Lichtquellen, wovon 16 mit Shadowmaps behaftet sind und so genannte weiche Schatten werfen. Bei dem FPU-lastigen Test spielt die Leistungsfähigkeit der Grafikkarte eine untergeordnete Rolle.

Der Leistungstest OpenGL-HW von CINEBENCH 2003 führt zwei Animationen mit Hilfe der OpenGL-Beschleunigung der Grafikkarte aus. Die Animation "Pump Action" besteht aus 37.000 Polygonen in 1046 Objekten, in der zweiten Szene "Citygen" sind zwei Objekte mit insgesamt 70.000 Polygonen enthalten. Cinema 4D übermittelt der Grafikkarte lediglich die Position der Lichtquellen sowie die Geometrie. Dual-Processing wird dabei nicht genutzt.

Beim Leistungstest OpenGL-SW übernimmt Cinema 4D zusätzlich die Berechnung der Beleuchtung. Hier geht die FPU-Performance des Prozessors sowie die Speicherbandbreite noch stärker ein.

SPECviewperf 7.1.1

Die Leistungsfähigkeit von OpenGL-Anwendungen verifizieren wir mit dem SPECviewperf 7.1.1 der SPECopc. Das CAD-Paket beinhaltet sechs verschiedene Tests. Besonders die Anwendung Lightscape Viewset (light-06) nutzt die OpenGL-Beschleunigung der Grafikkarte voll aus. Das Lightscape Visualization System von Discreet Logic kombiniert proprietäre Radiosity-Algorithmen mit einem physikalisch basierenden Beleuchtungssystem.

Alle Einzelergebnisse des SPECviewperf 7.1.1 finden Sie in der Tabelle:

SPECviewperf 7.1.1

CPU

3dsmax-02[fps]

drv-09 [fps]

dx-08 [fps]

light-06 [fps]

proe-02 [fps]

ugs-03 [fps]

Höhere Werte sind besser.

Opteron 248 DDR400

26,9

155,2

137,3

29,9

43,3

59,9

Opteron 250 DDR400

28,7

161,2

147,2

32,4

45,0

59,9

Xeon 3,20 GHz 1M L3 DDR266

29,9

132,8

148,2

32,5

41,0

59,8

Xeon 3,20 GHz 2M L3 DDR266

30,1

132,4

149,4

32,6

41,3

59,9

Xeon 3,00 GHz DDR2-400

28,1

163

139,8

33,9

44,3

54,7

Xeon 3,60 GHz DDR2-400

31,9

173,8

160,3

40,1

47,8

54,7

Direct3D: 3ds max 6

Discreet/Autodesk bietet die 3D-Modelling-, Animations- und Rendering-Software 3ds max aktuell als Version 6 an. Seit Juni 2004 gibt es von SPEC mit SPECapc for 3ds max 6 ein Tool zum Ermitteln der Leistungsfähigkeit dieser Software auf verschiedenen Hardware-Plattformen. SPECaps for 3dsmax 6 ermittelt die Performance anhand typischer und praxisrelevanter Workloads. Hierzu zählen Funktionen wie wireframe modeling, shading, texturing, lighting, blending, inverse kinematics, object creation, scene creation, particle tracing, animation und rendering.

Bei der Grafikkarten-Unterstützung erlaubt 3ds max 6 die Wahl zwischen Software-, OpenGL- und Direct3D-Beschleunigung. Die Einbindung zusätzlicher Treiber wie NVIDIAs MAXtreme für Quadro-Grafikkarten ist ebenfalls möglich. Um die Direct3D-Performance zu testen, wählen wir die DirectX-9.0-Beschleunigung.

Direct3D: 3DMark03

Mit dem 3DMark03 präsentiert die in Futuremark umbenannte MadOnion.com den Nachfolger von 3DMark2001. Die Spieletests von 3DMark03 setzen sich aus vier Szenen zusammen: "Wings of Fury" setzt auf DirectX 7 und repräsentiert Lowend-Grafikanwendungen. Die beiden Tests "Alpha Squadron" und "Troll's Lair" nutzen DirectX-8-Features und sind auf Mainstream-Grafikkarten zugeschnitten. Der Test "Nature II" setzt DirectX 9 voraus und soll Highend-Grafikkarten ausreizen. Der AGP- und der Speicherbus werden beim 3DMark03 durch große Mengen an Texturen stark belastet.

Windows XP 64 Bit

Schuldig bleibt der Xeon "Nocona" mit EM64T noch die Performance im 64-Bit-Betrieb. Mangels Unterstützung des Noconas in der Betaversion von Windows XP 64 Bit sind Benchmarks nicht möglich. Nach tecCHANNEL vorliegenden Informationen wird die finale Version erst Anfang 2005 debütieren. Intel wird in Kürze aber eine neue Server-Plattform für die 64-Bit-Xeons vorstellen. Die entsprechenden Chipsätze sind unter dem Namen "Lindenhurst" bekannt.

Die 64-Bit-Linux-Betriebssysteme von Red Hat und SuSE unterstützen neben dem Opteron bereits Intels Xeon mit EM64T. Im tecCHANNEL-Testlabor stellt sich bereits ein Lindenhurst-Server einem Opteron-System zum Performance-Vergleich. Zum offiziellen Launch von Intels neuer Xeon-Server-Plattform werden wir Ihnen einen ausführlichen 64-Bit-Test anbieten.

Fazit

Als Intel im Februar 2004 beim Pentium 4 den Prescott-Core ohne höhere Taktfrequenz einführte, war die Enttäuschung groß - die CPU war nicht schneller. Beim Xeon "Nocona" tauscht Intel mit dem Core die ganze Plattform mit aus. Zusätzlich wurde die Taktfrequenz von vormals 3,20 auf 3,60 GHz angehoben.

Diese Mixtur reicht aus, um im Workstation-Betrieb einen spürbaren Performance-Schub zu erreichen. Das Xeon-3,60-GHz-System liegt besonders bei Profianwendungen wie 3ds max 6, Maya 6 und AutoCAD 2005 deutlich über dem Niveau der Vorgängerplattform mit Xeon 3,20 GHz 2M L3. Selbst der 3,00-GHz-Nocona erreicht ohne Mühe das Niveau des Xeon 3,20 GHz mit 1 MByte L3-Cache.

Hauptverantwortlich für das Plus an Leistung zeichnet der neue Workstation-Chipsatz E7525 "Tumwater". Mit seinem DualDDR2-400-Speicher-Controller und dem 800-MHz-Prozessorbus merzt er die Schwachpunkte seines Vorgängers aus. So leiden die "alten" Prestonia-Xeons unter dem langsamen DDR266-Speicher des zugehörigen E7505-Chipsatzes. Bleibt der Speicher außen vor, so liegt der Nocona bei gleicher Taktfrequenz zirka auf dem Niveau des Prestonia. Zusätzliches Potenzial besitzen die Nocona-Xeons durch ihre SSE3-Unterstützung. Bei entsprechender Optimierung des Programmcodes steigt die Performance um bis zu 25 Prozent. Allerdings nutzen bis dato sehr wenige Applikationen SSE3.

Auch ohne SSE3 spricht der wesentlich günstigere Preis für die neuen Xeons: Der Xeon 3,60 GHz steht mit 851 US-Dollar (1000er Stückpreis, Stand 22.07.04) in Intels Preisliste, der Xeon 3,20 GHz mit 2 MByte L3-Cache schlägt mit 1043 US-Dollar zu Buche. Noch deutlicher wird der Preisunterschied bei vergleichbarer Performance: 316 US-Dollar für den Xeon 3,00 GHz "Nocona", 690 US-Dollar für den Xeon 3,20 GHz 1M L3 "Prestonia". Durch den fehlenden L3-Cache und die 90-nm-Strukturbreite spart Intel bei den Noconas deutlich Die-Fläche pro CPU und somit Kosten.

Der Opteron 250 bietet Intels Xeon "Nocona" trotz deutlicher Taktfrequenzsteigerung, SSE3 und neuer Plattform die Stirn. AMDs Topmodell liegt zwar nicht mehr einsam an der Spitze, wechselt sich aber je nach Applikation munter mit dem 3,60-GHz-Prozessor ab. Einen "Sieg" über den Opteron kann Intel mit der neuen Xeon-Generation somit nicht erringen.

Interessant ist die Skalierung der Performance im Dual-Betrieb. Bei klassischen Dualprozessor-Applikationen wie Rendering beschleunigt eine zweite CPU um zirka 80 bis 90 Prozent. Je nach Anwendung skaliert hier einmal der Xeon, einmal der Opteron besser. Führen Applikationen wie 3ds max statt Rendering aber grafikintensive Operationen durch, die kein SMP nutzen, so bremst ein zweiter Opteron auffällig stark. Bei den Xeon-Systemen ist dieser Effekt weniger ausgeprägt zu beobachten. Das Betriebssystem schaltet in diesen Fällen einen Single-Thread zwischen beiden Prozessoren hin und her. Durch die dabei notwendige Cache-Synchronisation entsteht ein leistungshemmender Overhead. Mittels einer "schlaueren" Programmierung mit Bindung des Grafik-Threads auf eine CPU wäre dies von den Applikationen leicht zu verhindern. (cvi)