Knockout: Intel Xeon 5160 deklassiert AMD Opteron

26.06.2006 von Christian Vilsbeck
Intels stellt mit dem Xeon 5160 „Woodcrest“ die erste CPU mit der neuen Core-Architektur vor. In unserem Update vergleichen wir die Core-CPU mit dem ebenfalls neuen Xeon 5080 und AMDs Opteron. Zusätzlich messen wir den Energieverbrauch der neuen Systeme.

For an english version click here.

Die Zeit der Schmach scheint zu enden. Intel konnte AMDs Opteron lange Zeit kein wirklich adäquates Produkt entgegen setzen. Besonders der 2,8-GHz-Dual-Core-Xeon Paxville DP für 2-Wege-Systeme ist den Opteron-Doppelkernen hoffnungslos unterlegen. Die Xeon-5100-Serie „Woodcrest“ soll jetzt eine neue Ära bei Intel einläuten. Mit seiner neuen Core-Architektur will der Dual-Core-Prozessor höchste Performance bei gleichzeitig deutlich reduziertem Energiebedarf bieten.

Den Xeon „Woodcrest“ für 2-Wege-Systeme lässt Intel als Modell 5160 mit einer Taktfrequenz von 3,0 GHz arbeiten. Beide Kerne greifen auf einen 4 MByte großen gemeinsamen L2-Cache zurück. Die Geschwindigkeit des Prozessorbusses hebt Intel auf 1333 MHz an. In einem 2-Sockel-System steht jedem Woodcrest ein eigener FSB zum Chipsatz zur Verfügung. So setzt der Core-Prozessor auf die neuen Plattformen „Bensley“ für Server sowie „Glidewell“ für Workstations.

Beide Plattformen sollen mit vier FB-DIMM-Channels mit DDR2-533 für einen ordentlichen Speicherdurchsatz sorgen. Damit sind theoretische 17 GByte/s Bandbreite möglich – mit DDR2-667 sogar 21 GByte/s. Bensley und Glidewell gibt es seit xx. Juni 2006 zusammen mit der ebenfalls neuen Xeon-5000-Serie „Dempsey“. Diese Dual-Core-CPUs mit Taktfrequenzen bis 3,73 GHz (Xeon 5080) basieren aber noch auf der NetBurst-Architektur.

Im tecCHANNEL-Testlabor müssen die neuen Xeon 5080 „Dempsey“ und Xeon 5160 „Woodcrest“ ihre Leistungsfähigkeit gegen die bisherigen Xeon-Modelle unter Beweis stellen. Von AMD treten der Dual-Core-Opteron 280 (2,4 GHz) sowie die Single-Core-Variante 254 (2,8 GHz) an. Leider konnte uns AMD noch immer keine Opteron 285 (2,6 GHz) als Testsamples zur Verfügung stellen.

Zusätzlich vergleichen wir die Energieaufnahme des Bensley-Servers, wenn zwei Xeon 5080 durch ein 5160er Woodcrest-Doppelpack ausgetauscht werden. Der Unterschied überrascht!

Details zum Xeon „Woodcrest“

Beim Xeon „Woodcrest“ für 2-Sockel-Systeme führt Intel die 5100er Prozessornummern ein. Als Topmodell fungiert der von uns getestete Xeon 5160 mit 3,0 GHz Taktfrequenz. Zusätzlich bietet Intel die Modelle 5110 (1,66 GHz), 5120 (1,83 GHz), 5130 (2,00 GHz), 5140 (2,33 GHz) und 5150 (2,67 GHz) an. Allen Xeons gemein ist der 4 MByte große L2-Cache. Unterschiede finden sich beim Prozessorbus: Der Xeon 5110 und 5120 besitzen einen FSB1066, die schnelleren Woodcrests arbeiten mit einem FSB1333.

Die 5100er Xeons nehmen in der Bensley-/Glidewell-Plattform im LGA771-Sockel Platz. Wahlweise lassen sich die neuen Server-/Workstation-Mainboards auch mit den Xeon-5000-Modellen „Dempsey“ bestücken. Während ein Xeon 5080 mit 3,73 GHz Taktfrequenz und NetBurst-Architektur mit 130 Watt TDP spezifiziert ist, begnügt sich der 5160er 3,0-GHz-Woodcrest mit 80 Watt TDP. Die mit geringerer Taktfrequenz arbeitenden Woodcrests spezifiziert Intel mit 40 und 65 Watt TDP.

Intels Xeon-5100-Serie beherrscht die 64-Bit-Erweiterung EM64T – ein Pflicht-Feature für eine neue Architektur. Für die Virtualisierung der CPU verfügen die Woodcrest-Xeons über den VT-x-Befehlssatz der Vanderpool-Technologie. Ein Standard-Feature bei der Xeon-5100-Serie ist auch die XD-Technologie für erweiterten Schutz vor Viren und Buffer Overflows. SpeedStep zum dynamischen Senken der Taktfrequenz und der Kernspannung zählt ebenfalls zum Repertoire der Woodcrest-CPU. Hyper-Threading sucht man bei den Xeons mit Core-Architektur jedoch vergeblich.

Im Gegensatz zu den Dempsey-Xeons sind beim Woodcrest beide Prozessorkerne auf einem Die vereint. Bei den Dempsey-Modellen besitzt jeder Kern noch seinen eigenen 2 MByte großen L2-Cache. Intel fertigt die Xeon-Modelle „Woodcrest“ und „Dempsey“ jeweils in einem 65-nm-Prozess.

Die Preise der Woodcrest-Xeons reichen bei einer Abnahmemenge 1000 Stück von 209 US-Dollar für den Xeon 5110 bis 851 US-Dollar für das Top-Modell Xeon 5160. Die Preisspanne bei den Dempsey-Modellen liegt zwischen 177 US-Dollar (Xeon 5050 mit 3,0 GHz) und ebenfalls 851 US-Dollar (Xeon 5080 mit 3,73 GHz).

Alle Details über die Core-Architektur des Xeon „Woodcrest“ finden Sie bei tecCHANNEL im Artikel Wechsel an der Spitze: Intels neue Core Prozessoren. Ausführliche Informationen über die neuen Woodcrest-Plattformen erhalten Sie im Artikel Alles neu: Intels Xeon-Plattform Bensley & Glidewell.

CPU2000: SPECint_base2000

Wir setzen die SPEC-Benchmarks unter Windows Server 2003 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 9.0 und MS Visual Studio .NET für alle Integer-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz. Die Ergebnisse geben einen guten Anhaltspunkt für die Leistungsfähigkeit der Prozessoren bei Standard-Software. Hier achten die Software-Hersteller auf größtmögliche Kompatibilität zu den verschiedenen CPUs.

Der SPECint_base2000-Benchmark arbeitet singlethreaded und nutzt die Vorteile von Hyper-Threading und Dual-Core nicht. Die ermittelten Werte gelten als Indiz für die Integer-Performance der Prozessoren.

In der Tabelle finden Sie die Einzelergebnisse des SPEC-CPU2000-Integer-Benchmarks der wichtigsten Prozessoren im Vergleich:

SPECint_base2000: Official Run

Prozessor

Opteron 254

Opteron 280

Xeon 5080 „Dempsey“

Xeon 5160 „Woodcrest“

Taktfrequenz

2,8 GHz

2,4 GHz

3,73 GHz

3,0 GHz

Sockel

S940

S940

LGA771

LGA771

Core

AMD64

AMD64

Dempsey

Woodcrest

Speichertyp

Reg. DDR400 CL3

Reg. DDR400 CL3

FB-DDR2-533 CL4

FB-DDR2-533 CL4

Chipsatz

NF Prof.

NF Prof.

5000P

5000P

Compiler

-QxW

-QxW

-fast

-fast

Test

164.gzip

1548

1333

1268

1880

175.vpr

1531

1365

1208

2133

176.gcc

1450

1261

2118

3002

181.mcf

1234

1183

1925

4119

186.crafty

1988

1718

1375

2523

197.parser

1754

1539

1542

2401

252.eon

2491

2143

2322

3486

253.perlbmk

2061

1788

1980

3263

254.gap

2026

1771

1959

2828

255.vortex

2738

2410

2825

4427

256.bzip2

1451

1290

1299

2234

300.twolf

1890

1665

1881

3300

Gesamt

1800

1585

1750

2872

Analyse Integer-Performance

Der Core-Prozessor Xeon 5160 „Woodcrest“ erreicht in allen Integer-Tests eine deutlich höhere Performance als der NetBurst-basierende Xeon 5080 „Dempsey“. In den Single-Thread-Tests von SPECint_base2000 profitiert Woodcrest zusätzlich von seinem Advanced Smart Cache: Arbeitet nur ein Core, so stehen ihm die vollen 4 MByte des gemeinsamen L2-Cache zur Verfügung.

Die Auswirkungen des großen L2-Cache sind bei der speicherintensiven Routing-Simulation 300.twolf gut zu erkennen. Der 3,0-GHz-Woodcrest arbeitet 75 Prozent schneller als der 3,73-GHz-Dempsey. Das Gros der benötigten Daten kann der Core-Prozessor im 4 MByte fassenden L2-Cache halten. Der NetBurst-Xeon puffert mit 2 MByte dagegen weniger Daten und muss auf den Hauptspeicher zurückgreifen – dies kostet Performance. Bei der Planungs-Software 181.mcf punktet der Xeon 5160 sogar mit 114 Prozent höherer Leistung.

Für die Komprimieranwendung 164.gzip reicht eine L2-Cache-Größe von 512 KByte dagegen bereits problemlos aus. Ein L2-Cache mit 2 oder 4 MByte sowie flinkerer Speicher nutzen hier nichts. Jetzt wird die „pure“ Integer-Performance des Woodcrest im Vergleich zum NetBurst-Dempsey deutlich: der Core-Prozessor rechnet 48 Prozent schneller.

Überwiegend im L1-Cache ablaufenden Raytracern wie der Anwendung 252.eon zeigen ein ähnliches Kräfteverhältnis. Der Xeon 5160 ist 50 Prozent flinker unterwegs als der Xeon 5080 – trotz geringerer Taktfrequenz. Das von Intel erklärte Ziel der Effizienzsteigerung bei der Core-Architektur lässt sich hier bestätigen. Auch AMDs Opteron-Prozessoren können mit ihrer ebenfalls effizienten Architektur in keinem der 12 Integer-Anwendungen mithalten. Anders sieht der Vergleich der Opterons mit den NetBurst-Dempsey aus. Beispielsweise beim Komprimierer 164.gzip – läuft im Cache ab – haben die Opterons trotz deutlich geringerer Taktfrequenz den Dempsey im Griff.

CPU2000: SPECint_rate_base2000

Wir setzen die SPEC-CPU2000-Benchmarks unter Windows Server 2003 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 9.0 und MS Visual Studio .NET für alle Integer-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz. Die Ergebnisse geben einen guten Anhaltspunkt für die Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standard-Software. Hier achten die Software-Hersteller auf größtmögliche Kompatibilität zu den verschiedenen CPUs.

Bei den Integer-Berechnungen von SPECint_rate_base2000 ermittelt die Benchmark-Suite den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Typischerweise entspricht die Anzahl der Tasks/Kopien der Anzahl der - virtuellen - Prozessoren des Systems.

Optimierte Herstellerangaben: SPECint_rate_base2000

Die Prozessorhersteller sowie die Anbieter von Servern, Workstations und PCs veröffentlichen auf der SPEC-Website ihre eigenen, hoch optimierten Ergebnisse des CPU2000-Benchmarks. Dabei sind teilweise mehrere Compiler sowie spezielle, auf die CPUs abgestimmte Bibliotheken im Einsatz.

Die SPECint_rate_base2000-Werte der Hersteller zeigen die maximale Integer-Leistungsfähigkeit der Prozessoren in einer Multitask-Umgebung.

CPU2000: SPECfp_base2000

Wir setzen die SPEC-Benchmarks unter Windows Server 2003 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 9.0 und MS Visual Studio sowie Intel Fortran 9.0 für alle Fließkommatests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz. Die Ergebnisse geben einen guten Anhaltspunkt für die Leistungsfähigkeit der Prozessoren bei Standard-Software. Hier achten die Software-Hersteller auf größtmögliche Kompatibilität zu den verschiedenen CPUs.

Der SPECfp_base2000-Benchmark arbeitet single-threaded und nutzt die Vorteile von Hyper-Threading und Dual-Core nicht. Die ermittelten Werte gelten als Indiz für die Floating-Point-Performance der Prozessoren.

AMDs Opteron-Prozessoren beherrschen wie die Intel-CPUs SSE3. Die Intel-Compiler verweigern aber mit eingestellter SSE3-Optimierung -QxP/fast die Zusammenarbeit mit den AMD-CPUs. Wir testen die AMD64-Prozessoren mit dem Compiler-Switch -QxW mit SSE2-Unterstützung.

Zwar lässt sich die Prozessorabfrage bei den Intel-Compilern per Patch „umgehen“, doch nach den strengen SPEC-Regeln dürfen nur Ergebnisse mit offiziell verfügbarerer Hard-/Software publiziert werden. So unterstützt Intel dieses „umgehen“ der CPU-Abfrage bei seinen Compilern nicht, wie der Hersteller mitteilt.

In der Tabelle finden Sie die Einzelergebnisse des SPEC-CPU2000-Floating-Point-Benchmarks der wichtigsten Prozessoren im Vergleich:

SPECfp_base2000: Official Run

Prozessor

Opteron 254

Opteron 280

Xeon 5080 „Dempsey“

Xeon 5160 „Woodcrest“

Taktfrequenz

2,8 GHz

2,4 GHz

3,73 GHz

3,0 GHz

Sockel

S940

S940

LGA771

LGA771

Core

AMD64

AMD64

Dempsey

Woodcrest

Speichertyp

Reg. DDR400 CL3

Reg. DDR400 CL3

FB-DDR2-533 CL4

FB-DDR2-533 CL4

Chipsatz

NF Prof.

NF Prof.

5000P

5000P

Compiler

-QxW

-QxW

-fast

-fast

Test

168.wupwise

2177

1928

2721

3135

171.swim

2353

2239

2639

2692

172.mgrid

1520

1344

1606

1757

173.applu

1320

1215

1630

2084

177.mesa

2065

1785

1597

2742

178.galgel

2567

2326

3799

7149

179.art

1900

1811

4096

9249

183.equake

1754

1636

2172

2280

187.facerec

2071

1847

1691

2661

188.ammp

1332

1190

1246

2128

189.lucas

1971

1877

1792

1962

191.fma3d

1655

1491

1526

1961

200.sixtrack

748

645

740

1178

301.apsi

1524

1351

1286

1596

Gesamt

1712

1551

1852

2561

Analyse Floating-Point

Die Floating-Point-Anwendungen der SPEC-CPU2000-Benchmark-Suite sind wesentlich speicherintensiver als die Integer-Tests. Je größer der Cache, desto besser können „langsame“ Speicherzugriffe abgepuffert werden. Bei einigen sehr speicherintensiven Programmen nutzen allerdings selbst große Caches nur noch wenig – dann zählt die Speicherbandbreite. Dies wird bei der sehr speicherintensiven Flachwasser-Simulation 171.swim zur Berechnung finiter Wasserelemente deutlich. Der Xeon 5160 mit 4 MByte L2-Cache arbeitet hier kaum schneller als der Xeon 5080 mit 2 MByte L2-Cache (der Cache des zweiten Core bleibt hier ungenutzt).

Beide CPUs profitieren aber von den vier FB-DIMM-Channels der Bensley-Plattorm. Bei der Anwendung 171.swim liest die CPU in einem 1335 x 1335 großen Daten-Array eine Vielzahl von Datenblöcken im Burst-Modus aus dem Speicher. Hohe Latenzzeiten fallen hier kaum ins Gewicht, es zählt die Speicherbandbreite. Die Opterons ziehen aus ihrem schnellen integrierten Speicher-Controller ebenfalls Gewinn, müssen Dempsey und Woodcrest aber dennoch ziehen lassen.

In Fällen wie der Bilderkennung 179.art arbeitet der Xeon 5160 sogar 126 Prozent schneller als der 3,73-GHz-Dempsey. Der Workload der Anwendung passt hier überwiegend in den 4 MByte großen Shared L2-Cache – der 2 MByte große Puffer des Xeon 5080 reicht nur noch partiell aus. Die Opterons mit ihrer L2-Cache-Größe von 1 MByte (pro Core) fallen noch weiter zurück.

Bei allen Floating-Point-Anwendungen der CPU2000-Benchmark-Suite wird aber unabhängig von der Workload-Größe die hohe SSE-Performance des Woodcrest deutlich. So wird bei NetBurst eine 128 Bit breite SSE-Instruktion beim Dekodieren in zwei 64-Bit-Micro-Ops aufgeteilt. Der Datenpfad in die SSE-Execution-Unit besitzt ebenfalls eine Datenbreite von nur 64 Bit. Somit werden für die Ausführung eines 128-Bit-SSE-Befehls zwei Taktzyklen benötigt.

Die Core-Architektur des Woodcrest besitzt dagegen einen durchgehenden 128-Bit-Ausführungspfad. Damit muss nur ein einziger Micro-Op erzeugt, geordnet und ausgeführt werden. Die Berechnung eines SSE-Befehls in der entsprechenden Ausführungseinheit erfolgt in einem Taktzyklus. Damit verdoppelt sich die SSE-Performance. Beispielsweise kann Core auch einen 128-Bit Packet Multiply, 128-Bit Packed Add, 128-Bit Packet Load, 128-Bit Packed Store und einen Macro-Fusion-Befehl „cmp & jcc“ zusammen in einem Taktzyklus berechnen.

CPU2000: SPECfp_rate_base2000

Wir setzen die SPEC-CPU2000-Benchmarks unter Windows Server 2003 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 9.0 und MS Visual Studio .NET sowie Intel Fortran 9.0 für alle Fließkommatests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz. Die Ergebnisse geben einen guten Anhaltspunkt für die Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standard-Software. Hier achten die Software-Hersteller auf größtmögliche Kompatibilität zu den verschiedenen CPUs.

Bei den Floating-Point-Berechnungen von SPECfp_rate_base2000 ermittelt die Benchmark-Suite den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Typischerweise entspricht die Anzahl der Tasks/Kopien der Anzahl der - virtuellen - Prozessoren des Systems.

Optimierte Herstellerangaben: SPECfp_rate_base2000

Die Prozessorhersteller sowie die Anbieter von Servern, Workstations und PCs veröffentlichen auf SPEC.org ihre eigenen, hoch optimierten Ergebnisse des CPU2000-Benchmarks. Dabei sind teilweise mehrere Compiler sowie spezielle, auf die CPUs abgestimmte Bibliotheken im Einsatz.

Die SPECfp_rate_base2000-Werte der Hersteller zeigen die maximale Floating-Point-Leistungsfähigkeit der Prozessoren in einer Multitask-Umgebung.

Floating Point: Linpack Linux 64 Bit

Linpack dient als verbreitetes Tool zum Ermitteln der Floating-Point-Performance von Highend-Computern. Das Ergebnis wird in Flops (Fließkomma-Operationen pro Sekunde) angegeben.

Linpack löst komplexe lineare Gleichungssysteme. Die Anzahl der Gleichungen lässt sich dabei stark erhöhen, um auch massiv parallel operierende Systeme unter Last zu setzen. Der Bedarf an Arbeitsspeicher wächst entsprechend mit. Die Speicherzuweisung erfolgt über eine Matrix-Berechnung. Size x LDA x 8 (Anzahl der Gleichungen x Input x 8 bit) ergibt den zu allokierenden Speicher.

Unter SUSE Linux 64-Bit-Edition setzen wir die 64-Bit-Version von Linpack 2.1.2 ein. Der SMP-fähige Benchmark setzt EMT64-Prozessoren mit SSE3-Unterstützung voraus. AMDs Opteron-Prozessoren mit SSE3 arbeiten mit der von Intel-Compilern erstellten Linpack-Version ebenfalls problemlos zusammen.

Bei unseren Tests löst Linpack in verschiedenen Durchläufen 5000, 10.000, 15.000, 18.000 und 22.000 Gleichungssysteme. Damit benötigt der Benchmark zwischen 190 MByte (5000 Gleichungssysteme) und zirka 3,6 GByte Arbeitsspeicher (22.000 Gleichungssysteme). Im Diagramm finden Sie die von den Prozessoren maximal erreichten GFlops.

Alle Prozessoren nutzen bei Linpack 2.1.2 ihre SSE3-Befehlserweiterung aus. Mit einer speziell für den Xeon 5160 optimierten Linpack-Version 3.0 erreichen die Core-CPUs einen Peak-Wert von 31,42 GFlops in unserem Test. Die 3.0er Version nutzt die in der Core-Architektur zusätzlichen 16 neuen SSE4-Befehle aus. Intel verwendet für die neuen Multimedia-Befehle allerdings bisher keinen neuen Namen. „SSE4“ ist nur eine Alias-Bezeichnung.

Analyse: SunGard Adaptiv Credit Risk

SunGards Adaptiv Credit Risk 2.5 ist ein Analysetool für den Finanzbereich. Basierend auf modifizierten Monte-Carlo-Simulationen berechnet das Programm den künftigen Wert einer Anlage auf Basis vorhandener Marktdaten.

SunGards Adaptiv Credit Risk wurde in C# für Microsofts .NET-Umgebung programmiert. Spezielle Mathematik-Bibliotheken wie Intels MKL oder AMDs Core Math Library ACML verwendet Adaptiv Credit Risk nicht. Das Analysetool arbeitet multithreaded und unterstützt Multiprozessor-Systeme optimal. SunGard arbeitet überwiegend mit Integer-Operationen.

Rendering: CINEBENCH 2003

CINEBENCH 2003 basiert auf Cinema 4D Release 8 von Maxon und führt Shading- und Raytracing-Tests durch. Die aktuelle Version unterstützt SSE2 sowie Multiprocessing und Intels Hyper-Threading-Technologie.

Der Raytracing-Test von CINEBENCH 2003 überprüft die Render-Leistung des Prozessors. Eine Szene "Daylight" wird mit Hilfe des Cinema-4D-Raytracers berechnet. Sie enthält 35 Lichtquellen, wovon 16 mit Shadowmaps behaftet sind und so genannte weiche Schatten werfen. Bei dem FPU-lastigen Test spielt die Leistungsfähigkeit der Grafikkarte eine untergeordnete Rolle.

Höhere Speicher- und FSB-Bandbreiten nutzen beim Raytracing-Test von CINEBENCH 2003 wenig - der Workload läuft überwiegend in den ersten beiden Cache-Stufen ab.

Rendering: CINEBENCH 9.5

Mit CINEBENCH 9.5 stellt Maxon ein Benchmark-Tool mit der aktuelleren Version Cinema 4D 9.5 seines Rendering-Werkzeugs zur Verfügung. CINEBENCH 9.5 verwendet beim Rendering neue Berechnungsverfahren und nutzt moderne CPU-Architekturen besser aus. Die Ergebnisse sind nicht mit den Werten von CINEBENCH 2003 vergleichbar.

Rendering: 3ds Max

Discreet/Autodesk bietet mit 3ds Max 7 eine professionelle Software für 3D-Modelling, Animation und Rendering an. Bei den Render-Vorgängen nutzt 3ds Max 7 Multiprocessing voll aus. Die Dual-Core- und Hyper-Threading-Technologien sowie ein zweiter Prozessor wirken somit beschleunigend. Die Render-Szenen basieren auf der Benchmark-Suite SPECapc for 3ds Max 7 von SPEC.org. Die Grafikkarten-Performance spielt beim Rendering keine Rolle, die OpenGL-basierenden Tests der SPECapc-Suite verwenden wir nicht.

Wir überprüften die Renderleistung der Woodcrest-Prozessoren bei diesen Szenen zusätzlich noch mit dem aktuellen 3ds Max 8. Die ermittelte Performance gleicht den Ergebnissen von 3ds Max 7.

Raytracing: POV-Ray 3.7

Das Raytracing-Programm POV-Ray ist ein frei erhältliches Open-Source-Tool zum kreieren von 3D-Grafiken. Der „Persistence of Vision Raytracer“ bietet in der Version 3.7. Beta 9 ein optimiertes Thread-Handling an. Die Beta-Version wartet außerdem mit einer SSE2-optimierten Rendering-Engine auf.

Enkodieren: LAME 3.97a

LAME etablierte sich neben den Fraunhofer-Varianten zu den bekanntesten MP3-Codecs. Der LAME-Open-Source-Codec beherrscht eine variable und konstante Bitrate und erzeugt aus wav-Dateien entsprechende mp3-Files.

Das Israel Institute of Technology Technicon erstellte in einem LAME-Projekt 32- und 64-Bit-Versionen des MP3-Encoders – jeweils mit Microsoft und Intel-Compilern erstellt. Bei unseren Tests verwenden wir die Intel-Compilern erstellte LAME-3.97a-32-Bit-Version. Beim Enkodieren stellen wir die Verwendung von einem Thread ein, um die Performance der verschiedenen CPU-Architekturen zu beurteilen. LAME 3.97a verwendet die SSE2-Befehlserweiterung für das Enkodieren.

Energieverbrauch – deutlich weniger Watt

Intel spezifiziert den neuen Xeon 5160 mit einem TDP-Wert von 80 Watt. Der auf der NetBurst-Architektur basierende Dual-Core-Prozessor Xeon 5080 besitzt dagegen einen TDP-Wert von 130 Watt. Beide Modelle fertigt Intel im 65-nm-Verfahren.

Beide LGA771-Prozessoren arbeiten in der Bensley-Plattform mit FB-DIMM-Speicher und sind einfach austauschbar. Somit lässt sich leicht überprüfen, wie der Energieverbrauch des 2-Sockel-Servers von den CPUs abhängig ist.

Im folgenden Diagramm zeigen wir den Energieverbrauch des 2-Sockel-Bensley-Servers im „Leerlauf“.

Jetzt arbeitet das Xeon-5080- und Xeon-5160-Doppelpack im Bensley-Server „auf Anschlag“. Für volle CPU-Auslastung der sorgt SPECint_rate_2000 der CPU2000-Benchmark-Suite.

Auf einen direkten Vergleich mit unserem 2-Sockel-Opteron-Testsystem verzichten wir, weil sich das Netzteil, Lüfter sowie die Grafikkarte vom Bensley-Server unterscheiden. Die folgenden Werte sollten deshalb nur als „prozentuale Einschätzung“ dienen. So benötigt die AMD-Testplattform, bestückt mit zwei Opteron 280 (TDP 95 Watt) im Leerlauf 236 Watt. Unter voller Last steigt der Energiebedarf um 44 Prozent auf 340 Watt an.

In allen Fällen waren die Energiesparfunktionen (SpeedStep bei Intel, PowerNow! bei AMD) deaktiviert.

Cache/Speicher: 32-Bit-Transfer

Die Cache- und Speicher-Performance der Prozessoren überprüfen wir mit unserem Programm tecMem aus der tecCHANNEL Benchmark Suite Pro unter Windows Server 2003. tecMem misst die effektiv genutzte Speicherbandbreite zwischen der Load-/Store-Unit der CPU und den unterschiedlichen Ebenen der Speicherhierarchie (L1-, L2-Cache und RAM). Die Ergebnisse erlauben eine getrennte Analyse von Load-, Store- und Move-Operationen.

Cache/Speicher: 64-Bit-Transfer

Hier testen wir mit tecMem die Performance mit den 64-Bit-Load und -Store-Kommandos aus dem MMX-Befehlssatz. Die Transferrate ist hier schon deutlich höher als bei den 32-Bit-Kommandos, da die CPU mit jedem Befehl mehr Daten transferieren kann.

Cache/Speicher: 128-Bit-Transfer

Mit den 128-Bit-SSE-Befehlen lässt sich die maximale Cache- und Speicher-Performance ermitteln, die eine CPU erreichen kann.

Fazit

Schon im Februar 2006 kündigte Intel „vollmundig“ an, ihre künftigen Prozessoren mit Core-Architektur würden zum Zeitpunkt des Debüts 20 Prozent schneller sein, als die dann erhältlichen Konkurrenzprodukte von AMD. Was damals als leicht „anmaßend“ erschien, bestätigt sich jetzt aber. Der Server-/Workstation-Prozessor Xeon 5160 „Woodcrest“ schlägt in unserem Benchmark-Test die restliche x86-Welt um Längen. Dabei ist es egal, ob es sich um AMDs Opteron-CPUs oder den ebenfalls neuen 3,73-GHz-Prozessor Xeon 5080 „Dempsey“ mit NetBurst-Architektur handelt.

So weist der 5160er 3,0-GHz-Xeon beim renommierten CPU2000-Benchmark eine 64 Prozent (Rate: 43) höhere Integer-Performance als der Xeon 5080 mit 3,73 GHz Taktfrequenz auf. Der Core-CPU hilft hier seine vierfach superskalare Auslegung ebenso wie der dynamische 4 MByte große L2-Cache, den beide Prozessorkerne gemeinsam nutzen.

Bei den Fließkommaberechnungen der CPU2000-Suite rechnet Woodcrest 38 Prozent (Rate: 33) schneller als der 3,73-GHz-NetBurst-Xeon. Dies ist ein sehr gutes Ergebnis, denn die NetBurst-CPUs sind ja für ihre hohe Floating-Point-Performance durchaus bekannt. Beim Woodcrest verbesserte Intel aber die SSE-Befehlsverarbeitung entscheidend: Statt die 128-Bit-Instruktionen intern in zwei 64-Bit-Happen zu verarbeiten, rutschen die SSE-Daten beim Core-Prozessor in voller 128-Bit-Breite durch. Eine SSE-Instruktion berechnet Woodcrest somit in einem Taktzyklus.

Doch nicht nur bei der CPU2000-Benchmark-Suite beeindruckt Intels Woodcrest. Im Cache ablaufende Rendering-Programme, Audio-Dekodieren oder sehr speicherintensive Tests wie Linpack bewältigt Woodcrest meist zirka 20 bis 50 Prozent schneller als der Zweitbeste. Dabei spielt es auch keine Rolle, ob die Anwendung single- oder multi-threaded programmiert ist.

Für den Xeon 5160 spricht neben der hohen Performance die deutlich geringere Leistungsaufnahme – im Vergleich zum Xeon 5080. So lässt sich in einem 2-Sockel-Server auf Basis der Bensley-/Glidewell-Plattform über 30 Prozent Energie sparen, wenn statt Dempsey-CPUs zwei Xeon 5160 eingesetzt werden.

AMD muss sich nach dieser Steilvorlage mächtig ins Zeug legen. Ob der im dritten Quartal 2006 erwartete Socket-F-Opteron mit DDR2-Speicher-Controller ebenfalls einen merklichen Performance-Schub erwirkt, bleibt fraglich. Allerdings sollte AMD nicht vorschnell unterschätzt werden, vielleicht wartet ja auch die nächste Opteron-Generation mit überraschenden Innovationen auf. (cvi)

Testplattform Woodcrest- & Dempsey-CPUs

Intels 3,0-GHz-Xeon-5160-Prozessoren sowie das Xeon-5080-Doppelpack testen wir in einer Bensley-Validation-Plattform.

Bensley-Plattform: Das Bridgeport-Mainboard setzt auf den Blackford-Chipsatz und arbeitet mit zwei Xeon „Woodcrest“ mit 3,00 GHz Taktfrequenz. Die acht FB-DIMM-Slots sind mit vier 1-GByte-Riegeln bestückt.

Die Xeons nehmen in einem Mainboard mit der Bezeichnung „Bridgeport“ Rev. 205 Platz. Das Board setzt auf den Blackford-Chipsatz 5000P für Server. Beide Xeon-5160-CPUs arbeiten mit einem 1333 MHz schnellen FSB, die 5080er Modelle sind mit einem FSB1066 ausgestattet. Über vier FB-DIMM-Channels steuert der Chipsatz insgesamt vier 1-GByte-Module vom Typ Micron MT18HTF12872FDY-53EB5E3 an. Die FB-DIMMs setzen DDR2-533-SDRAMs mit CL4 ein.

Bei der Grafikkarte setzt das Bridgeport-Mainboard (Woodcrest und Dempsey) auf eine integrierte ATI RAGE XL. Alle verwendeten Benchmarks sind von der Grafik-Performance unabhängig. Als Betriebssystem verwenden wir Windows Server 2003 SP1 in der 32-Bit-Version sowie SUSE Linux in der 64-Bit-Version. Hyper-Threading ist bei allen Tests der Dempsey-Prozessoren aktiviert.

Die 3,20-GHz-Dempseys (Xeon 5060) testeten wir in den Performance Labs der Intel-Fab in Portland. Als Plattform stand uns dort ein Evaluation-Mainboard mit der Bezeichnung „Hoodsport“ zur Verfügung. Das Board setzt auf den Greencreek-Chipsatz für Workstations. Die Speicherbestückung war identisch mit dem Bridgeport-Server-Mainboards der 3,73-GHz-Dempseys und der 3,0-GHz-Woodcrests.

Testplattform Xeons Socket 604 & Opterons

Die 3,60-GHz-Xeons „Irwindale“ (2M L2-Cache) und „Nocona“ (1M L2-Cache) nehmen in einem Supermicro X6DA8-G2 Platz. Das Mainboard für zwei Prozessoren verwendet Intels E7525-Chipsatz und unterstützt DDR2-400-SDRAM in einer Dual-Channel-Konfiguration. Bei den Speichermodulen setzen wir auf Registered DIMMs PC2-3200R von Infineon mit einer CAS-Latency von 3.

Der Xeon 2,80 GHz „Paxville DP“ mit Dual-Core-Technologie arbeitet in einem Supermicro X6DHR-3G2 mit E7520-Chipsatz. Das Board ist für den Betrieb mit der Dual-Core-CPU angepasst und verzichtet auf eine PCI-Express-Grafik-Schnittstelle.

Für den Test der Opteron-CPUs von AMD verwenden wir ein Tyan K8WE mit NVIDIAs nForce-Professional-Chipsatz. Über ihren integrierten Memory-Controller greifen die CPUs auf Dual-Channel-DDR400-SDRAM mit CL3 zurück. Die verwendeten Corsair-Module sind dabei gepuffert ausgeführt.

Um die gleiche Testkonfiguration zu gewährleisten, stehen den Prozessoren jeweils 4 GByte Arbeitsspeicher zur Verfügung.