Intels 8-Core-System im Test

14.11.2006 von Christian Vilsbeck
Die Xeon-5300-Serie ist Intels erste Quad-Core-CPU für Workstations und Server. In der Rechen-Power agieren die Vierkerner in einer eigenen Liga, die Performance pro Watt ist häufig der relevantere Maßstab. Das war bisher aber eine der Stärken von AMDs DDR2-Opterons.

Bei Desktop-PCs ist die Frage nach dem Sinn von vier Kernen in einem Prozessor durchaus noch gerechtfertigt. Bei Servern und im High-Performance-Computing stellt sich diese Frage erst gar nicht - mehr Rechen-Power ist stets erwünscht. Diesen Bedarf will Intel jetzt mit den neuen Quad-Core-Prozessoren der Xeon-5300-Serie für Systeme mit zwei Sockeln befriedigen.

Intel landete bereits mit dem Xeon 5160 "Woodcrest" einen Volltreffer. Die 3,0-GHz-Dual-Core-Modelle belegten in fast allen Applikationen und Anwendungsszenarien die Spitzenposition. Jetzt lassen sich die Woodcrests durch die Xeon-5300-Vierkerner in aktuellen 2-Sockel-Systemen einfach austauschen. Die LGA771-Prozessoren interoperieren unverändert mit Intels 5000er Chipsätzen für Server und Workstations. Ein simples CPU-Upgrade ermöglicht somit die Kernverdopplung.

Während bei Workstations neben der damit erzielbaren Performance-Steigerung wenig interessiert, fungiert bei Servern der Energiebedarf zunehmend als wichtiger Faktor. Die Stromkosten sind in Rechenzentren schnell der größte Posten. Als Kriterium für den „Wirkungsgrad“ eines Systems gilt die Performance pro Watt. Wir testen Intels Quad- und Dual-Core-Xeons ebenso wie AMDs neuen Socket-F-Opteron in identischen Systemen. Architekturbedingt unterscheiden sich nur das Mainboard und der Speicher. Die Ergebnisse aus unserem Testlabor küren einen eindeutigen Sieger.

Dramatischer fällt jedoch die Diskrepanz zwischen AMD und Intel bei der puren Performance aus. Hier zieht Intel mit den neuen Quad-Core-Xeons allen Dual-Core-Prozessoren gnadenlos davon. Wie entscheidend bei vier Kernen die FSB-Geschwindigkeit ist, zeigen wir zudem mit einer speziellen Version des 2,66-GHz-Quad-Core-Topmodells Xeon X5355.

Im tecCHANNEL-Testlabor tritt der neue Xeon E5345 mit 2,33 GHz gegen die etablierten Dual-Core-Prozessoren an. Erstmals im Test sind auch AMDs Socket-F-Opteron-CPUs der 2000er Serie.

Details zum Quad-Core-Xeon „Clovertown“

Intels Xeon-5300-Serie „Clovertown“ für Server und Workstations mit zwei Prozessorsockeln basiert auf der Core-Mikroarchitektur in 65-nm-Bauweise. Die Quad-Core-Prozessoren setzen sich aus zwei Siliziumplättchen der Marke „Woodcrest“ in einem Multi-Chip-Verfahren zusammen. Beide Dies nehmen in einem Gehäuse Platz und sind über einen gemeinsamen Prozessorbus verbunden. Entsprechend verfügt Clovertown über insgesamt 8 MByte L2-Cache. Jeweils zwei Kerne pro Die nutzen 4 MByte gemeinsam.

Beim Xeon „Clovertown“ führt Intel die 5300er Prozessornummern ein. Als Topmodell fungiert der Xeon X5355 mit 2,66 GHz Taktfrequenz. Zusätzlich bietet Intel zum Launch die Modelle E5310 (1,60 GHz), E5320 (1,86 GHz) und E5345 (2,33 GHz) an. Unterschiede finden sich beim Prozessorbus: Der Xeon E5310 und E5320 besitzen einen FSB1066, die schnelleren Clovertowns arbeiten mit einem FSB1333.

Die Xeon-5300-CPUs nehmen wie die 5000er Dempseys und 5100er Woodcrests in der Bensley-/Glidewell-Plattform im LGA771-Sockel Platz. Während ein Xeon 5160 mit 3,0 GHz Taktfrequenz und Dual-Core-Technologie mit 80 Watt TDP spezifiziert ist, benötigt das Quad-Core-Topmodell im Extremfall 120 Watt. Die mit 1,60, 1,86 und 2,33 GHz Taktfrequenz arbeitenden Clovertowns begnügen sich jedoch mit 80 Watt TDP.

Intels Xeon-5300-Serie beherrscht die 64-Bit-Erweiterung EM64T ebenso wie den VT-x-Befehlssatz der Vanderpool-Technologie für die Virtualisierung der CPU. Ein Standard-Feature bei der Xeon-5300-Serie ist auch die XD-Technologie für erweiterten Schutz vor Viren und Buffer Overflows. SpeedStep zum dynamischen Senken der Taktfrequenz und der Kernspannung zählt ebenfalls zum Repertoire der Clovertown-CPUs. Der von tecCHANNEL getestete Xeon E5345 senkt seine Taktfrequenz beispielsweise von 2,33 auf 2,0 GHz.

Bei einer Abnahmemenge von 1000 Stück kostet der Xeon E5310 455 Dollar, der E5320 690 Dollar, der E5345 851 Dollar und das Topmodell X5355 1172 Dollar. Die Preisspanne bei den Woodcrest-Modellen liegt zwischen 209 Dollar (Xeon 5110 mit 3,0 GHz) und 851 Dollar (Xeon 5160 mit 3,0 GHz).

Alle Details über die Core-Architektur des Xeon „Clovertown“ finden Sie bei tecCHANNEL im Artikel Wechsel an der Spitze: Intels neue Core-Prozessoren. Ausführliche Informationen über die Xeon-5300-Plattformen erhalten Sie im Artikel Alles neu: Intels Xeon-Plattform Bensley & Glidewell.

Testvorbetrachtung

Alle getesteten Prozessoren arbeiten in baugleichen Server-Gehäusen von Colfax. Architekturbedingt unterscheiden sich nur das Mainboard sowie der Speicher. Die übrigen Komponenten wie Lüfter, Netzteil und Storage sind identisch. Um auch beim Arbeitsspeicher möglichst gleiche Voraussetzungen zu erreichen, kommen jeweils acht 1-GByte-DIMMs mit DDR2-667-SDRAM zum Einsatz. Das AMD-System benötigt dabei Registered DIMMs, Intels Prozessoren arbeiten mit FB-DIMMs zusammen. Weitere Details zu den Testsystemen finden Sie im Abschnitt „Testplattform Xeon- & Opteron-CPUs“ am Ende des Artikels.

Während aller Benchmarks kontrollieren wir den Energieverbrauch der Systeme. Damit lassen sich Aussagen über die Energieeffizienz der CPUs sowie der zugehörigen Plattformen treffen. Die Powermanagement-Features wie PowerNow! bei AMD und SpeedStep bei Intel sind praxisnah bei allen Messungen aktiviert.

Beim Betriebssystem Windows Server 2003 R2 x64 ist das Energieschema „Server Balanced Processor Power and Performance“ eingestellt. Hier wird den CPUs das dynamische Regeln der Taktfrequenz/Core-Spannung gestattet. Bei den Linux-Betriebssystemen CentOS 4.4 und SUSE 10.1 ist ebenfalls das dynamische Regeln in den Energiespar-Optionen eingestellt.

Singlethread: SPECint_base2000

Wir setzen die SPEC-Benchmarks unter Windows Server 2003 R2 x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 9.1 und Fortran 9.1 in der 32-Bit-Version und MS Visual Studio 2005 .NET für alle Integer-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz.

Der SPECint_base2000-Benchmark arbeitet singlethreaded und nutzt die Vorteile von Hyper-Threading sowie der Dual- und Quad-Core-Technologie nicht. Die ermittelten Werte gelten als Indiz für die Integer-Performance der Prozessoren. Die Energiespar-Features der CPUs wie PowerNow! oder SpeedStep sind aktiviert.

In der Tabelle finden Sie die Einzelergebnisse des SPEC-CPU2000-Integer-Benchmarks der wichtigsten Prozessoren im Vergleich:

SPECint_base2000: Official Run

Prozessor

Opteron 2218

Xeon 5080

Xeon 5160

Xeon E5345

Taktfrequenz

2,6 GHz

3,73 GHz

3,0 GHz

2,33 GHz

Sockel

S1207

LGA771

LGA771

LGA771

Core

Santa Rosa

Dempsey

Woodcrest

Clovertown

Speichertyp

Reg. DDR2-667 CL5

FB-DDR2-667 CL5

FB-DDR2-667 CL5

FB-DDR2-667 CL5

Chipsatz

ServerWorks HT2000

Intel 5000P

Intel 5000P

Intel 5000P

Compiler

-QxW

-fast

-fast

-fast

Test

164.gzip

1368

1163

1841

1437

175.vpr

1282

1051

2205

1759

176.gcc

1329

2042

2850

2595

181.mcf

1028

1895

4553

3806

186.crafty

1945

1213

2769

2144

197.parser

1462

1254

2278

1803

252.eon

2275

2162

3852

3035

253.perlbmk

1849

1820

3268

2591

254.gap

1734

1805

2846

2362

255.vortex

2354

2470

4398

3654

256.bzip2

1309

1185

2246

1805

300.twolf

1629

1755

3477

2682

Gesamt

1584

1576

2935

2372

Performance/Watt: SPECint_base2000

Im ersten Diagramm vergleichen wir den maximalen Energieverbrauch (Peak) der Systeme mit den verschiedenen Prozessoren bei SPECint_base2000:

Das folgende Diagramm stellt die erzielte relative Performance pro Watt der Systeme bei SPECint_base2000 gegenüber:

Multitask: SPECint_rate_base2000

Bei den Integer-Berechnungen von SPECint_rate_base2000 ermittelt die Benchmark-Suite CPU2000 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Integer-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standardsoftware.

Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECint_rate_base2000 der Anzahl der - virtuellen - Prozessoren des Systems. Die Energiespar-Features der CPUs wie PowerNow! oder SpeedStep sind aktiviert.

Performance/Watt: SPECint_rate_base2000

Im ersten Diagramm vergleichen wir den maximalen Energieverbrauch (Peak) der Systeme mit den verschiedenen Prozessoren bei SPECint_rate_base2000:

Das folgende Diagramm stellt die erzielte relative Performance pro Watt der Systeme bei SPECint_rate_base2000 gegenüber:

Optimierte Herstellerangaben: SPECint_rate_base2000

Die Prozessorhersteller sowie die Anbieter von Servern und Workstations veröffentlichen auf der SPEC-Website ihre eigenen, hoch optimierten Ergebnisse des CPU2000-Benchmarks. Dabei sind teilweise mehrere Compiler sowie spezielle, auf die CPUs abgestimmte Bibliotheken im Einsatz.

Die SPECint_rate_base2000-Werte der Hersteller zeigen die maximale Integer-Leistungsfähigkeit der Prozessoren in einer Multitask-Umgebung unter Windows Server 2003.

Singlethread: SPECfp_base2000

Wir setzen die SPEC-Benchmarks unter Windows Server R2 2003 x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 9.1 und MS Visual Studio 2005 .NET sowie Intel Fortran 9.1 für alle Fließkommatests. Bei den AMD-Prozessoren testen wir die Floating-Point-Performance zusätzlich mit den PGI-6.2-Compilern. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz.

Der SPECfp_base2000-Benchmark arbeitet singlethreaded und nutzt die Vorteile von Hyper-Threading sowie der Dual- und Quad-Core-Technologie nicht. Die ermittelten Werte gelten als Indiz für die Floating-Point-Performance der Prozessoren. Die Energiespar-Features der CPUs wie PowerNow! oder SpeedStep sind aktiviert.

In der Tabelle finden Sie die Einzelergebnisse des SPEC-CPU2000-Floating-Point-Benchmarks der wichtigsten Prozessoren im Vergleich:

SPECfp_base2000: Official Run

Prozessor

Opteron 2218

Xeon 5080

Xeon 5160

Xeon E5345

Taktfrequenz

2,6 GHz

3,73 GHz

3,0 GHz

2,33 GHz

Sockel

S1207

LGA771

LGA771

LGA771

Core

Santa Rosa

Dempsey

Woodcrest

Clovertown

Speichertyp

Reg. DDR2-667 CL5

FB-DDR2-667 CL5

FB-DDR2-667 CL5

FB-DDR2-667 CL5

Chipsatz

ServerWorks HT2000

Intel 5000P

Intel 5000P

Intel 5000P

Compiler

-fastsse

-fast

-fast

-fast

Test

168.wupwise

2451

3332

3548

3450

171.swim

2486

2546

2777

2461

172.mgrid

1518

1411

1777

1473

173.applu

1034

1646

1891

1871

177.mesa

1239

1303

2708

2171

178.galgel

2658

3491

7109

5569

179.art

1219

3915

10322

8074

183.equake

1417

2121

2321

2138

187.facerec

1634

1489

2724

2159

188.ammp

1079

1070

2177

1700

189.lucas

1559

1620

2063

1882

191.fma3d

1465

1450

1984

1690

200.sixtrack

749

635

1200

937

301.apsi

1507

1185

1623

1406

Gesamt

1482

1725

2621

2230

Performance/Watt: SPECfp_base2000

Im ersten Diagramm vergleichen wir den maximalen Energieverbrauch (Peak) der Systeme mit den verschiedenen Prozessoren bei SPECfp_base2000:

Das folgende Diagramm stellt die erzielte relative Performance pro Watt der Systeme bei SPECfp_base2000 gegenüber:

Multitask: SPECfp_rate_base2000

Bei den Floating-Point-Berechnungen von SPECfp_rate_base2000 ermittelt die Benchmark-Suite CPU2000 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Integer-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standardsoftware.

Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECfp_rate_base2000 der Anzahl der - virtuellen - Prozessoren des Systems. Die Energiespar-Features der CPUs wie PowerNow! oder SpeedStep sind aktiviert.

Performance/Watt: SPECfp_rate_base2000

Im ersten Diagramm vergleichen wir den maximalen Energieverbrauch (Peak) der Systeme mit den verschiedenen Prozessoren bei SPECfp_rate_base2000:

Das folgende Diagramm stellt die erzielte relative Performance pro Watt der Systeme bei SPECint_base2000 gegenüber:

Optimierte Herstellerangaben: SPECfp_rate_base2000

Die Prozessorhersteller sowie die Anbieter von Servern und Workstations veröffentlichen auf SPEC.org ihre eigenen, hochoptimierten Ergebnisse des CPU2000-Benchmarks. Dabei sind teilweise mehrere Compiler sowie spezielle, auf die CPUs abgestimmte Bibliotheken wie AMDs Core Math Library ACML oder Microquills SmartHeap Library im Einsatz.

Die SPECfp_rate_base2000-Werte der Hersteller zeigen die maximale Floating-Point-Leistungsfähigkeit der Prozessoren in einer Multitask-Umgebung unter Windows Server 2003.

Integer: SysBench CPU 64 Bit

Die modulare Benchmark-Suite SysBench für Linux ist multithreaded konzipiert. Neben dem Test von Datenbanken eignet sich SysBench zur Überprüfung der Integer-Performance der Prozessoren, des Speicherdurchsatzes oder der Scheduler-Performance des Betriebssystems.

Beim CPU-Test von SysBench berechnet der Benchmark die Primzahlen bis zu einer wählbaren Obergrenze. In unserem Fall lassen wir alle Primzahlen bis 1.000.000 berechnen. Als Ergebnis übergibt SysBench die benötigte Zeit. Die Berechnung der Primzahlen erfolgt mit 64-Bit-Integer-Operationen unter SUSE Linux 10.1 64 Bit.

Die Thread-Anzahl ist beim CPU-Test von SysBench konfigurierbar. Wir führen den Benchmark mit einem und acht Threads durch. Damit wird der Vorteil sichtbar, den Hyper-Threading, Dual-Core oder ein zweiter Prozessor erwirken. Die Anzahl der Threads sollte bei diesem Test mindestens die Anzahl der – virtuellen – Cores besitzen. Mehr Threads als – virtuelle – Kerne bieten keine höhere Performance.

Performance/Watt: SysBench 64 Bit

Im ersten Diagramm vergleichen wir den maximalen Energieverbrauch (Peak) der Systeme mit den verschiedenen Prozessoren bei SysBench mit 8 Threads:

Das folgende Diagramm stellt die erzielte relative Performance pro Watt der Systeme bei der Primzahlenberechnung gegenüber:

Floating Point: Linpack 64 Bit

Linpack dient als verbreitetes Tool zum Ermitteln der Floating-Point-Performance von Highend-Computern. Das Ergebnis wird in Flops (Fließkomma-Operationen pro Sekunde) angegeben.

Linpack löst komplexe lineare Gleichungssysteme. Die Anzahl der Gleichungen lässt sich dabei stark erhöhen, um auch massiv parallel operierende Systeme unter Last zu setzen. Der Bedarf an Arbeitsspeicher wächst entsprechend mit. Die Speicherzuweisung erfolgt über eine Matrix-Berechnung. Size x LDA x 8 (Anzahl der Gleichungen x Input x 8 bit) ergibt den zu allokierenden Speicher.

Unter CentOS Linux 4.4 64 Bit setzen wir die 64-Bit-Version von Linpack 2.1.2 ein. Der SMP-fähige Benchmark setzt EMT64-Prozessoren mit SSE3-Unterstützung voraus. AMDs Opteron-Prozessoren mit SSE3 arbeiten unter Linux mit der von Intel-Compilern erstellten Linpack-Version ebenfalls problemlos zusammen.

Bei unseren Tests löst Linpack in verschiedenen Durchläufen 5000, 10.000, 15.000, 18.000, 22.000 und 27.000 Gleichungssysteme. Damit benötigt der Benchmark zwischen 190 MByte (5000 Gleichungssysteme) und zirka 5,4 GByte Arbeitsspeicher (27.000 Gleichungssysteme). Im Diagramm finden Sie die von den Prozessoren maximal erreichten GFlops.

Alle Prozessoren nutzen bei Linpack 2.1.2 ihre SSE3-Befehlserweiterung aus. Mit einer speziell von Intel für die Core-Prozessoren optimierten Linpack-Version 3.0 erreicht der Xeon E5345 einen Peak-Wert von 53,2 GFlops in unserem Test. Die 3.0er Version nutzt die in der Core-Architektur zusätzlichen 16 Enhanced-SSE3-Befehle aus.

Performance/Watt: Linpack 64 Bit

Im ersten Diagramm vergleichen wir den maximalen Energieverbrauch (Peak) der Systeme mit den verschiedenen Prozessoren bei Linpack:

Das folgende Diagramm stellt die erzielte relative Performance pro Watt der Systeme bei Linpack gegenüber:

Analyse: SunGard ACR

SunGards Adaptiv Credit Risk 3.0 ist ein Analyse-Tool für den Finanzbereich. Basierend auf modifizierten Monte-Carlo-Simulationen berechnet das Programm den künftigen Wert einer Anlage auf Basis vorhandener Marktdaten.

SunGards Adaptiv Credit Risk wurde in C# für Microsofts .NET-Umgebung programmiert. Spezielle Mathematik-Bibliotheken wie Intels MKL oder AMDs Core Math Library ACML verwendet Adaptiv Credit Risk nicht. Das Analyse-Tool arbeitet multithreaded und unterstützt Multiprozessor-Systeme optimal. SunGard rechnet überwiegend mit Integer-Operationen.

Performance/Watt: SunGard ACR

Im ersten Diagramm vergleichen wir den maximalen Energieverbrauch (Peak) der Systeme mit den verschiedenen Prozessoren bei SunGard:

Das folgende Diagramm stellt die erzielte relative Performance pro Watt der Systeme bei SunGard gegenüber:

Rendering: CINEBENCH 9.5 64 Bit

Mit dem CINEBENCH 9.5 stellt Maxon eine 64-Bit-Version des bekannten Benchmark-Tools bereit. CINEBENCH 9.5 basiert auf Cinema 4D Release 9.5 und führt wieder Shading- und Raytracing-Tests durch.

Der Raytracing-Test von CINEBENCH 9.5 überprüft die Render-Leistung des Prozessors. Eine Szene "Daylight" wird mit Hilfe des Cinema-4D-Raytracers berechnet. Sie enthält 35 Lichtquellen, wovon 16 mit Shadowmaps behaftet sind und so genannte weiche Schatten werfen.

Bei dem FPU-lastigen Test spielt die Leistungsfähigkeit der Grafikkarte keine Rolle. Auch höhere Speicher- und FSB-Bandbreiten nutzen beim Rendering von CINEBENCH 9.5 wenig - der Test läuft überwiegend in den ersten beiden Cache-Stufen ab.

Performance/Watt: CINEBENCH 9.5

Im ersten Diagramm vergleichen wir den maximalen Energieverbrauch (Peak) der Systeme mit den verschiedenen Prozessoren bei SunGard. Beim Rendering sind alle Kerne im Einsatz:

Das folgende Diagramm stellt die erzielte relative Performance pro Watt der Systeme bei SunGard gegenüber:

Beim Single-Thread-Rendering führt das Socket-F-System sogar mit einem Rating von 2,38 an. Es folgen der Xeon 5160 mit 2,18 sowie der E5345er Quad-Core-Xeon mit 1,73. Schlusslicht ist wie gewohnt das Intel-System mit den Xeon-5080-CPUs bei einem Performance/Watt-Rating von 1,00.

Rendering: 3ds Max 9 x64

Discreet/Autodesk bietet mit 3ds Max 9 x64 eine professionelle Software für 3D-Modelling, Animation und Rendering an. Bei den Render-Vorgängen nutzt 3ds Max 9 x64 Multiprocessing voll aus. Die Multicore- und Hyper-Threading-Technologie sowie ein zweiter Prozessor wirken somit beschleunigend.

Die Render-Szenen basieren auf der Benchmark-Suite SPECapc for 3ds Max von SPEC.org. Die Grafikkarten-Performance spielt beim Rendering keine Rolle, die OpenGL/DirectX-basierenden Tests der SPECapc-Suite verwenden wir nicht.

Performance/Watt: 3ds Max 9 x64

Im ersten Diagramm vergleichen wir den maximalen Energieverbrauch (Peak) der Systeme mit den verschiedenen Prozessoren bei 3ds Max 9 x64. Beim Rendering sind alle Kerne im Einsatz:

Das folgende Diagramm stellt die erzielte relative Performance pro Watt der Systeme bei 3ds Max 9 x64 gegenüber:

Raytracing: POV-Ray 3.7

Das Raytracing-Programm POV-Ray ist ein frei erhältliches Open-Source-Tool zum Kreieren von 3D-Grafiken. Der „Persistence of Vision Raytracer“ bietet in der Version 3.7 Beta 14 ein optimiertes Thread-Handling an. Die 32-Bit-Beta-Version wartet außerdem mit einer SSE2-optimierten Rendering-Engine auf.

Performance/Watt: POV-Ray 3.7

Im ersten Diagramm vergleichen wir den maximalen Energieverbrauch (Peak) der Systeme mit den verschiedenen Prozessoren bei POV-Ray 3.7. Beim Rendering sind alle Kerne im Einsatz:

Das folgende Diagramm stellt die erzielte relative Performance pro Watt der Systeme bei POV-Ray 3.7 gegenüber:

Beim Rendering mit einem Thread ergeben sich folgende Performance/Watt-Ratings: Xeon 5080 mit 1,00, Opteron 2218 mit 1,66, Xeon E5345 mit 1,72 und Xeon 5160 mit 2,23.

Datenbank: MySQL 64 Bit singlethreaded

Die Datenbank MySQL liefert ihre eigene Benchmark-Suite. Das integrierte sql-bench stresst mit einer Vielzahl an Operationen die Open-Source-Datenbank. Unterschiedliche Datenmanipulationen aus insert, update, delete sowie Zugriffsmessungen via select in Verbindung mit count und distinct laufen gegen die Datenbank. Verbindungsaufbau, Tabellen anlegen, löschen und verändern sind ebenfalls enthalten.

Zum Einsatz kam die in CentOS Linux 4.4 64 Bit enthaltene Datenbank MySQL 4.1.20 in der x86_64-Version. Für den Test der Prozessoren wurden an der Datenbank keine Veränderungen oder Tunings vorgenommen.

Der Benchmark sql-bench von MySQL arbeitet singlethreaded und nutzt somit die Vorteile von Hyper-Threading, Multi-Core oder einem zweiten Prozessor nicht aus.

Datenbank: MySQL 64 Bit multithreaded

Die Open-Source-Datenbank MySQL ist multithreaded ausgelegt. Wie die Datenbank von mehreren Prozessoren und Technologien wie Multi-Core oder Hyper-Threading profitiert, lässt sich mit SysBench überprüfen. SysBench ist ein modularer multithreaded ausgelegter Benchmark zum Testen von Datenbanken unter intensiver Last.

Bei SysBench lassen sich Parameter wie die Anzahl der Threads oder die Größe der Datenbank festlegen. Für unsere MySQL-Benchmarks verwenden wir eine Datenbank mit 50.000 Einträgen. Bei dieser Größe werden die Festplattenzugriffe und somit das Storage-Subsystem noch nicht zum begrenzenden Faktor.

Wir erhöhen bei den Multithreading-MySQL-Benchmarks die Anzahl der Threads bis auf 64. Hier zeigt sich, bei welcher Kombination von Thread-Anzahl und Prozessor MySQL den optimalen Durchsatz erreicht. Ein Thread entspricht dabei den Anfragen eines Clients auf die Datenbank. Damit lässt sich die Aussage treffen, ab wie vielen Clients die Datenbank-/Prozessor-Kombination optimal arbeitet und wann die Performance einbricht.

SysBench gibt als Ergebnis die erzielten Transaktionen der Datenbank pro Sekunde aus.

Die CPU-Auslastung bei zwei Xeon E5345 beträgt insgesamt im Maximum zirka 50 Prozent. Auch zwei Xeon 5160 übersteigen die 70-Prozent-Marke kaum. Die Systeme bieten während der Arbeit mit MySQL somit noch Reserven für zusätzliche Threads.

Performance/Watt: MySQL 64 Bit multithreaded

Im ersten Diagramm vergleichen wir den maximalen Energieverbrauch (Peak) der Systeme mit den verschiedenen Prozessoren bei SysBench OLTP mit 16 Threads:

Das folgende Diagramm stellt die erzielte relative Performance pro Watt der Systeme beim Datenbank-Benchmark gegenüber:

Datenbank: MySQL 64 Bit große Workloads

Welchen Einfluss die Prozessoren auf die Performance von MySQL bei sehr großen Datenbanken haben, überprüfen wir mit dem modularen SysBench.

SysBench erlaubt frei wählbare Größen der Datenbank. Für unsere MySQL-Benchmarks verwenden wir eine Datenbank mit 1 und 10 Millionen Einträgen. Bei diesen Größen greift die Datenbank bereits verstärkt auf das Storage-Subsystem zurück. Die Thread-Anzahl legen wir bei den SysBench-1M- und 10M-Tests jeweils auf 16 fest.

Bei den 1M-Tests wird das Storage-Subsystem schon zum begrenzenden Faktor, es gibt zunehmend Aktivitäten auf der Festplatte. So liegt die CPU-Auslastung bei zwei Xeon E5345 insgesamt nur bei zirka 20 Prozent.

Entscheidender als die Prozessor-Performance für mehr Datenbankdurchsatz wird der Einsatz leistungsfähiger Storage-Subsysteme mit Cache-Controllern.

Performance-Vergleich: FSB1066 vs. FSB1333

Intel liefert die Quad-Core-Topmodelle Xeon E5345 2,33 GHz und Xeon X5355 2,66 GHz mit einem 1333 MHz schnellen Prozessorbus aus. Ursprünglich sollten die Quad-Core-Xeons jedoch mit einem FSB1066 produziert werden.

Im tecCHANNEL-Testlabor befindet sich ein Vorserienmodell des Xeon X5355 mit FSB1066. Diese CPU wird es nicht im Handel geben. Allerdings lässt sich mit dem Test-Sample der Einfluss des FSBs auf die Performance bei Quad-Core-Prozessoren gut demonstrieren.

Bei Applikationen, die überwiegend im Cache der Prozessoren ablaufen, besitzt die FSB-Geschwindigkeit nur einen marginalen Einfluss auf die Performance. Dies überprüfen wir mit der Monte-Carlo-Simulation bei SunGard sowie beim Rendering mit CINEBENCH 9.5. Alle Benchmarks wurden mit deaktivierten Powermanagement-Features durchgeführt.

Performance-Vergleich: Workloads überwiegend im Cache

Prozessor

Xeon E5345

Xeon X5355

Prozentualer Unterschied

Taktfrequenz

2,33 GHz

2,66 GHz

+14,2 %

FSB

1066 MHz

1333 MHz

+25,0 %

Benchmark

SunGard

288 sec

255 sec

+12,9 %

CINEBENCH Rendering x CPUs

1885 Punkte

2169 Punkte

+15,1 %

Wie Sie der Tabelle entnehmen können, arbeitet der Xeon X5355 jeweils zirka 13 bis 15 Prozent schneller als der Xeon E5345. Dies entspricht ungefähr seiner prozentual höheren Taktfrequenz von 2,66 statt 2,33 GHz.

Bei einer speicherlastigen Applikation wie dem Multi-Task-Benchmark SEPCfp_rate_base2000 besitzt die FSB-Taktfrequenz bereits einen entscheidenden Einfluss. Bei der Xeon-5300-Serie müssen sich alle vier Kerne einen FSB teilen. Hier kommt es schnell zu Engpässen, wie folgende Ergebnisse verdeutlichen. Die Benchmarks wurden ebenfalls ohne aktive Powermanagement-Features durchgeführt.

Performance-Vergleich: Workloads überwiegend im Speicher

Prozessor

Xeon E5345

Xeon X5355

Prozentualer Unterschied

Taktfrequenz

2,33 GHz

2,66 GHz

+14,2 %

FSB

1066 MHz

1333 MHz

+25,0 %

Benchmark

SPECint_rate_base2000

171 Punkte

174 Punkte

+1,8 %

SPECfp_rate_base2000

93,2 Punkte

81,0 Punkte

-13,1 %

Der Xeon X5355 mit 2,66 GHz Taktfrequenz und FSB1066 erreicht beim bereits speicherlastigen SPECint_rate_base2000 trotz 14 Prozent höherer Taktfrequenz nur noch eine 1,8 Prozent höhere Performance. Normalerweise skaliert SPECint_rate_base2000 „realtiv“ gut mit der Taktfrequenz – bei identischer FSB-Geschwindigkeit.

Beim sehr speicherlastigen SPECfp_rate_base200 arbeitet der 2,66-GHz-Xeon X5355 bereits 13 Prozent langsamer als der Xeon E5345 mit 2,33 GHz. Hier bremst der FSB1066 des X5355 die Performance deutlich. Mit geringerer Taktfrequenz bietet der Xeon E5345 dank des schnelleren FSB1333 mehr Performance, wenn eine hohe Busaktivität herrscht.

Untersuchungen von Intel sind zu einem ähnlichen Ergebnis gekommen. Voraussichtlich wird Intel die FSB-Geschwindigkeit bei künftigen Quad-Core-Generationen noch auf 1667 MHz anheben, bevor der Hersteller auf eine neue Bustechnologie umschwenkt.

Energieverbrauch: Minimum & Maximum

Intel spezifiziert den neuen Quad-Core-Xeon E5345 wie bereits das Dual-Core-Modell Xeon 5160 mit einem TDP-Wert von 80 Watt. Der auf der NetBurst-Architektur basierende Dual-Core-Prozessor Xeon 5080 besitzt dagegen einen TDP-Wert von 130 Watt. Alle Modelle fertigt Intel im 65-nm-Verfahren. Den Opteron 2218 produziert AMD noch im 90-nm-Verfahren. Den TDP-Wert der Dual-Core-CPU spezifiziert der Hersteller mit 95 Watt.

Im folgenden Diagramm vergleichen wir den Systemverbrauch unter Windows Server 2003 R2 x64 im „Leerlauf“ ohne aktivierten Energiesparmodus (Energie-Schemata „Always on“):

Jetzt sind die Energiesparfunktionen Intel SpeedStep und AMD PowerNow! zum dynamischen Senken von Taktfrequenz und Core-Spannung aktiv (Energie-Schemata „Server Balanced Processor Power and Performance“). Windows befindet sich weiterhin im „Leerlauf“:

Sind die Prozessoren sowie der Speicher unter hoher Last, so steigt der Energiebedarf der Plattformen auf die im Diagramm aufgeführten Werte. Der Test erfolgt bei deaktivierten Powermanagement-Features mit Linpack 2.1.2 unter CentOS Linux 4.4 64 Bit:

Xeon-Systeme: Performance- & Energievergleich

Den zum Socket-F-Opteron-System baugleichen Xeon-Server stellte uns AMD zur Verfügung. Zur Überprüfung der erreichten Performance-Werte der Xeon-Prozessoren im „AMD-Xeon-Server“ führen wir alle Benchmarks und Energiemessungen zusätzlich mit einem von Intel gelieferten Bensley-Server durch. Das Tower-Gehäuse von Intel ist mit einem anderen Netzteil und einer abweichenden Lüfterkonfiguration ausgestattet. Statt eines Supermicro-Mainboards X7DBE+ arbeitet im Intel-System ein Intel Server Board S5000PSL. Die Details zu den Testsystemen finden Sie im Abschnitt Testkonfiguration.

Performance- und Energievergleich Xeon E5345 in Bensley-Servern

Benchmark

Intel-System [Performance]

AMDs Intel-System [Performance]

Intel-System [Energie]

AMDs Intel-System [Energie]

SPECint_base2000

2321 Punkte

2291 Punkte

256 Watt

267 Watt

SPECint_rate_base2000

171 Punkte

167 Punkte

325 Watt

344 Watt

SPECfp_base2000

2185 Punkte

2193 Punkte

265 Watt

300 Watt

SPECfp_rate_base2000

93,3 Punkte

85,8 Punkte

303 Watt

323 Watt

SunGard

288 sec

285 sec

312 Watt

336 Watt

CINEBENCH Rendering x CPUs

1852 Punkte

1885 Punkte

306 Watt

333 Watt

POV-Ray 3.7 Rendering x CPUs

4042 pps

3992 pps

318 Watt

342 Watt

3ds Max 9 x64 Rendering Scene Underwater

17,7 sec

17,6 sec

306 Watt

330 Watt

Die Ergebnisse zeigen deutlich, dass die Xeon-Prozessoren in beiden Bensley-Servern fast identische Performance-Werte erreichen. Kleine Schwankungen gibt es jeweils in beide Richtungen. Das von AMD zur Verfügung gestellte Intel-System arbeitet somit absolut sauber und problemlos auf dem Niveau des Intel-Testsystems.

Der Energieverbrauch des „AMD-Intel-Systems“ liegt auf einem zirka 20 Watt höherem Niveau im Vergleich zum Testsystem von Intel. Dies kommt durch die doppelte Lüfteranzahl sowie ein anderes Netzteil im „AMD-Intel-System“ zustande.

Um Wirkungsgradschwankungen der verbauten Komponenten auszuschließen, tauschen wir bei den uns von AMD zur Verfügung gestellten Systemen noch die Netzteile und Einschublüfter gegenseitig aus. Unterschiede in den Energieaufnahmen konnten wir bei den anschließenden Messungen bis auf die Messtoleranz nicht feststellen.

Cache/Speicher: 32-Bit-Transfer

Die Cache- und Speicher-Performance der Prozessoren überprüfen wir mit unserem Programm tecMem aus der tecCHANNEL Benchmark Suite Pro unter Windows Server 2003. tecMem misst die effektiv genutzte Speicherbandbreite zwischen der Load-/Store-Unit der CPU und den unterschiedlichen Ebenen der Speicherhierarchie (L1-, L2-Cache und RAM). Die Ergebnisse erlauben eine getrennte Analyse von Load-, Store- und Move-Operationen.

Xeon E5345 „Clovertown“ 2,33 GHz 4-Channel-FB-DIMM DDR2-667 CL5: Die Core-CPU erreicht im Cache 17.384 MByte/s. Aus dem FB-DIMM-Speicher holt der Clovertown bei 32-Bit-Zugriffen 2893 MByte/s heraus. Insgesamt besitzt die CPU zwar 8 MByte L2-Cache, einem Kern stehen jedoch nur 4 MByte Puffer zur Verfügung. Zwei Kerne pro Siliziumplättchen teilen sich den 4 MByte L2-Cache dynamisch.
Opteron 2218 (2,60 GHz) Registered DualDDR2-667 CL5: Bei bis 64 KByte großen Blockzugriffen (L1-Cache) besitzt der Opteron mit 19.584 MByte/s eine höhere Bandbreite als der Xeon. Im 1 MByte fassenden L2-Cache (pro Core) erlaubt die AMD-CPU allerdings nur noch 6658 MByte/s - deutlich weniger als der Xeon. Im DDR2-667-Speicher erreicht der Opteron 280 bei 32-Bit-Zugriffen mit 2760 MByte/s allerdings fast das Niveau des Xeons mit vier FB-DIMM-Channels.

Cache/Speicher: 64-Bit-Transfer

Hier testen wir mit tecMem die Performance mit den 64-Bit-Load und -Store-Kommandos aus dem MMX-Befehlssatz. Die Transferrate ist hier schon deutlich höher als bei den 32-Bit-Kommandos, da die CPU mit jedem Befehl mehr Daten transferieren kann.

Cache/Speicher: 128-Bit-Transfer

Mit den 128-Bit-SSE-Befehlen lässt sich die maximale Cache- und Speicher-Performance ermitteln, die eine CPU erreichen kann.

Xeon E5345 „Clovertown“ 2,33 GHz 4-Channel-FB-DIMM DDR2-667 CL5: Im L1-Cache erreicht die CPU maximal 35.595 MByte/s. In der zweiten Pufferstufe sind es 14.688 MByte/s. Im Speicher liegt die Bandbreite mit 3848 MByte/s über den 32- und 64-Bit-Werten.
Opteron 2218 (2,60 GHz) Registered DualDDR2-667 CL5: Im L1-Cache erreicht die CPU maximal 19.751 MByte/s. In der zweiten Pufferstufe sind es 10.357 MByte/s. Damit ist der Opteron bei 128-Bit-Zugriffen deutlich langsamer als der Xeon. Im Speicher liegt die AMD-Dual-Core-CPU mit 3271 MByte/s ebenfalls hinter dem Xeon.

Fazit

Nach der Steilvorlage der Core-basierenden Xeon-5100-Serie mit Dual-Core-Technologie spielt Intel jetzt seinen nächsten Trumpf aus. Die neuen Xeon-5300-Prozessoren mit vier Kernen setzen bei 2-Sockel-Systemen in zweierlei Hinsicht erneut den Maßstab.

Die Performance des Quad-Core-Xeons E5345 ist bei multithreaded programmierten Anwendungen oder in Multitask-Szenarien beeindruckend. Allerdings war der Geschwindigkeitsschub durch die Kernverdopplung zu erwarten. Bei überwiegend im Cache gehaltenen Workloads gibt es gegenüber den 3,0-GHz-Xeon-5160-CPUs eine bis zu 55 Prozent höhere Performance. Mehr ist aufgrund der 22 Prozent geringeren Taktfrequenz der 2,33-GHz-Quad-Core-Xeons kaum möglich.

Bei massiven Workloads mit viel Speicheraktivität sieht es mit der Performance-Skalierung von der Dual- auf die Quad-Core-Technologie allerdings nicht mehr so gut aus. Beispielsweise arbeiten zwei Xeon E5345 beim speicherintensiven SPECfp_rate_base2000 nur noch 11 Prozent schneller als zwei Xeon 5160. Als Bremse fungiert bereits der FSB1333 der Quad-Core-Xeons – alle vier Kerne müssen sich den Bus zum Chipsatz teilen. Dennoch erreichen die Konkurrenzprodukte nicht annähernd die Performance von Intels Vierkernern.

Den zweiten Maßstab – in Servern oft der wichtigere – setzt die Xeon-5300-Serie in der Performance/Watt-Betrachtung. Zwar ist AMDs Opteron-2218-Server bei allen Benchmarks mit Abstand das sparsamste System. Im Durchschnitt benötigt der Socket-F-Server unter Last zirka 20 Prozent weniger Energie als der Intel-Server. Diese Differenz erreicht AMD vor allem durch seine in den CPUs integrierten Memory-Controller sowie die genügsameren Speichermodule. Intels FB-DIMMs benötigen mit zirka 10 Watt pro Riegel in etwa die doppelte Energie von DDR2-DIMMs.

Doch in der Performance pro Watt arbeitet der Intel-Quad-Core-Server mit einer durchschnittlich über 80 Prozent höheren Effizienz, wenn alle Kerne im Einsatz sind. Auch gegenüber den eigenen Dual-Core-Prozessoren Xeon 5160 setzt sich der Bensley-Server mit den Vierkernern ausgestattet mit zirka 40 Prozent mehr Performance pro Watt ab. Ein absolutes Schlusslicht in der Performance/Watt-Betrachtung stellen Intels NetBurst-basierende Xeon-5080-Prozessoren dar.

Erfreulicherweise kostet ein Xeon E5345 mit 851 Dollar genauso viel wie das Dual-Core-Topmodell Xeon 5160. Und weil Singlethread-Anwendungen im Server-/Workstation-Umfeld kaum vorkommen, ist der niedriger getaktete Quad-Core-Xeon dem 5160er Doppelkerner in jedem Fall vorzuziehen. (cvi)

Testplattform Xeon- & Opteron-CPUs

Intels Xeon-Prozessoren testen wir in einem Supermicro-Mainboard mit der Bezeichnung X7DBE+. Das Board setzt auf den Blackford-Chipsatz 5000P für Server. Beide Xeon 5160 und E5345 arbeiten mit einem 1333 MHz schnellen FSB, die 5080er Modelle sind mit einem FSB1066 ausgestattet. Über vier FB-DIMM-Channels steuert der Chipsatz insgesamt acht 1-GByte-Module vom Typ ATP AP28K72S8BHE6S an. Die FB-DIMMs setzen DDR2-667-SDRAMs mit CL5 ein.

Für den Test der Opteron-2218-CPUs von AMD verwenden wir ein Tyan Thunder h2000M mit Broadcom-BCM5780-Chipsatz. Über ihren integrierten Memory-Controller greifen die AMD-CPUs auf Dual-Channel-DDR2-667-SDRAM mit CL5 zurück. Die acht verwendeten ATP-1-GByte-Module vom Typ AH28K72L8BHE6S sind gepuffert ausgeführt.

Bei der Grafikkarte setzt das Supermicro- und Tyan-Mainboard auf eine integrierte ATI ES1000. Alle verwendeten Benchmarks sind von der Grafik-Performance unabhängig. Als Betriebssystem verwenden wir Windows Server 2003 R2 x64 sowie SUSE 10.1 und CentOS 4.4 in der 64-Bit-Version.

Beim Storage-Subsystem kommen Western Digitals Enterprise-SATA-Laufwerke Raptor WD360ADFD mit 10.000 U/min zum Einsatz. Als Gehäuse für die AMD- und Intel-Plattform fungiert jeweils ein identisches Tower-Modell von Colfax. Beim Netzteil setzen die Colfax-Gehäuse auf ein Ablecom PWS-702A-1R mit 700 Watt Ausgangsleistung.