Test: Neue Opterons vs. Quad-Core-Xeons

28.02.2007 von Christian Vilsbeck

AMD senkt den Energiebedarf der Socket-F-Opterons deutlich. Damit sollen die neuen Opteron-Modelle Intels Xeon-Prozessoren in der Disziplin Performance pro Watt heraus fordern. Wir vergleichen die neuen Opteron-CPUs mit den Multi-Core-Prozessoren von Intel.

In einem ersten Schlagabtausch setzte sich Intels Quad-Core-Prozessor Xeon E5345 in der Rechengeschwindigkeit klar gegen den Opteron 2218 von AMD durch. Auch in der Performance pro Watt sah die Bilanz für den 95-Watt-Socket-F-Prozessor nicht überragend aus. Intels 2,33-GHz-Quad-Core-CPU mit 80 Watt TDP ging auch hier durchgehend in Führung. Nur dem Dual-Core-Modell Xeon 5160 „Woodcrest“ konnte AMDs Doppelkerner in der Rechenleistung pro Watt teilweise Paroli bieten.

Opteron 2218 HE „Santa Rosa“ 2,6 GHz: Der Dual-Core-Prozessor mit dem Stepping F3 begnügt sich mit 68 Watt TDP. Pro Kern besitzt die CPU einen 1 MByte großen L2-Cache. Der integrierte Speicher-Controller steuert gepufferte DDR2-667-DIMMs an.

Jetzt bietet AMD seine Dual-Core-Opterons als deutlich sparsamere Modelle an. Damit geht AMD den richtigen Weg, denn Server ziehen massiv mehr Strom. So benötigt die neue 2,6-GHz-Variante Opteron 2218 HE maximal nur noch 68 statt vormals 95 Watt. In der puren Rechenleistung unterscheidet sich der Opteron 2218 HE trotz neuem Core-Steppings erwartungsgemäß kaum von der bisherigen 95-Watt-Version. Und der ebenfalls in unserem Testlabor neue Opteron 2220 mit 2,8 GHz Taktfrequenz konsumiert statt vormals 120 jetzt maximal 95 Watt.

Als Vergleich zu den beiden neuen Energiespar-Opterons dienen die von uns ebenfalls erstmals getesteten Quad-Core-Modelle Xeon E5320 und X5355. Das „Einsteigermodell“ E5320 arbeitet mit 1,86 GHz Taktfrequenz und einer auf 1066 MHz reduzierten FSB-Geschwindigkeit. Den TDP-Wert spezifiziert Intel wie beim 2,33-GHz-Modell E5345 mit 80 Watt. Deutlich mehr genehmigt sich das Quad-Core-Topmodell Xeon X5355 mit 2,66 GHz und FSB1333. Die CPU-Kühler müssen bei diesem Prozessor für 120 Watt spezifiziert sein.

Interessant und mit einigen Überraschungen fallen in unserem Vergleichstest die Ergebnisse Performance pro Watt aus.

Details zum Dual-Core-Opteron „Santa Rosa“

Als bisherige Topmodelle von AMDs Server- und Workstations-CPUs fungierten der Opteron 1220 SE, 2220 SE und 8220 SE. Für höchste Performance steht die zusätzliche Modellbezeichnung „SE“. Diese SE-Opterons sind mit 120 (2220 SE und 8220 SE, Socket F) beziehungsweise 125 Watt TDP (1220 SE, Socket AM2) spezifiziert.

Bei diesen drei Opteron-Prozessoren senkt AMD den TDP-Wert nun auf 95 Watt. Die Dual-Core-CPUs erhalten die Bezeichnungen Opteron 1220, 2220 und 8220 – der Zusatz „SE“ entfällt. AMDs x220-Modelle arbeiten unverändert mit 2,8 GHz Taktfrequenz. Auch die Fertigung erfolgt weiterhin im 90-nm-Verfahren.

Den mit 2,6 GHz Taktfrequenz arbeitenden Opterons 1218, 2218 und 8218 spendiert AMD ebenfalls eine Auffrischung. Als neue Bezeichnung erhalten die CPUs nun den Zusatz „HE“. Statt 95 (Opteron 2218 und 8218) beziehungsweise 103 Watt TDP (Opteron 1218) sind die neuen HE-Varianten nunmehr mit 68 (2218 HE und 8218 HE) sowie 65 Watt TDP (1218 HE) spezifiziert. „HE“ kennzeichnet die neuen sparsameren 2,6-GHz-Opterons. Auch hier erfolgt die Fertigung weiterhin mit 90 nm Strukturbreite.

Alle Dual-Core-Opterons für den Socket F und AM2 besitzen einen 1 MByte großen L2-Cache pro Core. Ein integrierter L3-Cache steht erst Mitte 2007 mit den dann erwarteten Quad-Core-Modellen auf der Roadmap. AMD bietet seine neue Opteron-Generation mit Taktfrequenzen von 1,8 bis 2,8 GHz an – in Schritten von 200 MHz.

Zu den Features der Socket-F- und Socket-AM2-Dual-Core-Opterons zählt AMDs Virtualisierungstechnologie Pacifica. Mit der „Secure Virtual Machine Architecture“, so der richtige Name, geht AMD neben der CPU-Virtualisierung noch einen Schritt weiter. Denn im Prozessor integrierte Trusted-Computing-Features sorgen zusätzlich für mehr Security. Außerdem virtualisiert Pacifica den Speicher-Controller.

Zum Stromsparen beherrschen alle DDR2-Opterons weiterhin das PowerNow!-Verfahren zum dynamischen Senken von Taktfrequenz und Core-Spannung. Der HyperTransport-Bus arbeitet unverändert zu den bisherigen Modellen mit 1-GHz-Tatkfrequenz.

Details zum Quad-Core-Xeon „Clovertown“

Intels Xeon-5300-Serie „Clovertown“ für Server und Workstations mit zwei Prozessorsockeln basiert auf der Core-Mikroarchitektur in 65-nm-Bauweise. Die Quad-Core-Prozessoren setzen sich aus zwei Siliziumplättchen der Marke „Woodcrest“ in einem Multi-Chip-Verfahren zusammen. Beide Dies nehmen in einem Gehäuse Platz und sind über einen gemeinsamen Prozessorbus verbunden. Entsprechend verfügt Clovertown über insgesamt 8 MByte L2-Cache. Jeweils zwei Kerne pro Die nutzen 4 MByte gemeinsam.

Beim Xeon „Clovertown“ führt Intel die 5300er Prozessornummern ein. Als Topmodell fungiert der Xeon X5355 mit 2,66 GHz Taktfrequenz. Zusätzlich bietet Intel die Modelle E5310 (1,60 GHz), E5320 (1,86 GHz) und E5345 (2,33 GHz) an. Unterschiede finden sich beim Prozessorbus: Der Xeon E5310 und E5320 besitzen einen FSB1066, die schnelleren Clovertowns arbeiten mit einem FSB1333.

Die Xeon-5300-CPUs nehmen wie die 5000er Dempseys und 5100er Woodcrests in der Bensley-/Glidewell-Plattform im LGA771-Sockel Platz. Während ein Xeon 5160 mit 3,0 GHz Taktfrequenz und Dual-Core-Technologie mit 80 Watt TDP spezifiziert ist, benötigt das Quad-Core-Topmodell im Extremfall 120 Watt. Die mit 1,60, 1,86 und 2,33 GHz Taktfrequenz arbeitenden Clovertowns begnügen sich jedoch mit 80 Watt TDP.

Intels Xeon-5300-Serie beherrscht die 64-Bit-Erweiterung EM64T ebenso wie den VT-x-Befehlssatz der Vanderpool-Technologie für die Virtualisierung der CPU. Ein Standard-Feature bei der Xeon-5300-Serie ist auch die XD-Technologie für erweiterten Schutz vor Viren und Buffer Overflows. SpeedStep zum dynamischen Senken der Taktfrequenz und der Kernspannung zählt ebenfalls zum Repertoire der Clovertown-CPUs. Der von tecCHANNEL getestete Xeon E5345 senkt seine Taktfrequenz beispielsweise von 2,33 auf 2,0 GHz.

Alle Details über die Core-Architektur des Xeon „Clovertown“ finden Sie bei tecCHANNEL im Artikel Wechsel an der Spitze: Intels neue Core Prozessoren. Ausführliche Informationen über die Xeon-5300-Plattformen erhalten Sie im Artikel Alles neu: Intels Xeon-Plattform Bensley & Glidewell.

Testvorbetrachtung

Alle getesteten Prozessoren arbeiten in baugleichen Server-Gehäusen von Colfax. Architekturbedingt unterscheiden sich nur das Mainboard sowie der Speicher. Die übrigen Komponenten wie Lüfter, Netzteil und Storage sind identisch. Um auch beim Arbeitsspeicher möglichst gleiche Vorraussetzungen zu erreichen, kommen jeweils acht 1-GByte-DIMMs mit DDR2-667-SDRAM zum Einsatz. Das AMD-System benötigt dabei Registered DIMMs, Intels Prozessoren arbeiten mit FB-DIMMs zusammen. Weitere Details zu den Testsystemen finden Sie im Abschnitt „Testplattform Xeon- & Opteron-CPUs“ am Ende des Artikels.

Während aller Benchmarks kontrollieren wir den Energieverbrauch der Systeme. Damit lassen sich Aussagen über die Energieeffizienz der CPUs sowie den zugehörigen Plattformen treffen. Die Powermanagement-Features wie PowerNow! bei AMD und SpeedStep bei Intel sind praxisnah bei allen Messungen aktiviert.

Beim Betriebssystem Windows Server 2003 R2 x64 ist das Energieschemata „Server Balanced Processor Power and Performance“ eingestellt. Hier wird den CPUs das dynamische Regeln der Taktfrequenz/Core-Spannung gestattet. Bei den Linux-Betriebssystemen CentOS 4.4 und SUSE 10.1 ist ebenfalls das dynamische Regeln in den Energiespar-Optionen eingestellt.

Singlethread: SPECint_base2000

Wir setzen die SPEC-Benchmarks unter Windows Server 2003 R2 x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 9.1 und Fortran 9.1 in der 32-Bit-Version und MS Visual Studio 2005 .NET für alle Integer-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz.

Der SPECint_base2000-Benchmark arbeitet singlethreaded und nutzt die Vorteile von Hyper-Threading und der Dual- sowie Quad-Core-Technologie nicht. Die ermittelten Werte gelten als Indiz für die Integer-Performance der Prozessoren. Die Energiespar-Features der CPUs wie PowerNow! oder SpeedStep sind aktiviert.

SPECint_base2000: Der Xeon 5160 deklassiert zusammen mit dem Quad-Core-Modellen die restliche x86-Welt. Intels Vierkern-Xeons müssen aber aufgrund ihrer geringeren Taktfrequenz auch eine entsprechende Performance-Einbuße gegenüber dem 3,0-GHz-Woodcrest hinnehmen. AMDs Opteron-Kern hält in der Integer-Performance mit der Core-Architektur nicht Schritt.

In der Tabelle finden Sie die Einzelergebnisse des SPEC-CPU2000-Integer-Benchmarks der wichtigsten Prozessoren im Vergleich:

SPECint_base2000: Official Run
Prozessor	Opteron 2218HE	Opteron 2220	Xeon E5320	Xeon X5355
Taktfrequenz	2,6 GHz	2,8 GHz	1,86 GHz	2,66 GHz
Sockel	S1207	S1207	LGA771	LGA771
Core	Santa Rosa	Santa Rosa	Clovertown	Clovertown
Speichertyp	Reg. DDR2-667 CL5	Reg. DDR2-667 CL5	FB-DDR2-667 CL5	FB-DDR2-667 CL5
Chipsatz	ServerWorks HT2000	ServerWorks HT2000	Intel 5000P	Intel 5000P
Compiler	-QxW	-QxW	-fast	-fast
Test
164.gzip	1392	1501	1149	1629
175.vpr	1272	1374	1412	1963
176.gcc	1377	1482	2075	2657
181.mcf	775	836	3062	4156
186.crafty	1980	2131	1714	2448
197.parser	1491	1589	1443	2046
252.eon	2315	2500	2424	3451
253.perlbmk	1913	2044	2076	2910
254.gap	1876	2012	1879	2620
255.vortex	2448	2551	2934	4068
256.bzip2	1331	1433	1445	2040
300.twolf	1553	1686	2143	3052
Gesamt	1576	1691	1898	2646

Performance/Watt: SPECint_base2000

Im ersten Diagramm vergleichen wir den maximalen Energieverbrauch (Peak) der Systeme mit den verschiedenen Prozessoren bei SPECint_base2000:

Energieverbrauch: Das Socket-F-System mit AMDs Opteron 2218HE benötigt 28 Prozent weniger Energie als der sparsamste Core-basierenden Xeon-Server. Wenn nur ein Kern Rechenarbeit hat, zeigen sich die Quad-Core-Xeons E5320 und E5345 aufgrund ihrer geringern Taktfrequenz genügsamer als der Dual-Core-Xeon 5160. Die 120-Watt-CPU Xeon X5355 überholt allerdings trotz geringerem Arbeitstakt den 3,0-GHz-Doppelkerner.

Das folgende Diagramm stellt die erzielte relative Performance pro Watt der Systeme bei SPECint_base2000 gegenüber:

Performance pro Watt: Jetzt bietet der 3,0-GHz-Dual-Core-Xeon mit Abstand die effizienteste Leistung. AMDs Opteron 2200 schließt fast zum Quad-Core-Xeon E5345 auf. Niederschmetternd ist das Ergebnis für den NetBurst-Modell Xeon 5080: Der Core-basierende Xeon 5160 bietet eine 2,35-mal höhere Performance pro Watt. Auch der „kleine“ Quad-Core-Xeon E5320 kann hier nicht besonders punkten.

Multitask: SPECint_rate_base2000

Bei den Integer-Berechnungen von SPECint_rate_base2000 ermittelt die Benchmark-Suite CPU2000 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Integer-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standard-Software.

Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECint_rate_base2000 der Anzahl der - virtuellen - Prozessoren des Systems. Die Energiespar-Features der CPUs wie PowerNow! oder SpeedStep sind aktiviert.

SPECint_rate_base2000: Die Xeon-Modelle E5320, E5345 und X5355 nutzen jetzt ihre Quad-Core-Technologie und arbeiten die parallel laufenden Integer-Programme mit Abstand schneller ab. Die X5355-Vierkerner bieten eine 53 Prozent höhere Performance als die 3,0-GHz-Dual-Core-Woodcrests – bei 11 Prozent geringerer Taktfrequenz. AMDs Socket-F-Opterons arbeiten auf dem Niveau der 3,73-GHz-Xeon-Modelle 5080.

Performance/Watt: SPECint_rate_base2000

Im ersten Diagramm vergleichen wir den maximalen Energieverbrauch (Peak) der Systeme mit den verschiedenen Prozessoren bei SPECint_rate_base2000:

Energieverbrauch: Sowohl der Xeon 5160, E5320 und E5345 sind mit 80 Watt TDP spezifiziert. Dass dieser Wert ein theoretisches Maximum ist, zeigen die Ergebnisse. Die Quad-Core-Xeons bewegen sich näher an diesem Maximum und benötigen im gleichen Server insgesamt 13 Watt mehr Energie. Der AMD-Server mit den neuen Opteron 2218HE begnügt sich selbst bei voller CPU-Auslastung der beiden Dual-Core-CPUs mit 249 Watt.

Das folgende Diagramm stellt die erzielte relative Performance pro Watt der Systeme bei SPECint_rate_base2000 gegenüber:

Performance pro Watt: Zwar benötigen die Quad-Core-Xeons etwas mehr Energie als die 3,0-GHz-Woodcrests, dafür bieten sie mit Abstand die höchste Leistung pro Watt. Gegenüber den NetBurst-Modellen Xeon 5080 verdreifachte (Faktor 2,95) Intel die Effizienz. AMDs energiesparende Opteron-2218HE-CPUs sind gegenüber den 95-Watt-2218er Modellen 10 Prozent effizienter

Optimierte Herstellerangaben: SPECint_rate_base2000

Die Prozessorhersteller sowie die Anbieter von Servern und Workstations veröffentlichen auf der SPEC-Website ihre eigenen, hoch optimierten Ergebnisse des CPU2000-Benchmarks. Dabei sind teilweise mehrere Compiler sowie spezielle, auf die CPUs abgestimmte Bibliotheken im Einsatz.

Die SPECint_rate_base2000-Werte der Hersteller zeigen die maximale Integer-Leistungsfähigkeit der Prozessoren in einer Multitask-Umgebung unter Windows Server 2003.

SPECint_rate_base2000: Bei optimaler Unterstützung und ohne aktivierte Powermanagement-Features arbeitet das Xeon-X5355-Doppelpack nochmals zirka 11 Prozent schneller als bei unseren Messungen. Den Opteron-2218-CPUs entlocken die Hersteller unter Windows Server 2003 knapp sechs Prozent mehr Speed.

Singlethread: SPECfp_base2000

Wir setzen die SPEC-Benchmarks unter Windows Server R2 2003 x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 9.1 und MS Visual Studio 2005 .NET sowie Intel Fortran 9.1 für alle Fließkommatests. Bei den AMD-Prozessoren testen wir die Floating-Point-Performance zusätzlich mit den PGI-6.2-Compilern. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz.

Der SPECfp_base2000-Benchmark arbeitet singlethreaded und nutzt die Vorteile von Hyper-Threading und der Dual- sowie Quad-Core-Technologie nicht. Die ermittelten Werte gelten als Indiz für die Floating-Point-Performance der Prozessoren. Die Energiespar-Features der CPUs wie PowerNow! oder SpeedStep sind aktiviert.

SPECfp_base2000: Dual- und Quad-Core bewirkt hier nichts. Der Xeon 5160 stürmt mit Abstand an die Spitze. Der neue Opteron 2218HE setzt sich durch die Kombination neues F3-Stepping plus BIOS hier etwas von der „älteren“ 95-Watt-Verson ab.

In der Tabelle finden Sie die Einzelergebnisse des SPEC-CPU2000-Floating-Point-Benchmarks der wichtigsten Prozessoren im Vergleich:

SPECfp_base2000: Official Run
Prozessor	Opteron 2218HE	Opteron 2220	Xeon E5320	Xeon X5355
Taktfrequenz	2,6 GHz	2,8 GHz	1,86 GHz	2,66 GHz
Sockel	S1207	S1207	LGA771	LGA771
Core	Santa Rosa	Santa Rosa	Clovertown	Clovertown
Speichertyp	Reg. DDR2-667 CL5	Reg. DDR2-667 CL5	FB-DDR2-667 CL5	FB-DDR2-667 CL5
Chipsatz	ServerWorks HT2000	ServerWorks HT2000	Intel 5000P	Intel 5000P
Compiler	-fastsse	-fastsse	-fast	-fast
Test
168.wupwise	2477	2733	2780	3686
171.swim	2575	1949	1986	2496
172.mgrid	1575	1660	1188	1628
173.applu	1295	1402	1510	1986
177.mesa	1239	1342	1739	2442
178.galgel	2777	2911	4461	6350
179.art	1397	1476	6437	9163
183.equake	1515	1611	1728	2222
187.facerec	1816	1926	1734	2388
188.ammp	1122	1185	1364	1922
189.lucas	1814	1835	1525	1963
191.fma3d	1525	1621	1355	1837
200.sixtrack	754	810	749	1069
301.apsi	1540	1438	1167	1541
Gesamt	1583	1627	1797	2434

Performance/Watt: SPECfp_base2000

Im ersten Diagramm vergleichen wir den maximalen Energieverbrauch (Peak) der Systeme mit den verschiedenen Prozessoren bei SPECfp_base2000:

Energieverbrauch: Erstaunlich niedrig ist der Energieverbrauch des Opteron-Systems. Obwohl die Systeme bis auf das Mainboard, Speicher und die CPUs identisch sind, benötigen die Xeon-Server mindestens 34 Prozent mehr Energie (5160er Xeons).

Das folgende Diagramm stellt die erzielte relative Performance pro Watt der Systeme bei SPECfp_base2000 gegenüber:

Performance pro Watt: Fordert nur ein Thread CPU-Ressourcen, bietet der Socket-F-Server mit AMDs Opteron 2218HE und 2220 eine höhere Effizienz wie Intels Quad-Core-Xeon-System. Nur die Xeon 5160 mit 3,0 GHz führen eindeutig mit der besten Performance pro Watt.

Multitask: SPECfp_rate_base2000

Bei den Floating-Point-Berechnungen von SPECfp_rate_base2000 ermittelt die Benchmark-Suite CPU2000 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Integer-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standard-Software.

Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECfp_rate_base2000 der Anzahl der - virtuellen - Prozessoren des Systems. Die Energiespar-Features der CPUs wie PowerNow! oder SpeedStep sind aktiviert.

SPECfp_rate_base2000: Bei den speicherlastigen Floating-Point-Benchmarks wird der gemeinsame FSB der vier Kerne pro Xeon-5300-Modell bereits zur Bremse. Statt 53 Prozent mehr Performance wie beim „Cache-lastigen“ SPECint_rate_base2000 erreichen die 2,66-GHz-Quad-Core-Xeons X5355 jetzt nur 16 Prozent mehr Durchsatz als zwei Xeon 5160.

Performance/Watt: SPECfp_rate_base2000

Im ersten Diagramm vergleichen wir den maximalen Energieverbrauch (Peak) der Systeme mit den verschiedenen Prozessoren bei SPECfp_rate_base2000:

Energieverbrauch: SPECfp_rate_base2000 fordert die CPUs extrem. Im Xeon-Server benötigen die 80-Watt-TDP-Modelle Xeon 5160, E5320 und E5345 annähernd die gleiche Energie. Die Core-CPUs bewegen sich jetzt „nahe“ an ihrer TDP-Grenze. Dem Opteron-System hilft der in den CPUs integrierte Speicher-Controller sowie die genügsameren DDR2-667-DIMMs Energie zu sparen.

Das folgende Diagramm stellt die erzielte relative Performance pro Watt der Systeme bei SPECfp_rate_base2000 gegenüber:

Performance pro Watt: AMDs Socket-F-Server setzt sich mit den neuen Stromspar-Opterons 2218HE in der erzielten Rechengeschwindigkeit pro Watt fast vor alle Core-basierenden Xeons. Intels Quad-Core-Xeons bieten gegenüber den Dual-Core-Xeon-5160-Modellen nur in der Variante E5345 eine höhere Effizienz.

Optimierte Herstellerangaben: SPECfp_rate_base2000

Die Prozessorhersteller sowie die Anbieter von Servern und Workstations veröffentlichen auf SPEC.org ihre eigenen, hoch optimierten Ergebnisse des CPU2000-Benchmarks. Dabei sind teilweise mehrere Compiler sowie spezielle, auf die CPUs abgestimmte Bibliotheken wie AMDs Core Math Library ACML oder Microquills SmartHeap Library im Einsatz.

Die SPECfp_rate_base2000-Werte der Hersteller zeigen die maximale Floating-Point-Leistungsfähigkeit der Prozessoren in einer Multitask-Umgebung unter Windows Server 2003.

SPECfp_rate_base2000: Unter Einsatz spezieller Mathematik-Bibliotheken und Deaktivierung sämtlicher Powermanagement-Features erreicht das Xeon-X5355-Doppelpack zirka 15 Prozent mehr Performance als bei unseren Praxismessungen. AMDs Opteron-2220-CPUs entlocken die Hersteller unter Windows Server 2003 etwa 10 Prozent mehr Speed.

Integer: SysBench CPU 64 Bit

Die modulare Benchmark-Suite SysBench für Linux ist multithreaded konzipiert. Neben dem Test von Datenbanken eignet sich SysBench zur Überprüfung der Integer-Performance der Prozessoren, des Speicherdurchsatzes oder der Scheduler-Performance des Betriebssystems.

Beim CPU-Test von SysBench berechnet der Benchmark die Primzahlen bis zu einer wählbaren Obergrenze. In unserem Fall lassen wir alle Primzahlen bis 1.000.000 berechnen. Als Ergebnis übergibt SysBench die benötigte Zeit. Die Berechnung der Primzahlen erfolgt mit 64-Bit-Integer-Operationen unter SUSE Linux 10.1 64 Bit.

Die Thread-Anzahl ist beim CPU-Test von SysBench konfigurierbar. Wir führen den Benchmark mit einem und acht Threads durch. Damit wird der Vorteil sichtbar, den Hyper-Threading, Dual-Core oder ein zweiter Prozessor erwirken. Die Anzahl der Threads sollte bei diesem Test mindestens die Anzahl der – virtuellen – Cores besitzen. Mehr Threads als – virtuelle - Kerne bieten keine höhere Performance.

1 Thread: Wie beim CPU2000-Integer-Benchmark unter Windows überzeugen die Core-basierenden Xeons 5160 und X5355 auch unter Linux mit hoher Ganzzahlen-Performance. Durch seine geringe Taktfrequenz von 1,86 GHz belegt das Core-Modell Xeon E5320 allerdings den letzten Platz.

8 Threads: Trotz unterlegener Taktfrequenz lässt jetzt selbst der Quad-Core-Xeon E5320 den Doppelkernmodellen keine Chance. Der Xeon 5080 profitiert zusätzlich von seiner Hyper-Threading-Technologie.

Performance/Watt: SysBench 64 Bit

Im ersten Diagramm vergleichen wir den maximalen Energieverbrauch (Peak) der Systeme mit den verschiedenen Prozessoren bei SysBench mit 8 Threads:

Energieverbrauch: Satte 205 Watt mehr als das AMD-System mit Opteron-2218HE-Prozessoren genehmigt sich der Intel-Server mit den NetBurst-Xeon-5080-CPUs.

Das folgende Diagramm stellt die erzielte relative Performance pro Watt der Systeme bei der Primzahlenberechnung gegenüber:

Performance pro Watt: Unangefochten bietet das Intel-System mit den Quad-Core-Xeons die höchste Leistung pro Watt. Obwohl die Xeon-5080-Prozessoren ebenfalls deutlich schneller als die Opteron-CPUs sind, lässt die Energieeffizienz der NetBurst-Modelle zu Wünschen übrig. Das AMD-System bietet mit den Opterons eine 17 (Modelle 2218) bis 26 Prozent (Modelle 2218HE) bessere Performance pro Watt.

Floating Point: Linpack 64 Bit

Linpack dient als verbreitetes Tool zum Ermitteln der Floating-Point-Performance von Highend-Computern. Das Ergebnis wird in Flops (Fließkomma-Operationen pro Sekunde) angegeben.

Linpack löst komplexe lineare Gleichungssysteme. Die Anzahl der Gleichungen lässt sich dabei stark erhöhen, um auch massiv parallel operierende Systeme unter Last zu setzen. Der Bedarf an Arbeitsspeicher wächst entsprechend mit. Die Speicherzuweisung erfolgt über eine Matrix-Berechnung. Size x LDA x 8 (Anzahl der Gleichungen x Input x 8 bit) ergibt den zu allokierenden Speicher.

Unter CentOS Linux 4.4 64 Bit setzen wir die 64-Bit-Version von Linpack 2.1.2 ein. Der SMP-fähige Benchmark setzt EMT64-Prozessoren mit SSE3-Unterstützung voraus. AMDs Opteron-Prozessoren mit SSE3 arbeiten unter Linux mit der von Intel-Compilern erstellten Linpack-Version ebenfalls problemlos zusammen.

Bei unseren Tests löst Linpack in verschiedenen Durchläufen 5000, 10.000, 15.000, 18.000, 22.000 und 27.000 Gleichungssysteme. Damit benötigt der Benchmark zwischen 190 MByte (5000 Gleichungssysteme) und zirka 5,4 GByte Arbeitsspeicher (27.000 Gleichungssysteme). Im Diagramm finden Sie die von den Prozessoren maximal erreichten GFlops.

Bandbreitenvorteil: Das Xeon-X5355-Doppelpack arbeitet 63 Prozent schneller als die 3,0-GHz-Woodcrests – bei 11 Prozent geringerer Taktfrequenz. Die Opterons sind durch ihre geringere SSE-Performance deutlich im Nachteil.

Alle Prozessoren nutzen bei Linpack 2.1.2 ihre SSE3-Befehlserweiterung aus. Mit einer speziell von Intel für die Core-Prozessoren optimierten Linpack-Version 3.0 erreicht der Xeon E5345 einen Peak-Wert von 53,2 GFlops in unserem Test. Die 3.0er Version nutzt die in der Core-Architektur zusätzlichen 16 Enhanced-SSE3-Befehle aus.

Performance/Watt: Linpack 64 Bit

Im ersten Diagramm vergleichen wir den maximalen Energieverbrauch (Peak) der Systeme mit den verschiedenen Prozessoren bei Linpack:

Energieverbrauch: Linpack fordert den Prozessoren und dem Speicher im Vergleich zu anderen Benchmarks die meiste Energie ab. Trotz gleicher TDP von 80 Watt – je CPU - genehmigen sich Quad-Core-Xeons E5320 und E5345 insgesamt mehr Energie als die Dual-Core-Modelle Xeon 5160. Intels Vierkerner reizen die TDP-Grenze jetzt wohl extrem aus. Deutlich sparsamer als alle Xeons arbeitet wieder AMDs Socket-F-Plattform, besonders mit dem neuen Opteron 2218HE.

Das folgende Diagramm stellt die erzielte relative Performance pro Watt der Systeme bei Linpack gegenüber:

Performance pro Watt: Der effizienteste Quad-Core-Xeon ist das 80-Watt-TDP-Modell E5345. Pro Watt Energie bieten die Xeon E5345 37 Prozent mehr Performance als die 3,0-GHz-Dual-Core-Modelle Xeon 5160. Gegenüber den 3,73-GHz-NetBurst-Xeons trumpfen die Vierkerner sogar mit einer 2,54-fach höheren Effizienz auf.

Analyse: SunGard ACR

SunGards Adaptiv Credit Risk 3.0 ist ein Analysetool für den Finanzbereich. Basierend auf modifizierten Monte-Carlo-Simulationen berechnet das Programm den künftigen Wert einer Anlage auf Basis vorhandener Marktdaten.

SunGards Adaptiv Credit Risk wurde in C# für Microsofts .NET-Umgebung programmiert. Spezielle Mathematik-Bibliotheken wie Intels MKL oder AMDs Core Math Library ACML verwendet Adaptiv Credit Risk nicht. Das Analysetool arbeitet multithreaded und unterstützt Multiprozessor-Systeme optimal. SunGard rechnet überwiegend mit Integer-Operationen.

Schnelle Vorhersagen: Die beiden Xeon X5355 erreichen eine 77 Prozent höhere Performance als das 3,0-GHz-Woodcrest-Doppelpack. Speicherzugriffe halten sich bei Adaptiv Credit Risk in Grenzen.

Performance/Watt: SunGard ACR

Im ersten Diagramm vergleichen wir den maximalen Energieverbrauch (Peak) der Systeme mit den verschiedenen Prozessoren bei SunGard:

Energieverbrauch: Das Socket-F-System von AMD zeigt sich wie gewohnt als Sparmeister. Verschwenderisch mit den Energieressourcen gehen die NetBurst-Prozessoren Xeon 5080 um. Auch die 120-Watt-TDP-Quad-Core-Xeon-Modelle X5355 genehmigen sich viel Energie.

Das folgende Diagramm stellt die erzielte relative Performance pro Watt der Systeme bei SunGard gegenüber:

Performance pro Watt: Doppelte Kernanzahl bei reduzierter Taktfrequenz ermöglicht mit den Xeon-E5345-CPUs eine 47 Prozent höhere Effizienz als mit den 3,0-GHz-Xeon-5160-Modellen. Im Vergleich zum Xeon-5160-System steht AMDs Socket-F-Server im Performance/Watt-Rating gar nicht so schlecht da.

Rendering: CINEBENCH 9.5 64 Bit

Mit dem CINEBENCH 9.5 stellt Maxon eine 64-Bit-Version des bekannten Benchmark-Tools bereit. CINEBENCH 9.5 basiert auf Cinema 4D Release 9.5 und führt wieder Shading- und Raytracing-Tests durch.

Der Raytracing-Test von CINEBENCH 9.5 überprüft die Render-Leistung des Prozessors. Eine Szene "Daylight" wird mit Hilfe des Cinema-4D-Raytracers berechnet. Sie enthält 35 Lichtquellen, wovon 16 mit Shadowmaps behaftet sind und so genannte weiche Schatten werfen.

Bei dem FPU-lastigen Test spielt die Leistungsfähigkeit der Grafikkarte keine Rolle. Auch höhere Speicher- und FSB-Bandbreiten nutzen beim Rendering von CINEBENCH 9.5 wenig - der Test läuft überwiegend in den ersten beiden Cache-Stufen ab.

1 Thread: Beim Rendering wird jetzt nur ein Prozessorkern verwendet - Multi-Core und Hyper-Threading nutzen hier nichts. AMDs Opterons halten gut mit Intels Quad-Core-Modellen mit. Nur der 3,0-GHz-Core-Prozessor Xeon 5160 liegt deutlich in Führung.

Alle Threads: Jetzt nutzt CINEBENCH alle verfügbaren – physikalischen und virtuellen – Prozessorkerne. Intels Quad-Core-Xeons enteilen bis auf den „Einsteiger-Vierkerner“ E5320 dem restlichen Feld.

Performance/Watt: CINEBENCH 9.5

Im ersten Diagramm vergleichen wir den maximalen Energieverbrauch (Peak) der Systeme mit den verschiedenen Prozessoren bei CINEBENCH. Beim Rendering sind alle Kerne im Einsatz:

Energieverbrauch: Beim Rendering benötigen die zwei neuen Opteron-2218HE-CPUs (68 Watt TDP) zirka 21 Watt weniger Energie als die bisherigen 2218er Modelle (95 Watt TDP). Bei den 80-Watt-TDP-Prozessoren Xeon 5160, E5320 und E5345, scheinen die Vierkerner diese theoretische Grenze deutlicher auszureizen.

Das folgende Diagramm stellt die erzielte relative Performance pro Watt der Systeme bei CINEBENCH gegenüber:

Performance pro Watt: AMDs Socket-F-System mit den zwei Opteron 2218HE bietet beim Rendern mehr Effizienz als der Xeon-Server mit den 5160er Woodcrests. Auch die Quad-Core-Xeons E5345 können sich vom AMD-System nicht absetzen. Der Intel-Server mit den Vierkernmodellen Xeon E5320 und X5355 müssen sich dem Socket-F-System mit den 68-Watt-Opterons sogar geschlagen geben.

Beim Single-Thread-Rendering führt das Socket-F-System sogar mit einem Rating von 2,38 (Opteron 2218) beziehungsweise 2,48 (Opteron 2218HE und 2220) an. Es folgen der Xeon 5160 mit 2,18 sowie der E5345er und X5355er Quad-Core-Xeon mit 1,73. Der „Einsteiger-Quad-Core“ Xeon E5320 bleibt mit einem Rating von 1,39 hinter den Erwartungen zurück. Schlusslicht ist wie gewohnt das Intel-System mit den Xeon-5080-CPUs bei einem Performance/Watt-Rating von 1,00.

Raytracing: POV-Ray 3.7

Das Raytracing-Programm POV-Ray ist ein frei erhältliches Open-Source-Tool zum kreieren von 3D-Grafiken. Der „Persistence of Vision Raytracer“ bietet in der Version 3.7 Beta 14 ein optimiertes Thread-Handling an. Die 32-Bit-Beta-Version wartet außerdem mit einer SSE2-optimierten Rendering-Engine auf.

Raytracing mit 1 Thread: Intels Xeon 5160 setzt sich aufgrund seiner höheren Taktfrequenz vom 2,66-GHz-Quad-Core-Xeon ab. Der Open-Source-Raytracer arbeitet mit dem 3,0-GHz-Woodcrest entsprechend 13 Prozent schneller.

Multi-Thread-Raytracing: Das Xeon-X5355-Doppelpack rendert 11 Prozent mehr Pixel pro Sekunde als zwei Xeon 5160. Alle Intel-Prozessoren sind beim POV-Ray-Workload neben der höheren SSE-Performance zusätzlich durch ihre gegenüber den Opterons größeren L2-Caches im Vorteil.

Performance/Watt: POV-Ray 3.7

Im ersten Diagramm vergleichen wir den maximalen Energieverbrauch (Peak) der Systeme mit den verschiedenen Prozessoren bei POV-Ray 3.7. Beim Rendering sind alle Kerne im Einsatz:

Energieverbrauch: AMDs Socket-F-System mit zwei Opteron 2218HE benötigt 25 Prozent weniger Energie als ein mit Xeon-5160-CPUs ausgestatteter baugleicher Server.

Das folgende Diagramm stellt die erzielte relative Performance pro Watt der Systeme bei POV-Ray 3.7 gegenüber:

Performance pro Watt: Obwohl das Socket-F-System mit Abstand das sparsamste ist, sieht es bei der Performance/Watt-Betrachtung den Intel-Server mit Core-basierenden Xeon-CPUs hinterher.

Beim Rendering mit einem Thread ergeben sich folgende Performance/Watt-Ratings: Xeon 5080 mit 1,00, Xeon E5320 mit 1,37, Opteron 2218 mit 1,66, Xeon E5345 mit 1,72, Xeon X5355 mit 1,76, Opteron 2218HE mit 1,78, Opteron 2220 mit 1,84 und Xeon 5160 mit 2,23.

Datenbank: MySQL 64 Bit singlethreaded

Die Datenbank MySQL liefert seine eigene Benchmark-Suite. Das integrierte sql-bench stresst mit einer Vielzahl an Operationen die Open-Source-Datenbank. Unterschiedliche Datenmanipulationen aus insert, update, delete sowie Zugriffsmessungen via select in Verbindung mit count und distinct laufen gegen die Datenbank. Verbindungsaufbau, Tabellen anlegen, löschen und verändern sind ebenfalls enthalten.

Zum Einsatz kam die in CentOS Linux 4.4 64 Bit enthaltene Datenbank MySQL 4.1.20 in der x86_64-Version. Für den Test der Prozessoren wurden an der Datenbank keine Veränderungen oder Tunings vorgenommen.

Der Benchmark sql-bench von MySQL arbeitet singlethreaded und nutzt somit die Vorteile von Hyper-Threading, Multi-Core oder einem zweiten Prozessor nicht aus.

Auf der Suche: Die 3,0-GHz-Xeons durchforsten die Datenbank am schnellsten. Der 2,66-GHz-Quad-Core-Xeon arbeitet bei 11 Prozent geringer Taktfrequenz bereits 17 Prozent langsamer. Die zusätzlichen „inaktiven“ Kerne bremsen durch zusätzlichen Scheduler-Overhead. Vor allem das „Core-Switching“ des Single-Threads zwischen den Kernen verursacht die geringere Performance.

Datenbank: MySQL 64 Bit multithreaded

Die Open-Source-Datenbank MySQL ist multithreaded ausgelegt. Wie die Datenbank von mehrerer Prozessoren und Technologien wie Multi-Core oder Hyper-Threading profitiert, lässt sich mit SysBench überprüfen. SysBench ist ein modularer multithreaded ausgelegter Benchmark zum Testen von Datenbanken unter intensiver Last.

Bei SysBench lassen sich Parameter wie die Anzahl der Threads oder die Größe der Datenbank festlegen. Für unsere MySQL-Benchmarks verwenden wir eine Datenbank mit 50.000 Einträgen. Bei dieser Größe werden die Festplattenzugriffe und somit das Storage-Subsystem noch nicht zum begrenzenden Faktor.

Wir erhöhen bei den Multithreading-MySQL-Benchmarks die Anzahl der Threads bis auf 64. Hier zeigt sich bei welcher Kombination von Thread-Anzahl und Prozessor MySQL den optimalen Durchsatz erreicht. Ein Thread entspricht dabei den Anfragen eines Clients auf die Datenbank. Damit lässt sich die Aussage treffen, ab wie vielen Clients die Datenbank-/Prozessor-Kombination optimal arbeitet und wann die Performance einbricht.

SysBench gibt als Ergebnis die erzielten Transaktionen der Datenbank pro Sekunde aus.

Schnelle Transaktionen: Die Quad-Core-Xeon-X5355-CPUs bieten bei 16 Threads eine 17 Prozent höhere Datenbank-Performance im Vergleich zu den Dual-Core-Modellen Xeon 5160. Mit zunehmender Thread-Anzahl reduziert sich allerdings der prozentuale Vorsprung der Xeon-X5355-Modelle wieder etwas. Der 1,86-GHz-Vierkerner Xeon E5320 bietet dem 3,0-GHz-Xeon-5160 nur bis 16 Threads Paroli. Die Socket-F-Opterons sowie die NetBurst-Xeons bieten insgesamt in etwa den gleichen Datenbankdurchsatz.

Die CPU-Auslastung bei zwei Xeon E5345 beträgt insgesamt im Maximum zirka 50 Prozent. Auch zwei Xeon 5160 übersteigen die 70-Prozent-Marke kaum. Die Systeme bieten während der Arbeit mit MySQL somit noch Reserven für zusätzliche Threads.

Performance/Watt: MySQL 64 Bit multithreaded

Im ersten Diagramm vergleichen wir den maximalen Energieverbrauch (Peak) der Systeme mit den verschiedenen Prozessoren bei SysBench OLTP mit 16 Threads:

Energieverbrauch: Die Prozessoren arbeiten beim Datenbank-Benchmark nicht „auf Anschlag“. Im Gegensatz zu anderen Multithread-Anwendungen liegt der Energieverbrauch der Systeme deswegen auf einem „niedrigen“ Niveau. Normalerweise genehmigen sich beispielsweise die Intel-Server mit dem Xeon 5160 oder dem E5345 deutlich über 300 Watt. Am sparsamsten gehen wieder die AMD-Server zu Werke.

Das folgende Diagramm stellt die erzielte relative Performance pro Watt der Systeme beim Datenbank-Benchmark gegenüber:

Performance pro Watt: Weil die Prozessoren nur im Teillastbereich arbeiten, können sich die Core-basierenden Xeons nicht in „gewohnter“ Manier absetzen. Besonders der neue Opteron 2218HE setzt sich in diesem Szenario gut in Szene.

Datenbank: MySQL 64 Bit große Workloads

Welchen Einfluss die Prozessoren auf die Performance von MySQL bei sehr großen Datenbanken haben, überprüfen wir mit dem modularen SysBench.

SysBench erlaubt frei wählbare Größen der Datenbank. Für unsere MySQL-Benchmarks verwenden wir eine Datenbank mit 1 und 10 Millionen Einträgen. Bei diesen Größen greift die Datenbank bereits verstärkt auf das Storage-Subsystem zurück. Die Thread-Anzahl legen wir bei den SysBench-1M- und 10M-Tests jeweils auf 16 fest.

1 Millionen Einträge: Bei großen Datenbanken wirken großzügig dimensionierte Caches beschleunigend. In Kombination mit der Quad-Core-Technologie behauptet die 2,33- und 2,66-GHz-Xeon-Doppelpacks ihre Führung. Der Vierkerner Xeon E5320 wird durch seine geringe Taktfrequenz ausgebremst. AMDs Opteron-CPUs sind durch ihren nur 1 MByte großen L2-Cache pro Kern sichtlich im Nachteil.

Bei den 1M-Test wird das Storage-Subsystem schon zum begrenzenden Faktor, es gibt zunehmend Aktivitäten auf der Festplatte. So liegt die CPU-Auslastung bei zwei Xeon E5345 insgesamt nur bei zirka 20 Prozent.

10 Millionen Einträge: An der Reihenfolge der CPUs hat sich nichts geändert. Allerdings minimieren sich die Performance-Unterschiede. Die Festplatte steht bei dieser Datenbankgröße sehr stark unter Last und wird zum Flaschenhals.

Entscheidender als die Prozessor-Performance für mehr Datenbankdurchsatz wird der Einsatz leistungsfähiger Storage-Subsysteme mit Cache-Controllern.

Performance-Vergleich: FSB1066 vs. FSB1333

Intel liefert die Quad-Core-Topmodelle Xeon E5345 2,33 GHz und Xeon X5355 2,66 GHz mit einem 1333 MHz schnellen Prozessorbus aus. Ursprünglich sollten die Quad-Core-Xeons jedoch mit einem FSB1066 produziert werden.

Im tecCHANNEL-Testlabor befindet sich neben dem finalen Xeon X5355 (FSB1333) ein Vorserienmodell des Xeon X5355 mit FSB1066. Diese CPU gibt es nicht im Handel. Allerdings lässt sich mit dem Testsample der Einfluss des FSBs auf die Performance bei Quad-Core-Prozessoren gut demonstrieren.

Bei Applikationen, die überwiegend im Cache der Prozessoren ablaufen, besitzt die FSB-Geschwindigkeit nur einen marginalen Einfluss auf die Performance. Dies überprüfen wir mit der Monte-Carlo-Simulation bei SunGard sowie beim Rendering mit CINEBENCH 9.5. Alle Benchmarks wurden mit deaktivierten Powermanagement-Features durchgeführt.

Performance-Vergleich: Workloads überwiegend im Cache
Prozessor	Xeon X5355	Xeon X5355	Prozentualer Unterschied
Taktfrequenz	2,66 GHz	2,66 GHz	+0 %
FSB	1066 MHz	1333 MHz	+25,0 %
Benchmark
SunGard	255 sec	250 sec	+2,0 %
CINEBENCH Rendering x CPUs	2169 Punkte	2186 Punkte	+0,8 %

Wie Sie der Tabelle entnehmen können, arbeitet der Xeon X5355 mit FSB1066 und FSB1333 bei den Cache-lastigen Applikationen annähernd gleich schnell.

Bei einer speicherlastigen Applikation wie dem Multi-Task-Benchmark SEPCfp_rate_base2000 besitzt die FSB-Taktfrequenz bereits einen entscheidenden Einfluss. Bei der Xeon-5300-Serie müssen sich alle vier Kerne einen FSB teilen. Hier kommt es schnell zu Engpässen, wie folgende Ergebnisse verdeutlichen. Die Benchmarks wurden ebenfalls ohne aktive Powermanagement-Features durchgeführt.

Performance-Vergleich: Workloads überwiegend im Speicher
Prozessor	Xeon X5355	Xeon X5355	Prozentualer Unterschied
Taktfrequenz	2,66 GHz	2,66 GHz	+0 %
FSB	1066 MHz	1333 MHz	+25,0 %
Benchmark
SPECint_rate_base2000	174 Punkte	180 Punkte	+3,4 %
SPECfp_rate_base2000	81,0 Punkte	89,4 Punkte	+10,4 %

Der Xeon X5355 mit 2,66 GHz Taktfrequenz erreicht beim bereits speicherlastigen SPECint_rate_base2000 mit dem schnelleren FSB eine 3,4 Prozent höhere Performance.

Beim sehr speicherlastigen SPECfp_rate_base200 arbeitet der 2,66-GHz-Xeon X5355 mit FSB1333 bereits 10,4 Prozent schneller als die FSB1066-Version. Hier bremst der FSB1066 die Performance deutlich. Mit geringerer Taktfrequenz bietet ein 2,33-GHz-Xeon-E5345 durch den FSB1333 mehr Performance als der 2,66-GHz-X5355 mit FSB1066, wenn eine hohe Bus-Aktivität herrscht.

Untersuchungen von Intel sind zu einem ähnlichen Ergebnis gekommen. Voraussichtlich wird Intel die FSB-Geschwindigkeit bei künftigen Quad-Core-Generationen noch auf 1667 MHz anheben, bevor der Hersteller auf eine neue Bustechnologie umschwenkt.

Energieverbrauch: Minimum & Maximum

Intel spezifiziert die Quad-Core-Xeons E5320 und E5345 wie bereits das Dual-Core-Modell Xeon 5160 mit einem TDP-Wert von 80 Watt. Das Quad-Core-Topmodell Xeon X5355 wird mit einem TDP-Wert von 120 Watt angegeben. Der auf der NetBurst-Architektur basierende Dual-Core-Prozessor Xeon 5080 besitzt dagegen einen TDP-Wert von 130 Watt. Alle Modelle fertigt Intel im 65-nm-Verfahren. Den Opteron 2218, 2218HE und 2220 produziert AMD noch im 90-nm-Verfahren. Den TDP-Wert der Dual-Core-CPU spezifiziert der Hersteller mit 95 (2218), 68 (2218HE) beziehungsweise 95 Watt (2220).

Im folgenden Diagramm vergleichen wir den Systemverbrauch unter Windows Server 2003 R2 x64 im „Leerlauf“ ohne aktivierten Energiesparmodus (Energie-Schemata „Always on“):

Regungslos: Läuft nur der Windows-Desktop ohne CPU-Belastung, so benötigen die neuen Stromspar-Opteron-Modelle 2218HE insgesamt 15 Watt (zirka 7,5 Watt pro CPU) mehr als die Opteron-2218-CPUs. Bei den neuen 2218HE-Prozessoren senkte AMD den TDP-Wert um 27 Watt.

Jetzt sind die Energiesparfunktionen Intel SpeedStep und AMD PowerNow! zum dynamischen Senken von Taktfrequenz und Core-Spannung aktiv (Energie-Schemata „Server Balanced Processor Power and Performance“). Windows befindet sich weiterhin im „Leerlauf“:

Sparfüchse: Aktiviert man bei AMD PowerNow!, so reduziert die Socket-F-Plattform den Energiebedarf um 26 Prozent. Die Opteron-CPUs senken ihre Taktfrequenz dabei auf 1,0 GHz. Bei den Intel-CPUs sinkt der Energiebedarf im Leerlauf mit SpeedStep nur marginal, weil bei den Prozessoren bereits andere Powersave-Technologien (TM2, C1E) greifen. SpeedStep hilf bei den Intel-CPUs Energie zu sparen, wenn die Prozessorauslastung im „mittleren“ Bereich liegt.

Sind die Prozessoren sowie der Speicher unter hoher Last, so steigt der Energiebedarf der Plattformen auf die im Diagramm aufgeführten Werte. Der Test erfolgt bei deaktivierten Powermanagement-Features mit Linpack 2.1.2 unter CentOS Linux 4.4 64 Bit:

Full Power: Unter Volllast benötigt die Intel-Plattform mit dem X5355-Quad-Core-Xeons soviel Energie wie mit den NetBurst-Xeons. Der TDP des Xeon X5355 ist mit 120 Watt „nur“ 10 Watt geringer als beim Xeon 5080. Am sparsamsten ist die Socket-F-Plattform mit den Opteron-2218HE-CPUs. Die neuen 68-Watt-Prozessoren senken den Energiebedarf des Systems um 48 Watt gegenüber den bisherigen Opteron-2218-Modellen mit 95 Watt TDP.

Xeon-Systeme: Performance- & Energievergleich

Den zum Socket-F-Opteron-System baugleichen Xeon-Server stellte uns AMD zur Verfügung. Zur Überprüfung der erreichten Performance-Werte der Xeon-Prozessoren im „AMD-Xeon-Server“ führen wir alle Benchmarks und Energiemessungen zusätzlich mit einem von Intel gelieferten Bensley-Server durch. Das Tower-Gehäuse von Intel ist mit einem anderen Netzteil und einer abweichenden Lüfterkonfiguration ausgestattet. Statt eines Supermicro-Mainboards X7DBE+ arbeitet im Intel-System ein Intel Server Board S5000PSL. Die Details zu den Testsystemen finden Sie im Abschnitt Testkonfiguration.

Performance- und Energievergleich Xeon E5345 in Bensley-Servern
Benchmark	Intel-System [Performance]	AMDs Intel-System [Performance]	Intel-System [Energie]	AMDs Intel-System [Energie]
SPECint_base2000	2321 Punkte	2291 Punkte	256 Watt	267 Watt
SPECint_rate_base2000	171 Punkte	167 Punkte	325 Watt	344 Watt
SPECfp_base2000	2185 Punkte	2193 Punkte	265 Watt	300 Watt
SPECfp_rate_base2000	93,3 Punkte	85,8 Punkte	303 Watt	323 Watt
SunGard	288 sec	285 sec	312 Watt	336 Watt
CINEBENCH Rendering x CPUs	1852 Punkte	1885 Punkte	306 Watt	333 Watt
POV-Ray 3.7 Rendering x CPUs	4042 pps	3992 pps	318 Watt	342 Watt
3ds Max 9 x64 Rendering Scene Underwater	17,7 sec	17,6 sec	306 Watt	330 Watt

Die Ergebnisse zeigen deutlich, dass die Xeon-Prozessoren in beiden Bensley-Servern fast identische Performance-Werte erreichen. Kleine Schwankungen gibt es jeweils in beide Richtungen. Das von AMD zur Verfügung gestellte Intel-System arbeitet somit absolut sauber und problemlos auf dem Niveau des Intel-Testsystems.

Der Energieverbrauch des „AMD-Intel-Systems“ liegt auf einem zirka 20 Watt höherem Niveau im Vergleich zum Testsystem von Intel. Dies kommt durch die doppelte Lüfteranzahl sowie einem anderem Netzteil im „AMD-Intel-System“ zustande.

Um Wirkungsgradschwankungen der verbauten Komponenten auszuschließen, tauschen wir bei den uns von AMD zur Verfügung gestellten Systemen noch die Netzteile und Einschublüfter gegenseitig aus. Unterschiede in den Energieaufnahmen konnten wir bei den anschließenden Messungen bis auf die Messtoleranz nicht feststellen.

Cache/Speicher: 32-Bit-Transfer

Die Cache- und Speicher-Performance der Prozessoren überprüfen wir mit unserem Programm tecMem aus der tecCHANNEL Benchmark Suite Pro unter Windows Server 2003. tecMem misst die effektiv genutzte Speicherbandbreite zwischen der Load-/Store-Unit der CPU und den unterschiedlichen Ebenen der Speicherhierarchie (L1-, L2-Cache und RAM). Die Ergebnisse erlauben eine getrennte Analyse von Load-, Store- und Move-Operationen.

Xeon E5345 „Clovertown“ 2,33 GHz 4-Channel-FB-DIMM DDR2-667 CL5: Die Core-CPU erreicht im Cache 17.384 MByte/s. Aus dem FB-DIMM-Speicher holt der Clovertown bei 32-Bit-Zugriffen 2893 MByte/s heraus. Insgesamt besitzt die CPU zwar 8 MByte L2-Cache, einem Kern stehen jedoch nur 4 MByte Puffer zur Verfügung. Zwei Kerne pro Siliziumplättchen teilen sich den 4 MByte L2-Cache dynamisch.

Opteron 2218 (2,60 GHz) Registered DualDDR2-667 CL5: Bei bis 64 KByte großen Blockzugriffen (L1-Cache) besitzt der Opteron mit 19.584 MByte/s eine höhere Bandbreite als der Xeon. Im 1 MByte fassenden L2-Cache (pro Core) erlaubt die AMD-CPU allerdings nur noch 6658 MByte/s - deutlich weniger als der Xeon. Im DDR2-667-Speicher erreicht der Opteron 280 bei 32-Bit-Zugriffen mit 2760 MByte/s allerdings fast das Niveau des Xeons mit vier FB-DIMM-Channels.

Cache/Speicher: 64-Bit-Transfer

Hier testen wir mit tecMem die Performance mit den 64-Bit-Load und -Store-Kommandos aus dem MMX-Befehlssatz. Die Transferrate ist hier schon deutlich höher als bei den 32-Bit-Kommandos, da die CPU mit jedem Befehl mehr Daten transferieren kann.

Cache/Speicher: 128-Bit-Transfer

Mit den 128-Bit-SSE-Befehlen lässt sich die maximale Cache- und Speicher-Performance ermitteln, die eine CPU erreichen kann.

Xeon E5345 „Clovertown“ 2,33 GHz 4-Channel-FB-DIMM DDR2-667 CL5: Im L1-Cache erreicht die CPU maximal 35.595 MByte/s. In der zweiten Pufferstufe sind es 14.688 MByte/s. Im Speicher liegt die Bandbreite mit 3848 MByte/s über den 32- und 64-Bit-Werten.

Opteron 2218 (2,60 GHz) Registered DualDDR2-667 CL5: Im L1-Cache erreicht die CPU maximal 19.751 MByte/s. In der zweiten Pufferstufe sind es 10.357 MByte/s. Damit ist der Opteron bei 128-Bit-Zugriffen deutlich langsamer als der Xeon. Im Speicher liegt die AMD-Dual-Core-CPU mit 3271 MByte/s ebenfalls hinter dem Xeon.

Fazit

Der effizienteste Quad-Core-Prozessor von Intel bleibt weiterhin das „mittlere“ Modell Xeon E5345 mit 2,33 GHz und 80 Watt TDP. Das ebenfalls mit 80 Watt spezifizierte „Einsteiger-Quad-Core-Modell“ Xeon E5320 mit 1,86 GHz Taktfrequenz und langsameren FSB1066 fällt in der Rechengeschwindigkeit sowie im Performance/Watt-Rating deutlich zurück.

Intels Top-Modell Xeon X5355 mit 2,66 GHz Taktfrequenz beeindruckt dagegen in der Performance bei multithreaded programmierten Anwendungen oder in Multitask-Szenarien noch mehr als der E5345. Allerdings genehmigt sich der X5355 mit 120 Watt TDP auch deutlich mehr Energie.

Bei massiven Workloads mit viel Speicheraktivität sieht es mit der Performance-Skalierung von der Dual- auf die Quad-Core-Technologie allerdings nicht mehr so gut aus. Beispielsweise arbeiten zwei Xeon X5355 beim speicherintensiven SPECfp_rate_base2000 nur noch 16 Prozent schneller als zwei Xeon 5160. Als Bremse fungiert bereits der FSB1333 der Quad-Core-Xeons – alle vier Kerne müssen sich den Bus zum Chipsatz teilen. Darunter leidet auch der „kleine“ Quad-Core-Xeon E5320 mit seinem FSB1066. Der Vierkerner arbeitet bei SPECfp_rate_base2000 bereits 11 Prozent langsamer als die Dual-Core-CPU Xeon 5160. Dennoch erreichen die Konkurrenzprodukte nicht die Performance von Intels kleinem Quad-Core-Xeon.

In der ökonomischen Betrachtung macht AMD mit seinen neuen Energiespar-Opterons Boden gut – insbesondere gegen den Dual-Core-Hauptkonkurrenten Xeon 5160. So ermöglichen die Opteron-2218HE-CPUs mit ihrem TDP-Wert von 68 Watt bei allen Benchmarks mit Abstand das sparsamste System. Im Durchschnitt benötigt der Socket-F-Server unter Last zirka 80 Watt weniger Energie als der Intel-Server. Diese Differenz erreicht AMD auch durch seine in den CPUs integrierten Memory-Controllern sowie den genügsameren Speichermodulen. Intels FB-DIMMs benötigen mit zirka 10 Watt pro Riegel in etwa die doppelte Energie von DDR2-DIMMs.

Doch in der Performance pro Watt arbeitet der Intel-Xeon-E5345-Quad-Core-Server mit einer durchschnittlich 70 Prozent höheren Effizienz, wenn alle Kerne im Einsatz sind. Auch gegenüber den eigenen Dual-Core-Prozessoren Xeon 5160 setzt sich der Bensley-Server mit den Vierkernen ausgestattet mit zirka 40 Prozent mehr Performance pro Watt ab. Ein absolutes Schlusslicht in der Performance/Watt-Betrachtung stellen Intels NetBurst-basierende Xeon-5080-Prozessoren dar.

Erfreulicherweise kostet ein Xeon E5345 mit 851 US-Dollar genauso viel wie das Dual-Core-Topmodell Xeon 5160. Und weil Single-Thread-Anwendungen im Server-/Workstation-Umfeld kaum vorkommen, ist der niedriger getaktete Quad-Core-Xeon dem 5160er Doppelkerner in jedem Fall vorzuziehen. (cvi)

Testplattform Xeon- & Opteron-CPUs

Intels Xeon-Prozessoren testen wir in einem Supermicro-Mainboard mit der Bezeichnung X7DBE+. Das Board setzt auf den Blackford-Chipsatz 5000P für Server. Beide Xeon 5160, E5345 und X5355 arbeiten mit einem 1333 MHz schnellen FSB, die 5080er und E5320er Modelle sind mit einem FSB1066 ausgestattet. Über vier FB-DIMM-Channels steuert der Chipsatz insgesamt acht 1-GByte-Module vom Typ ATP AP28K72S8BHE6S an. Die FB-DIMMs setzen DDR2-667-SDRAMs mit CL5 ein.

Für den Test der Opteron-CPUs 2218, 2218HE und 2220 von AMD verwenden wir ein Tyan Thunder h2000M mit Broadcom-BCM5780-Chipsatz. Über ihren integrierten Memory-Controller greifen die AMD-CPUs auf Dual-Channel-DDR2-667-SDRAM mit CL5 zurück. Die acht verwendeten ATP-1-GByte-Module vom Typ AH28K72L8BHE6S sind gepuffert ausgeführt.

Bei der Grafikkarte setzt das Supermicro- und Tyan-Mainboard auf eine integrierte ATI ES1000. Alle verwendeten Benchmarks sind von der Grafik-Performance unabhängig. Als Betriebssystem verwenden wir Windows Server 2003 R2 x64 sowie SUSE 10.1 und CentOS 4.4 in der 64-Bit-Version.

Beim Storage-Subsystem kommen Western Digitals Enterprise-SATA-Laufwerke Raptor WD360ADFD mit 10.000 U/min zum Einsatz. Als Gehäuse für die AMD- und Intel-Plattform fungiert jeweils ein identisches Tower-Modell von Colfax. Beim Netzteil setzen die Colfax-Gehäuse auf ein Ablecom PWS-702A-1R mit 700 Watt Ausgangsleistung.