In einem ersten Schlagabtausch setzte sich Intels Quad-Core-Prozessor Xeon E5345 in der Rechengeschwindigkeit klar gegen den Opteron 2218 von AMD durch. Auch in der Performance pro Watt sah die Bilanz für den 95-Watt-Socket-F-Prozessor nicht überragend aus. Intels 2,33-GHz-Quad-Core-CPU mit 80 Watt TDP ging auch hier durchgehend in Führung. Nur dem Dual-Core-Modell Xeon 5160 „Woodcrest“ konnte AMDs Doppelkerner in der Rechenleistung pro Watt teilweise Paroli bieten.
Jetzt bietet AMD seine Dual-Core-Opterons als deutlich sparsamere Modelle an. Damit geht AMD den richtigen Weg, denn Server ziehen massiv mehr Strom. So benötigt die neue 2,6-GHz-Variante Opteron 2218 HE maximal nur noch 68 statt vormals 95 Watt. In der puren Rechenleistung unterscheidet sich der Opteron 2218 HE trotz neuem Core-Steppings erwartungsgemäß kaum von der bisherigen 95-Watt-Version. Und der ebenfalls in unserem Testlabor neue Opteron 2220 mit 2,8 GHz Taktfrequenz konsumiert statt vormals 120 jetzt maximal 95 Watt.
Als Vergleich zu den beiden neuen Energiespar-Opterons dienen die von uns ebenfalls erstmals getesteten Quad-Core-Modelle Xeon E5320 und X5355. Das „Einsteigermodell“ E5320 arbeitet mit 1,86 GHz Taktfrequenz und einer auf 1066 MHz reduzierten FSB-Geschwindigkeit. Den TDP-Wert spezifiziert Intel wie beim 2,33-GHz-Modell E5345 mit 80 Watt. Deutlich mehr genehmigt sich das Quad-Core-Topmodell Xeon X5355 mit 2,66 GHz und FSB1333. Die CPU-Kühler müssen bei diesem Prozessor für 120 Watt spezifiziert sein.
Interessant und mit einigen Überraschungen fallen in unserem Vergleichstest die Ergebnisse Performance pro Watt aus.
Details zum Dual-Core-Opteron „Santa Rosa“
Als bisherige Topmodelle von AMDs Server- und Workstations-CPUs fungierten der Opteron 1220 SE, 2220 SE und 8220 SE. Für höchste Performance steht die zusätzliche Modellbezeichnung „SE“. Diese SE-Opterons sind mit 120 (2220 SE und 8220 SE, Socket F) beziehungsweise 125 Watt TDP (1220 SE, Socket AM2) spezifiziert.
Bei diesen drei Opteron-Prozessoren senkt AMD den TDP-Wert nun auf 95 Watt. Die Dual-Core-CPUs erhalten die Bezeichnungen Opteron 1220, 2220 und 8220 – der Zusatz „SE“ entfällt. AMDs x220-Modelle arbeiten unverändert mit 2,8 GHz Taktfrequenz. Auch die Fertigung erfolgt weiterhin im 90-nm-Verfahren.
Den mit 2,6 GHz Taktfrequenz arbeitenden Opterons 1218, 2218 und 8218 spendiert AMD ebenfalls eine Auffrischung. Als neue Bezeichnung erhalten die CPUs nun den Zusatz „HE“. Statt 95 (Opteron 2218 und 8218) beziehungsweise 103 Watt TDP (Opteron 1218) sind die neuen HE-Varianten nunmehr mit 68 (2218 HE und 8218 HE) sowie 65 Watt TDP (1218 HE) spezifiziert. „HE“ kennzeichnet die neuen sparsameren 2,6-GHz-Opterons. Auch hier erfolgt die Fertigung weiterhin mit 90 nm Strukturbreite.
Alle Dual-Core-Opterons für den Socket F und AM2 besitzen einen 1 MByte großen L2-Cache pro Core. Ein integrierter L3-Cache steht erst Mitte 2007 mit den dann erwarteten Quad-Core-Modellen auf der Roadmap. AMD bietet seine neue Opteron-Generation mit Taktfrequenzen von 1,8 bis 2,8 GHz an – in Schritten von 200 MHz.
Zu den Features der Socket-F- und Socket-AM2-Dual-Core-Opterons zählt AMDs Virtualisierungstechnologie Pacifica. Mit der „Secure Virtual Machine Architecture“, so der richtige Name, geht AMD neben der CPU-Virtualisierung noch einen Schritt weiter. Denn im Prozessor integrierte Trusted-Computing-Features sorgen zusätzlich für mehr Security. Außerdem virtualisiert Pacifica den Speicher-Controller.
Zum Stromsparen beherrschen alle DDR2-Opterons weiterhin das PowerNow!-Verfahren zum dynamischen Senken von Taktfrequenz und Core-Spannung. Der HyperTransport-Bus arbeitet unverändert zu den bisherigen Modellen mit 1-GHz-Tatkfrequenz.
Details zum Quad-Core-Xeon „Clovertown“
Intels Xeon-5300-Serie „Clovertown“ für Server und Workstations mit zwei Prozessorsockeln basiert auf der Core-Mikroarchitektur in 65-nm-Bauweise. Die Quad-Core-Prozessoren setzen sich aus zwei Siliziumplättchen der Marke „Woodcrest“ in einem Multi-Chip-Verfahren zusammen. Beide Dies nehmen in einem Gehäuse Platz und sind über einen gemeinsamen Prozessorbus verbunden. Entsprechend verfügt Clovertown über insgesamt 8 MByte L2-Cache. Jeweils zwei Kerne pro Die nutzen 4 MByte gemeinsam.
Beim Xeon „Clovertown“ führt Intel die 5300er Prozessornummern ein. Als Topmodell fungiert der Xeon X5355 mit 2,66 GHz Taktfrequenz. Zusätzlich bietet Intel die Modelle E5310 (1,60 GHz), E5320 (1,86 GHz) und E5345 (2,33 GHz) an. Unterschiede finden sich beim Prozessorbus: Der Xeon E5310 und E5320 besitzen einen FSB1066, die schnelleren Clovertowns arbeiten mit einem FSB1333.
Die Xeon-5300-CPUs nehmen wie die 5000er Dempseys und 5100er Woodcrests in der Bensley-/Glidewell-Plattform im LGA771-Sockel Platz. Während ein Xeon 5160 mit 3,0 GHz Taktfrequenz und Dual-Core-Technologie mit 80 Watt TDP spezifiziert ist, benötigt das Quad-Core-Topmodell im Extremfall 120 Watt. Die mit 1,60, 1,86 und 2,33 GHz Taktfrequenz arbeitenden Clovertowns begnügen sich jedoch mit 80 Watt TDP.
Intels Xeon-5300-Serie beherrscht die 64-Bit-Erweiterung EM64T ebenso wie den VT-x-Befehlssatz der Vanderpool-Technologie für die Virtualisierung der CPU. Ein Standard-Feature bei der Xeon-5300-Serie ist auch die XD-Technologie für erweiterten Schutz vor Viren und Buffer Overflows. SpeedStep zum dynamischen Senken der Taktfrequenz und der Kernspannung zählt ebenfalls zum Repertoire der Clovertown-CPUs. Der von tecCHANNEL getestete Xeon E5345 senkt seine Taktfrequenz beispielsweise von 2,33 auf 2,0 GHz.
Alle Details über die Core-Architektur des Xeon „Clovertown“ finden Sie bei tecCHANNEL im Artikel Wechsel an der Spitze: Intels neue Core Prozessoren. Ausführliche Informationen über die Xeon-5300-Plattformen erhalten Sie im Artikel Alles neu: Intels Xeon-Plattform Bensley & Glidewell.
Testvorbetrachtung
Alle getesteten Prozessoren arbeiten in baugleichen Server-Gehäusen von Colfax. Architekturbedingt unterscheiden sich nur das Mainboard sowie der Speicher. Die übrigen Komponenten wie Lüfter, Netzteil und Storage sind identisch. Um auch beim Arbeitsspeicher möglichst gleiche Vorraussetzungen zu erreichen, kommen jeweils acht 1-GByte-DIMMs mit DDR2-667-SDRAM zum Einsatz. Das AMD-System benötigt dabei Registered DIMMs, Intels Prozessoren arbeiten mit FB-DIMMs zusammen. Weitere Details zu den Testsystemen finden Sie im Abschnitt „Testplattform Xeon- & Opteron-CPUs“ am Ende des Artikels.
Während aller Benchmarks kontrollieren wir den Energieverbrauch der Systeme. Damit lassen sich Aussagen über die Energieeffizienz der CPUs sowie den zugehörigen Plattformen treffen. Die Powermanagement-Features wie PowerNow! bei AMD und SpeedStep bei Intel sind praxisnah bei allen Messungen aktiviert.
Beim Betriebssystem Windows Server 2003 R2 x64 ist das Energieschemata „Server Balanced Processor Power and Performance“ eingestellt. Hier wird den CPUs das dynamische Regeln der Taktfrequenz/Core-Spannung gestattet. Bei den Linux-Betriebssystemen CentOS 4.4 und SUSE 10.1 ist ebenfalls das dynamische Regeln in den Energiespar-Optionen eingestellt.
Singlethread: SPECint_base2000
Wir setzen die SPEC-Benchmarks unter Windows Server 2003 R2 x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 9.1 und Fortran 9.1 in der 32-Bit-Version und MS Visual Studio 2005 .NET für alle Integer-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz.
Der SPECint_base2000-Benchmark arbeitet singlethreaded und nutzt die Vorteile von Hyper-Threading und der Dual- sowie Quad-Core-Technologie nicht. Die ermittelten Werte gelten als Indiz für die Integer-Performance der Prozessoren. Die Energiespar-Features der CPUs wie PowerNow! oder SpeedStep sind aktiviert.
In der Tabelle finden Sie die Einzelergebnisse des SPEC-CPU2000-Integer-Benchmarks der wichtigsten Prozessoren im Vergleich:
Prozessor |
Opteron 2218HE |
Opteron 2220 |
Xeon E5320 |
Xeon X5355 |
---|---|---|---|---|
Taktfrequenz |
2,6 GHz |
2,8 GHz |
1,86 GHz |
2,66 GHz |
Sockel |
S1207 |
S1207 |
LGA771 |
LGA771 |
Core |
Santa Rosa |
Santa Rosa |
Clovertown |
Clovertown |
Speichertyp |
Reg. DDR2-667 CL5 |
Reg. DDR2-667 CL5 |
FB-DDR2-667 CL5 |
FB-DDR2-667 CL5 |
Chipsatz |
ServerWorks HT2000 |
ServerWorks HT2000 |
Intel 5000P |
Intel 5000P |
Compiler |
-QxW |
-QxW |
-fast |
-fast |
Test |
||||
164.gzip |
1392 |
1501 |
1149 |
1629 |
175.vpr |
1272 |
1374 |
1412 |
1963 |
176.gcc |
1377 |
1482 |
2075 |
2657 |
181.mcf |
775 |
836 |
3062 |
4156 |
186.crafty |
1980 |
2131 |
1714 |
2448 |
197.parser |
1491 |
1589 |
1443 |
2046 |
252.eon |
2315 |
2500 |
2424 |
3451 |
253.perlbmk |
1913 |
2044 |
2076 |
2910 |
254.gap |
1876 |
2012 |
1879 |
2620 |
255.vortex |
2448 |
2551 |
2934 |
4068 |
256.bzip2 |
1331 |
1433 |
1445 |
2040 |
300.twolf |
1553 |
1686 |
2143 |
3052 |
Gesamt |
1576 |
1691 |
1898 |
2646 |
Performance/Watt: SPECint_base2000
Im ersten Diagramm vergleichen wir den maximalen Energieverbrauch (Peak) der Systeme mit den verschiedenen Prozessoren bei SPECint_base2000:
Das folgende Diagramm stellt die erzielte relative Performance pro Watt der Systeme bei SPECint_base2000 gegenüber:
Multitask: SPECint_rate_base2000
Bei den Integer-Berechnungen von SPECint_rate_base2000 ermittelt die Benchmark-Suite CPU2000 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Integer-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standard-Software.
Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECint_rate_base2000 der Anzahl der - virtuellen - Prozessoren des Systems. Die Energiespar-Features der CPUs wie PowerNow! oder SpeedStep sind aktiviert.
Performance/Watt: SPECint_rate_base2000
Im ersten Diagramm vergleichen wir den maximalen Energieverbrauch (Peak) der Systeme mit den verschiedenen Prozessoren bei SPECint_rate_base2000:
Das folgende Diagramm stellt die erzielte relative Performance pro Watt der Systeme bei SPECint_rate_base2000 gegenüber:
Optimierte Herstellerangaben: SPECint_rate_base2000
Die Prozessorhersteller sowie die Anbieter von Servern und Workstations veröffentlichen auf der SPEC-Website ihre eigenen, hoch optimierten Ergebnisse des CPU2000-Benchmarks. Dabei sind teilweise mehrere Compiler sowie spezielle, auf die CPUs abgestimmte Bibliotheken im Einsatz.
Die SPECint_rate_base2000-Werte der Hersteller zeigen die maximale Integer-Leistungsfähigkeit der Prozessoren in einer Multitask-Umgebung unter Windows Server 2003.
Singlethread: SPECfp_base2000
Wir setzen die SPEC-Benchmarks unter Windows Server R2 2003 x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 9.1 und MS Visual Studio 2005 .NET sowie Intel Fortran 9.1 für alle Fließkommatests. Bei den AMD-Prozessoren testen wir die Floating-Point-Performance zusätzlich mit den PGI-6.2-Compilern. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz.
Der SPECfp_base2000-Benchmark arbeitet singlethreaded und nutzt die Vorteile von Hyper-Threading und der Dual- sowie Quad-Core-Technologie nicht. Die ermittelten Werte gelten als Indiz für die Floating-Point-Performance der Prozessoren. Die Energiespar-Features der CPUs wie PowerNow! oder SpeedStep sind aktiviert.
In der Tabelle finden Sie die Einzelergebnisse des SPEC-CPU2000-Floating-Point-Benchmarks der wichtigsten Prozessoren im Vergleich:
Prozessor |
Opteron 2218HE |
Opteron 2220 |
Xeon E5320 |
Xeon X5355 |
---|---|---|---|---|
Taktfrequenz |
2,6 GHz |
2,8 GHz |
1,86 GHz |
2,66 GHz |
Sockel |
S1207 |
S1207 |
LGA771 |
LGA771 |
Core |
Santa Rosa |
Santa Rosa |
Clovertown |
Clovertown |
Speichertyp |
Reg. DDR2-667 CL5 |
Reg. DDR2-667 CL5 |
FB-DDR2-667 CL5 |
FB-DDR2-667 CL5 |
Chipsatz |
ServerWorks HT2000 |
ServerWorks HT2000 |
Intel 5000P |
Intel 5000P |
Compiler |
-fastsse |
-fastsse |
-fast |
-fast |
Test |
||||
168.wupwise |
2477 |
2733 |
2780 |
3686 |
171.swim |
2575 |
1949 |
1986 |
2496 |
172.mgrid |
1575 |
1660 |
1188 |
1628 |
173.applu |
1295 |
1402 |
1510 |
1986 |
177.mesa |
1239 |
1342 |
1739 |
2442 |
178.galgel |
2777 |
2911 |
4461 |
6350 |
179.art |
1397 |
1476 |
6437 |
9163 |
183.equake |
1515 |
1611 |
1728 |
2222 |
187.facerec |
1816 |
1926 |
1734 |
2388 |
188.ammp |
1122 |
1185 |
1364 |
1922 |
189.lucas |
1814 |
1835 |
1525 |
1963 |
191.fma3d |
1525 |
1621 |
1355 |
1837 |
200.sixtrack |
754 |
810 |
749 |
1069 |
301.apsi |
1540 |
1438 |
1167 |
1541 |
Gesamt |
1583 |
1627 |
1797 |
2434 |
Performance/Watt: SPECfp_base2000
Im ersten Diagramm vergleichen wir den maximalen Energieverbrauch (Peak) der Systeme mit den verschiedenen Prozessoren bei SPECfp_base2000:
Das folgende Diagramm stellt die erzielte relative Performance pro Watt der Systeme bei SPECfp_base2000 gegenüber:
Multitask: SPECfp_rate_base2000
Bei den Floating-Point-Berechnungen von SPECfp_rate_base2000 ermittelt die Benchmark-Suite CPU2000 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Integer-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standard-Software.
Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECfp_rate_base2000 der Anzahl der - virtuellen - Prozessoren des Systems. Die Energiespar-Features der CPUs wie PowerNow! oder SpeedStep sind aktiviert.
Performance/Watt: SPECfp_rate_base2000
Im ersten Diagramm vergleichen wir den maximalen Energieverbrauch (Peak) der Systeme mit den verschiedenen Prozessoren bei SPECfp_rate_base2000:
Das folgende Diagramm stellt die erzielte relative Performance pro Watt der Systeme bei SPECfp_rate_base2000 gegenüber:
Optimierte Herstellerangaben: SPECfp_rate_base2000
Die Prozessorhersteller sowie die Anbieter von Servern und Workstations veröffentlichen auf SPEC.org ihre eigenen, hoch optimierten Ergebnisse des CPU2000-Benchmarks. Dabei sind teilweise mehrere Compiler sowie spezielle, auf die CPUs abgestimmte Bibliotheken wie AMDs Core Math Library ACML oder Microquills SmartHeap Library im Einsatz.
Die SPECfp_rate_base2000-Werte der Hersteller zeigen die maximale Floating-Point-Leistungsfähigkeit der Prozessoren in einer Multitask-Umgebung unter Windows Server 2003.
Integer: SysBench CPU 64 Bit
Die modulare Benchmark-Suite SysBench für Linux ist multithreaded konzipiert. Neben dem Test von Datenbanken eignet sich SysBench zur Überprüfung der Integer-Performance der Prozessoren, des Speicherdurchsatzes oder der Scheduler-Performance des Betriebssystems.
Beim CPU-Test von SysBench berechnet der Benchmark die Primzahlen bis zu einer wählbaren Obergrenze. In unserem Fall lassen wir alle Primzahlen bis 1.000.000 berechnen. Als Ergebnis übergibt SysBench die benötigte Zeit. Die Berechnung der Primzahlen erfolgt mit 64-Bit-Integer-Operationen unter SUSE Linux 10.1 64 Bit.
Die Thread-Anzahl ist beim CPU-Test von SysBench konfigurierbar. Wir führen den Benchmark mit einem und acht Threads durch. Damit wird der Vorteil sichtbar, den Hyper-Threading, Dual-Core oder ein zweiter Prozessor erwirken. Die Anzahl der Threads sollte bei diesem Test mindestens die Anzahl der – virtuellen – Cores besitzen. Mehr Threads als – virtuelle - Kerne bieten keine höhere Performance.
Performance/Watt: SysBench 64 Bit
Im ersten Diagramm vergleichen wir den maximalen Energieverbrauch (Peak) der Systeme mit den verschiedenen Prozessoren bei SysBench mit 8 Threads:
Das folgende Diagramm stellt die erzielte relative Performance pro Watt der Systeme bei der Primzahlenberechnung gegenüber:
Floating Point: Linpack 64 Bit
Linpack dient als verbreitetes Tool zum Ermitteln der Floating-Point-Performance von Highend-Computern. Das Ergebnis wird in Flops (Fließkomma-Operationen pro Sekunde) angegeben.
Linpack löst komplexe lineare Gleichungssysteme. Die Anzahl der Gleichungen lässt sich dabei stark erhöhen, um auch massiv parallel operierende Systeme unter Last zu setzen. Der Bedarf an Arbeitsspeicher wächst entsprechend mit. Die Speicherzuweisung erfolgt über eine Matrix-Berechnung. Size x LDA x 8 (Anzahl der Gleichungen x Input x 8 bit) ergibt den zu allokierenden Speicher.
Unter CentOS Linux 4.4 64 Bit setzen wir die 64-Bit-Version von Linpack 2.1.2 ein. Der SMP-fähige Benchmark setzt EMT64-Prozessoren mit SSE3-Unterstützung voraus. AMDs Opteron-Prozessoren mit SSE3 arbeiten unter Linux mit der von Intel-Compilern erstellten Linpack-Version ebenfalls problemlos zusammen.
Bei unseren Tests löst Linpack in verschiedenen Durchläufen 5000, 10.000, 15.000, 18.000, 22.000 und 27.000 Gleichungssysteme. Damit benötigt der Benchmark zwischen 190 MByte (5000 Gleichungssysteme) und zirka 5,4 GByte Arbeitsspeicher (27.000 Gleichungssysteme). Im Diagramm finden Sie die von den Prozessoren maximal erreichten GFlops.
Alle Prozessoren nutzen bei Linpack 2.1.2 ihre SSE3-Befehlserweiterung aus. Mit einer speziell von Intel für die Core-Prozessoren optimierten Linpack-Version 3.0 erreicht der Xeon E5345 einen Peak-Wert von 53,2 GFlops in unserem Test. Die 3.0er Version nutzt die in der Core-Architektur zusätzlichen 16 Enhanced-SSE3-Befehle aus.
Performance/Watt: Linpack 64 Bit
Im ersten Diagramm vergleichen wir den maximalen Energieverbrauch (Peak) der Systeme mit den verschiedenen Prozessoren bei Linpack:
Das folgende Diagramm stellt die erzielte relative Performance pro Watt der Systeme bei Linpack gegenüber:
Analyse: SunGard ACR
SunGards Adaptiv Credit Risk 3.0 ist ein Analysetool für den Finanzbereich. Basierend auf modifizierten Monte-Carlo-Simulationen berechnet das Programm den künftigen Wert einer Anlage auf Basis vorhandener Marktdaten.
SunGards Adaptiv Credit Risk wurde in C# für Microsofts .NET-Umgebung programmiert. Spezielle Mathematik-Bibliotheken wie Intels MKL oder AMDs Core Math Library ACML verwendet Adaptiv Credit Risk nicht. Das Analysetool arbeitet multithreaded und unterstützt Multiprozessor-Systeme optimal. SunGard rechnet überwiegend mit Integer-Operationen.
Performance/Watt: SunGard ACR
Im ersten Diagramm vergleichen wir den maximalen Energieverbrauch (Peak) der Systeme mit den verschiedenen Prozessoren bei SunGard:
Das folgende Diagramm stellt die erzielte relative Performance pro Watt der Systeme bei SunGard gegenüber:
Rendering: CINEBENCH 9.5 64 Bit
Mit dem CINEBENCH 9.5 stellt Maxon eine 64-Bit-Version des bekannten Benchmark-Tools bereit. CINEBENCH 9.5 basiert auf Cinema 4D Release 9.5 und führt wieder Shading- und Raytracing-Tests durch.
Der Raytracing-Test von CINEBENCH 9.5 überprüft die Render-Leistung des Prozessors. Eine Szene "Daylight" wird mit Hilfe des Cinema-4D-Raytracers berechnet. Sie enthält 35 Lichtquellen, wovon 16 mit Shadowmaps behaftet sind und so genannte weiche Schatten werfen.
Bei dem FPU-lastigen Test spielt die Leistungsfähigkeit der Grafikkarte keine Rolle. Auch höhere Speicher- und FSB-Bandbreiten nutzen beim Rendering von CINEBENCH 9.5 wenig - der Test läuft überwiegend in den ersten beiden Cache-Stufen ab.
Performance/Watt: CINEBENCH 9.5
Im ersten Diagramm vergleichen wir den maximalen Energieverbrauch (Peak) der Systeme mit den verschiedenen Prozessoren bei CINEBENCH. Beim Rendering sind alle Kerne im Einsatz:
Das folgende Diagramm stellt die erzielte relative Performance pro Watt der Systeme bei CINEBENCH gegenüber:
Beim Single-Thread-Rendering führt das Socket-F-System sogar mit einem Rating von 2,38 (Opteron 2218) beziehungsweise 2,48 (Opteron 2218HE und 2220) an. Es folgen der Xeon 5160 mit 2,18 sowie der E5345er und X5355er Quad-Core-Xeon mit 1,73. Der „Einsteiger-Quad-Core“ Xeon E5320 bleibt mit einem Rating von 1,39 hinter den Erwartungen zurück. Schlusslicht ist wie gewohnt das Intel-System mit den Xeon-5080-CPUs bei einem Performance/Watt-Rating von 1,00.
Raytracing: POV-Ray 3.7
Das Raytracing-Programm POV-Ray ist ein frei erhältliches Open-Source-Tool zum kreieren von 3D-Grafiken. Der „Persistence of Vision Raytracer“ bietet in der Version 3.7 Beta 14 ein optimiertes Thread-Handling an. Die 32-Bit-Beta-Version wartet außerdem mit einer SSE2-optimierten Rendering-Engine auf.
Performance/Watt: POV-Ray 3.7
Im ersten Diagramm vergleichen wir den maximalen Energieverbrauch (Peak) der Systeme mit den verschiedenen Prozessoren bei POV-Ray 3.7. Beim Rendering sind alle Kerne im Einsatz:
Das folgende Diagramm stellt die erzielte relative Performance pro Watt der Systeme bei POV-Ray 3.7 gegenüber:
Beim Rendering mit einem Thread ergeben sich folgende Performance/Watt-Ratings: Xeon 5080 mit 1,00, Xeon E5320 mit 1,37, Opteron 2218 mit 1,66, Xeon E5345 mit 1,72, Xeon X5355 mit 1,76, Opteron 2218HE mit 1,78, Opteron 2220 mit 1,84 und Xeon 5160 mit 2,23.
Datenbank: MySQL 64 Bit singlethreaded
Die Datenbank MySQL liefert seine eigene Benchmark-Suite. Das integrierte sql-bench stresst mit einer Vielzahl an Operationen die Open-Source-Datenbank. Unterschiedliche Datenmanipulationen aus insert, update, delete sowie Zugriffsmessungen via select in Verbindung mit count und distinct laufen gegen die Datenbank. Verbindungsaufbau, Tabellen anlegen, löschen und verändern sind ebenfalls enthalten.
Zum Einsatz kam die in CentOS Linux 4.4 64 Bit enthaltene Datenbank MySQL 4.1.20 in der x86_64-Version. Für den Test der Prozessoren wurden an der Datenbank keine Veränderungen oder Tunings vorgenommen.
Der Benchmark sql-bench von MySQL arbeitet singlethreaded und nutzt somit die Vorteile von Hyper-Threading, Multi-Core oder einem zweiten Prozessor nicht aus.
Datenbank: MySQL 64 Bit multithreaded
Die Open-Source-Datenbank MySQL ist multithreaded ausgelegt. Wie die Datenbank von mehrerer Prozessoren und Technologien wie Multi-Core oder Hyper-Threading profitiert, lässt sich mit SysBench überprüfen. SysBench ist ein modularer multithreaded ausgelegter Benchmark zum Testen von Datenbanken unter intensiver Last.
Bei SysBench lassen sich Parameter wie die Anzahl der Threads oder die Größe der Datenbank festlegen. Für unsere MySQL-Benchmarks verwenden wir eine Datenbank mit 50.000 Einträgen. Bei dieser Größe werden die Festplattenzugriffe und somit das Storage-Subsystem noch nicht zum begrenzenden Faktor.
Wir erhöhen bei den Multithreading-MySQL-Benchmarks die Anzahl der Threads bis auf 64. Hier zeigt sich bei welcher Kombination von Thread-Anzahl und Prozessor MySQL den optimalen Durchsatz erreicht. Ein Thread entspricht dabei den Anfragen eines Clients auf die Datenbank. Damit lässt sich die Aussage treffen, ab wie vielen Clients die Datenbank-/Prozessor-Kombination optimal arbeitet und wann die Performance einbricht.
SysBench gibt als Ergebnis die erzielten Transaktionen der Datenbank pro Sekunde aus.
Die CPU-Auslastung bei zwei Xeon E5345 beträgt insgesamt im Maximum zirka 50 Prozent. Auch zwei Xeon 5160 übersteigen die 70-Prozent-Marke kaum. Die Systeme bieten während der Arbeit mit MySQL somit noch Reserven für zusätzliche Threads.
Performance/Watt: MySQL 64 Bit multithreaded
Im ersten Diagramm vergleichen wir den maximalen Energieverbrauch (Peak) der Systeme mit den verschiedenen Prozessoren bei SysBench OLTP mit 16 Threads:
Das folgende Diagramm stellt die erzielte relative Performance pro Watt der Systeme beim Datenbank-Benchmark gegenüber:
Datenbank: MySQL 64 Bit große Workloads
Welchen Einfluss die Prozessoren auf die Performance von MySQL bei sehr großen Datenbanken haben, überprüfen wir mit dem modularen SysBench.
SysBench erlaubt frei wählbare Größen der Datenbank. Für unsere MySQL-Benchmarks verwenden wir eine Datenbank mit 1 und 10 Millionen Einträgen. Bei diesen Größen greift die Datenbank bereits verstärkt auf das Storage-Subsystem zurück. Die Thread-Anzahl legen wir bei den SysBench-1M- und 10M-Tests jeweils auf 16 fest.
Bei den 1M-Test wird das Storage-Subsystem schon zum begrenzenden Faktor, es gibt zunehmend Aktivitäten auf der Festplatte. So liegt die CPU-Auslastung bei zwei Xeon E5345 insgesamt nur bei zirka 20 Prozent.
Entscheidender als die Prozessor-Performance für mehr Datenbankdurchsatz wird der Einsatz leistungsfähiger Storage-Subsysteme mit Cache-Controllern.
Performance-Vergleich: FSB1066 vs. FSB1333
Intel liefert die Quad-Core-Topmodelle Xeon E5345 2,33 GHz und Xeon X5355 2,66 GHz mit einem 1333 MHz schnellen Prozessorbus aus. Ursprünglich sollten die Quad-Core-Xeons jedoch mit einem FSB1066 produziert werden.
Im tecCHANNEL-Testlabor befindet sich neben dem finalen Xeon X5355 (FSB1333) ein Vorserienmodell des Xeon X5355 mit FSB1066. Diese CPU gibt es nicht im Handel. Allerdings lässt sich mit dem Testsample der Einfluss des FSBs auf die Performance bei Quad-Core-Prozessoren gut demonstrieren.
Bei Applikationen, die überwiegend im Cache der Prozessoren ablaufen, besitzt die FSB-Geschwindigkeit nur einen marginalen Einfluss auf die Performance. Dies überprüfen wir mit der Monte-Carlo-Simulation bei SunGard sowie beim Rendering mit CINEBENCH 9.5. Alle Benchmarks wurden mit deaktivierten Powermanagement-Features durchgeführt.
Prozessor |
Xeon X5355 |
Xeon X5355 |
Prozentualer Unterschied |
---|---|---|---|
Taktfrequenz |
2,66 GHz |
2,66 GHz |
+0 % |
FSB |
1066 MHz |
1333 MHz |
+25,0 % |
Benchmark |
|||
SunGard |
255 sec |
250 sec |
+2,0 % |
CINEBENCH Rendering x CPUs |
2169 Punkte |
2186 Punkte |
+0,8 % |
Wie Sie der Tabelle entnehmen können, arbeitet der Xeon X5355 mit FSB1066 und FSB1333 bei den Cache-lastigen Applikationen annähernd gleich schnell.
Bei einer speicherlastigen Applikation wie dem Multi-Task-Benchmark SEPCfp_rate_base2000 besitzt die FSB-Taktfrequenz bereits einen entscheidenden Einfluss. Bei der Xeon-5300-Serie müssen sich alle vier Kerne einen FSB teilen. Hier kommt es schnell zu Engpässen, wie folgende Ergebnisse verdeutlichen. Die Benchmarks wurden ebenfalls ohne aktive Powermanagement-Features durchgeführt.
Prozessor |
Xeon X5355 |
Xeon X5355 |
Prozentualer Unterschied |
---|---|---|---|
Taktfrequenz |
2,66 GHz |
2,66 GHz |
+0 % |
FSB |
1066 MHz |
1333 MHz |
+25,0 % |
Benchmark |
|||
SPECint_rate_base2000 |
174 Punkte |
180 Punkte |
+3,4 % |
SPECfp_rate_base2000 |
81,0 Punkte |
89,4 Punkte |
+10,4 % |
Der Xeon X5355 mit 2,66 GHz Taktfrequenz erreicht beim bereits speicherlastigen SPECint_rate_base2000 mit dem schnelleren FSB eine 3,4 Prozent höhere Performance.
Beim sehr speicherlastigen SPECfp_rate_base200 arbeitet der 2,66-GHz-Xeon X5355 mit FSB1333 bereits 10,4 Prozent schneller als die FSB1066-Version. Hier bremst der FSB1066 die Performance deutlich. Mit geringerer Taktfrequenz bietet ein 2,33-GHz-Xeon-E5345 durch den FSB1333 mehr Performance als der 2,66-GHz-X5355 mit FSB1066, wenn eine hohe Bus-Aktivität herrscht.
Untersuchungen von Intel sind zu einem ähnlichen Ergebnis gekommen. Voraussichtlich wird Intel die FSB-Geschwindigkeit bei künftigen Quad-Core-Generationen noch auf 1667 MHz anheben, bevor der Hersteller auf eine neue Bustechnologie umschwenkt.
Energieverbrauch: Minimum & Maximum
Intel spezifiziert die Quad-Core-Xeons E5320 und E5345 wie bereits das Dual-Core-Modell Xeon 5160 mit einem TDP-Wert von 80 Watt. Das Quad-Core-Topmodell Xeon X5355 wird mit einem TDP-Wert von 120 Watt angegeben. Der auf der NetBurst-Architektur basierende Dual-Core-Prozessor Xeon 5080 besitzt dagegen einen TDP-Wert von 130 Watt. Alle Modelle fertigt Intel im 65-nm-Verfahren. Den Opteron 2218, 2218HE und 2220 produziert AMD noch im 90-nm-Verfahren. Den TDP-Wert der Dual-Core-CPU spezifiziert der Hersteller mit 95 (2218), 68 (2218HE) beziehungsweise 95 Watt (2220).
Im folgenden Diagramm vergleichen wir den Systemverbrauch unter Windows Server 2003 R2 x64 im „Leerlauf“ ohne aktivierten Energiesparmodus (Energie-Schemata „Always on“):
Jetzt sind die Energiesparfunktionen Intel SpeedStep und AMD PowerNow! zum dynamischen Senken von Taktfrequenz und Core-Spannung aktiv (Energie-Schemata „Server Balanced Processor Power and Performance“). Windows befindet sich weiterhin im „Leerlauf“:
Sind die Prozessoren sowie der Speicher unter hoher Last, so steigt der Energiebedarf der Plattformen auf die im Diagramm aufgeführten Werte. Der Test erfolgt bei deaktivierten Powermanagement-Features mit Linpack 2.1.2 unter CentOS Linux 4.4 64 Bit:
Xeon-Systeme: Performance- & Energievergleich
Den zum Socket-F-Opteron-System baugleichen Xeon-Server stellte uns AMD zur Verfügung. Zur Überprüfung der erreichten Performance-Werte der Xeon-Prozessoren im „AMD-Xeon-Server“ führen wir alle Benchmarks und Energiemessungen zusätzlich mit einem von Intel gelieferten Bensley-Server durch. Das Tower-Gehäuse von Intel ist mit einem anderen Netzteil und einer abweichenden Lüfterkonfiguration ausgestattet. Statt eines Supermicro-Mainboards X7DBE+ arbeitet im Intel-System ein Intel Server Board S5000PSL. Die Details zu den Testsystemen finden Sie im Abschnitt Testkonfiguration.
Benchmark |
Intel-System [Performance] |
AMDs Intel-System [Performance] |
Intel-System [Energie] |
AMDs Intel-System [Energie] |
---|---|---|---|---|
SPECint_base2000 |
2321 Punkte |
2291 Punkte |
256 Watt |
267 Watt |
SPECint_rate_base2000 |
171 Punkte |
167 Punkte |
325 Watt |
344 Watt |
SPECfp_base2000 |
2185 Punkte |
2193 Punkte |
265 Watt |
300 Watt |
SPECfp_rate_base2000 |
93,3 Punkte |
85,8 Punkte |
303 Watt |
323 Watt |
SunGard |
288 sec |
285 sec |
312 Watt |
336 Watt |
CINEBENCH Rendering x CPUs |
1852 Punkte |
1885 Punkte |
306 Watt |
333 Watt |
POV-Ray 3.7 Rendering x CPUs |
4042 pps |
3992 pps |
318 Watt |
342 Watt |
3ds Max 9 x64 Rendering Scene Underwater |
17,7 sec |
17,6 sec |
306 Watt |
330 Watt |
Die Ergebnisse zeigen deutlich, dass die Xeon-Prozessoren in beiden Bensley-Servern fast identische Performance-Werte erreichen. Kleine Schwankungen gibt es jeweils in beide Richtungen. Das von AMD zur Verfügung gestellte Intel-System arbeitet somit absolut sauber und problemlos auf dem Niveau des Intel-Testsystems.
Der Energieverbrauch des „AMD-Intel-Systems“ liegt auf einem zirka 20 Watt höherem Niveau im Vergleich zum Testsystem von Intel. Dies kommt durch die doppelte Lüfteranzahl sowie einem anderem Netzteil im „AMD-Intel-System“ zustande.
Um Wirkungsgradschwankungen der verbauten Komponenten auszuschließen, tauschen wir bei den uns von AMD zur Verfügung gestellten Systemen noch die Netzteile und Einschublüfter gegenseitig aus. Unterschiede in den Energieaufnahmen konnten wir bei den anschließenden Messungen bis auf die Messtoleranz nicht feststellen.
Cache/Speicher: 32-Bit-Transfer
Die Cache- und Speicher-Performance der Prozessoren überprüfen wir mit unserem Programm tecMem aus der tecCHANNEL Benchmark Suite Pro unter Windows Server 2003. tecMem misst die effektiv genutzte Speicherbandbreite zwischen der Load-/Store-Unit der CPU und den unterschiedlichen Ebenen der Speicherhierarchie (L1-, L2-Cache und RAM). Die Ergebnisse erlauben eine getrennte Analyse von Load-, Store- und Move-Operationen.
Cache/Speicher: 64-Bit-Transfer
Hier testen wir mit tecMem die Performance mit den 64-Bit-Load und -Store-Kommandos aus dem MMX-Befehlssatz. Die Transferrate ist hier schon deutlich höher als bei den 32-Bit-Kommandos, da die CPU mit jedem Befehl mehr Daten transferieren kann.
Cache/Speicher: 128-Bit-Transfer
Mit den 128-Bit-SSE-Befehlen lässt sich die maximale Cache- und Speicher-Performance ermitteln, die eine CPU erreichen kann.
Fazit
Der effizienteste Quad-Core-Prozessor von Intel bleibt weiterhin das „mittlere“ Modell Xeon E5345 mit 2,33 GHz und 80 Watt TDP. Das ebenfalls mit 80 Watt spezifizierte „Einsteiger-Quad-Core-Modell“ Xeon E5320 mit 1,86 GHz Taktfrequenz und langsameren FSB1066 fällt in der Rechengeschwindigkeit sowie im Performance/Watt-Rating deutlich zurück.
Intels Top-Modell Xeon X5355 mit 2,66 GHz Taktfrequenz beeindruckt dagegen in der Performance bei multithreaded programmierten Anwendungen oder in Multitask-Szenarien noch mehr als der E5345. Allerdings genehmigt sich der X5355 mit 120 Watt TDP auch deutlich mehr Energie.
Bei massiven Workloads mit viel Speicheraktivität sieht es mit der Performance-Skalierung von der Dual- auf die Quad-Core-Technologie allerdings nicht mehr so gut aus. Beispielsweise arbeiten zwei Xeon X5355 beim speicherintensiven SPECfp_rate_base2000 nur noch 16 Prozent schneller als zwei Xeon 5160. Als Bremse fungiert bereits der FSB1333 der Quad-Core-Xeons – alle vier Kerne müssen sich den Bus zum Chipsatz teilen. Darunter leidet auch der „kleine“ Quad-Core-Xeon E5320 mit seinem FSB1066. Der Vierkerner arbeitet bei SPECfp_rate_base2000 bereits 11 Prozent langsamer als die Dual-Core-CPU Xeon 5160. Dennoch erreichen die Konkurrenzprodukte nicht die Performance von Intels kleinem Quad-Core-Xeon.
In der ökonomischen Betrachtung macht AMD mit seinen neuen Energiespar-Opterons Boden gut – insbesondere gegen den Dual-Core-Hauptkonkurrenten Xeon 5160. So ermöglichen die Opteron-2218HE-CPUs mit ihrem TDP-Wert von 68 Watt bei allen Benchmarks mit Abstand das sparsamste System. Im Durchschnitt benötigt der Socket-F-Server unter Last zirka 80 Watt weniger Energie als der Intel-Server. Diese Differenz erreicht AMD auch durch seine in den CPUs integrierten Memory-Controllern sowie den genügsameren Speichermodulen. Intels FB-DIMMs benötigen mit zirka 10 Watt pro Riegel in etwa die doppelte Energie von DDR2-DIMMs.
Doch in der Performance pro Watt arbeitet der Intel-Xeon-E5345-Quad-Core-Server mit einer durchschnittlich 70 Prozent höheren Effizienz, wenn alle Kerne im Einsatz sind. Auch gegenüber den eigenen Dual-Core-Prozessoren Xeon 5160 setzt sich der Bensley-Server mit den Vierkernen ausgestattet mit zirka 40 Prozent mehr Performance pro Watt ab. Ein absolutes Schlusslicht in der Performance/Watt-Betrachtung stellen Intels NetBurst-basierende Xeon-5080-Prozessoren dar.
Erfreulicherweise kostet ein Xeon E5345 mit 851 US-Dollar genauso viel wie das Dual-Core-Topmodell Xeon 5160. Und weil Single-Thread-Anwendungen im Server-/Workstation-Umfeld kaum vorkommen, ist der niedriger getaktete Quad-Core-Xeon dem 5160er Doppelkerner in jedem Fall vorzuziehen. (cvi)
Testplattform Xeon- & Opteron-CPUs
Intels Xeon-Prozessoren testen wir in einem Supermicro-Mainboard mit der Bezeichnung X7DBE+. Das Board setzt auf den Blackford-Chipsatz 5000P für Server. Beide Xeon 5160, E5345 und X5355 arbeiten mit einem 1333 MHz schnellen FSB, die 5080er und E5320er Modelle sind mit einem FSB1066 ausgestattet. Über vier FB-DIMM-Channels steuert der Chipsatz insgesamt acht 1-GByte-Module vom Typ ATP AP28K72S8BHE6S an. Die FB-DIMMs setzen DDR2-667-SDRAMs mit CL5 ein.
Für den Test der Opteron-CPUs 2218, 2218HE und 2220 von AMD verwenden wir ein Tyan Thunder h2000M mit Broadcom-BCM5780-Chipsatz. Über ihren integrierten Memory-Controller greifen die AMD-CPUs auf Dual-Channel-DDR2-667-SDRAM mit CL5 zurück. Die acht verwendeten ATP-1-GByte-Module vom Typ AH28K72L8BHE6S sind gepuffert ausgeführt.
Bei der Grafikkarte setzt das Supermicro- und Tyan-Mainboard auf eine integrierte ATI ES1000. Alle verwendeten Benchmarks sind von der Grafik-Performance unabhängig. Als Betriebssystem verwenden wir Windows Server 2003 R2 x64 sowie SUSE 10.1 und CentOS 4.4 in der 64-Bit-Version.
Beim Storage-Subsystem kommen Western Digitals Enterprise-SATA-Laufwerke Raptor WD360ADFD mit 10.000 U/min zum Einsatz. Als Gehäuse für die AMD- und Intel-Plattform fungiert jeweils ein identisches Tower-Modell von Colfax. Beim Netzteil setzen die Colfax-Gehäuse auf ein Ablecom PWS-702A-1R mit 700 Watt Ausgangsleistung.