Das Kräfteverhältnis zwischen AMD und Intel bei den Servern mit zwei Prozessoren war bis klar geregelt. Intels Mitte März 2010 vorgestellten 6-Core-CPUs der Xeon-5600-Serie führen die Ranglisten sowohl in der Performance als auch Energieeffizienz gegenüber den Opteron-2400-Modellen klar an. Trotz gleicher Kernanzahl sind Intels 32-nm-Xeons mit Taktfrequenzen bis 3,33 GHz, zusätzlichem Hyper-Threading und drei DDR3-1333-Speicher-Channels pro CPU klar im Vorteil.
AMD setzt jetzt mit der neuen Opteron-6100-Serie „Magny-Cours“ zum Gegenschlag an. Durch eine Kernverdoppelung arbeiten die 6100er Prozessoren nun mit zwölf Rechenwerken. Damit besitzt AMD die x86-CPUs, die mit deutlichem Abstand die höchste Kernanzahl aufweisen. Auch Intels in Kürze erwarteter Xeon Nehalem-EX mit 8-Core-Architektur hat hier das Nachsehen – jedenfalls in der Kernanzahl.
Bei Servern sind neben purer Rechenleistung zusätzlich hohe Speicherbandbreiten gefragt. Auch hier weist der Opteron „Magny-Cours“ einiges auf: Vier Speicherkanäle für DDR3-1333-DIMMs sorgen pro CPU für mehr als eine Bandbreitenverdoppelung. Die Vorgängermodelle der Opteron-2400-Serie sind auf zwei DDR2-800-Channels beschränkt. Durch die neue Speichertechnologie mit den verdoppelten Kanälen hat die über viele Jahre beibehaltene Plattformstabilität mit dem Socket F allerdings ausgedient. Die Opteron-6100-Prozessoren nehmen im Steckplatz G34 nebst zugehöriger neuer Plattform „Maranello“ Platz. Hier führt AMD auch Direct Connect Architectur 2.0 ein – mit schnelleren und zusätzlichen HyperTransport-Links.
Im TecChannel-Testlabor überprüfen wir, welches Leistungsvermögen AMDs neue Opteron-6100-Serie bietet. Für die Tests steht uns ein 2-Sockel-Referenzsystem von AMD mit zwei Opteron 6174 zur Verfügung. Die 12-Core-CPUs arbeiten mit 2,2 GHz Taktfrequenz und besitzen mit 80 Watt ACP nur eine geringfügig höhere Energieeinstufung als die zum Vergleich dienenden Opteron 2435 (2,6 GHz / Hexa-Core / 75 Watt ACP). Von Intel stellen wir die Xeon-Serien 5500 (45 nm / Quad-Core) und 5600 (32 nm / Hexa-Core) den AMD-CPUs gegenüber. Alle Prozessoren arbeiten in möglichst identisch ausgestatteten 2-Sockel-Systemen.
Wir überprüfen die Performance der CPUs bei Integer- und Floating-Point-Anwendungen sowie bei Verschlüsselung, Rendering und Simulation. Die Geschwindigkeit bei Java-Applikationen wird ebenso untersucht wie die Energieeffizienz der Zwei-Sockel-Systeme. Außerdem messen wir den Speicherdurchsatz der Server.
Opteron 6100 mit Direct Connect Architecture 2.0
AMD verbaut beim 12-Core-Prozessor Opteron 6100 – Codename „Magny-Cours“ - zwei Siliziumplättchen in einer CPU. Damit rückt AMD vom stets als entscheidenden Vorteil deklarierten nativen Multi-Core-Design ab. Intel verwendete dieses Verfahren zuletzt bei den Quad-Core-CPUs der Xeon-5400-Serie.
Den zwei 6-Core-Dies von „Magny-Cours“ steht jeweils – wie beim Opteron 2400 Istanbul – 6 MByte L3-Cache zur Verfügung. Insgesamt verfügt der 12-Kerne-Prozessor mit seinem Multi-Chip-Design somit über 12 MByte L3-Cache. Unverändert besitzt jeder Kern einen dedizierten 512 KByte fassenden L2-Cache.
AMD positioniert den Opteron 6100 für Server mit zwei und vier Sockeln, die auf hohe Performance pro Watt und Erweiterbarkeit ausgelegt sind. Es gibt somit keine 2000er Serie mehr für 2-Sockel-Systeme und eine 8000er Serie für Server mit 4 oder acht Prozessoren (die Socket-F-CPUs bleiben vorerst weiter im Programm). Die Fertigung von Magny-Cours erfolgt weiterhin mit AMDs 45-nm-Technologie. Der Opteron 6100 basiert weitgehend unverändert auf der K10-Architektur aktueller AMD-CPUs mit 45-nm-Technologie.
Die Opteron-6100-Prozessoren stattet AMD erstmals mit „Direct Connect Architecture 2.0“ aus. Darunter versteht AMD einen integrierten 4-Channel-Speicher-Controller für DDR3-1333-DIMMs. Pro CPU sollen sich damit 12 DIMMs – drei pro Channel - ansteuern lassen, wie AMD angibt. Low-Voltage-DDR3-DIMMs mit 1066 MHz Taktfrequenz und 1,35 statt 1,5 V Betriebsspannung unterstützt der Opteron 6100 ebenfalls. AMD betont, dass der Opteron 6100 auch bei einer DIMM-Vollbestückung eine Speichergeschwindigkeit von 1333 MHz bietet. Die Xeon-5600-Prozessoren schalten beim dritten DIMM pro Channel von 1333 auf 1066 MHz zurück.
Um die Speicherbandbreite in 4-Sockel-Systemen zusätzlich zu erhöhen, stattet AMD die Opteron-6100-CPUs durch „Direct Connect Architecture 2.0“ mit vier statt den maximal drei HyperTransport-Links der Socket-F-Modelle aus. Sind vier Opterons via HyperTransport miteinander verbunden, kann jede CPU auch auf den Speicher jeder benachbarten zusätzlich zugreifen. Statt mit 4,8 GT/s wie bei den Socket-F-Opterons arbeitet der Opteron 6100 dank HyperTransport 3.0 nun mit einer Bandbreite von 6,4 GT/s pro Link..
Sparsam durch C1e und Cool Speed
AMDs Opteron-6100-Serie soll trotz Kernverdoppelung und weiter verwendeter 45-nm-Fertigungstechnologie sparsam im Umgang mit der Energie bleiben. So stuft der Hersteller seine 12-Core-Prozessoren mit einer ACP von 65, 80 und 105 Watt ein. Seine bisherigen Hexa-Core-Modelle der Opteron-2400-Serie bietet AMD mit 40, 55, 75 und ebenfalls 105 Watt ACP an. Statt dem von Intel verwendeten TDP (Thermal Design Power), einem theoretischen Maximalwert, bei dem alle Transistoren der CPU gleichzeitig schalten, verwendet AMD bei der Energieeinstufung den ACP-Wert (Average CPU Power). Hier handelt es sich nach Ansicht des Herstellers um einen realistischen Maximalwert. Der ACP liegt jeweils unterhalb des TDP-Wertes, den es weiterhin für Entwickler gibt.
Neu beim Opteron 6100 ist der Energiesparmodus C1e. Sind alle Prozessoren im Idle-Modus (C1-Status) und AMDs Smart Fetch Technologie hat die L1- und L2-Cache-Inhalte in den L3-Cache geladen (Kerne sind dann abgeschalten), dann der C1e-Schlafmodus aktiv werden. C1e reduziert vom L3-Cache und vom Speicher-Controller die Taktfrequenz und die HyperTransport-Links können in einen Energiesparmodus LS2 gehen. Zusätzlich werden die DRAM-DLLs ausgeschalten und der Chipsatz kann durch den LS2-Mode der HT-Links ebenfalls seine Energieaufnahme reduzieren. Laut AMD reduzieren zwei Opteron 6100 in einem 2-Sockel-System durch den C1e-Mode ihre Energieaufnahme um insgesamt zirka 34 Watt.
Neben den bereits bekannten Energiesparmaßnahmen „PowerNow!“ zum dynamischen Anpassen der Taktfrequenz und Core-Spannung sowie „Smart Fetch“ unterstützt der Opteron 6100 zusätzlich noch die Technologie „Cool Speed“. AMDs Cool Speed reduziert die P-States (Betriebszustand mit definierter Taktfrequenz und Core-Spannung), wenn ein Temperaturlimit erreicht wird. Damit wird die Betriebssicherheit erhöht.
Opteron-6100-Modelle im Überblick
AMD bietet bei der neuen Opteron-6100-Serie zum Start insgesamt fünf 12-Core-Modelle an. Den Einstieg bei den Zwölfkernern markiert der Opteron 6161 HE mit 1,7 GHz Taktfrequenz. Mit „HE“ kennzeichnet AMD Opterons mit 65 Watt ACP. Die Modelle Opteron 6168, 6172 und 6174 arbeiten mit 1,9, 2,1 beziehungsweise 2,2 GHz Taktfrequnez. Alle drei Modelle sind mit 80 Watt ACP eingestuft. Als Topmodell fungiert der Opteron 6176 SE mit einem Arbeitstakt von 2,3 GHz. Das „SE“ steht bei den Opterons für Performance-Varianten mit 105 Watt ACP.
Zusätzlich offeriert AMD seine Opteron-6100-Serie in Varianten mit acht Kernen. Bei diesen Modellen werden zwei Quad-Core-Dies in Prozessorgehäuse gepackt. Wie bei den 12-Core-Modellen besitzen die CPUs einen L3-Cache von 12 MByte. Insgesamt fünf Octa-Core-Modelle vom Opteron 6124 HE (1,8 GHz / 65 Watt) bis zum Opteron 6136 (2,4 GHz / 80 Watt) sind im Angebot.
In der Tabelle finden Sie alle neuen Opteron-6100-Prozessoren mit acht und zwölf Kernen im Überblick:
Prozessor |
Taktfrequenz [GHz] |
Kerne |
L3-Cache |
DIMM-Support |
ACP [Watt] |
---|---|---|---|---|---|
Opteron 6176 SE |
2,3 |
12 |
12 MByte |
Quad Channel DDR3-1333 / LV-DDR3-1066 |
105 |
Opteron 6174 |
2,2 |
12 |
12 MByte |
Quad Channel DDR3-1333 / LV-DDR3-1066 |
80 |
Opteron 6172 |
2,1 |
12 |
12 MByte |
Quad Channel DDR3-1333 / LV-DDR3-1066 |
80 |
Opteron 6168 |
1,9 |
12 |
12 MByte |
Quad Channel DDR3-1333 / LV-DDR3-1066 |
80 |
Opteron 6164 HE |
1,7 |
12 |
12 MByte |
Quad Channel DDR3-1333 / LV-DDR3-1066 |
65 |
Opteron 6136 |
2,4 |
8 |
12 MByte |
Quad Channel DDR3-1333 / LV-DDR3-1066 |
80 |
Opteron 6134 |
2,3 |
8 |
12 MByte |
Quad Channel DDR3-1333 / LV-DDR3-1066 |
80 |
Opteron 6128 |
2,0 |
8 |
12 MByte |
Quad Channel DDR3-1333 / LV-DDR3-1066 |
80 |
Opteron 6128 HE |
2,0 |
8 |
12 MByte |
Quad Channel DDR3-1333 / LV-DDR3-1066 |
65 |
Opteron 6124 HE |
1,8 |
8 |
12 MByte |
Quad Channel DDR3-1333 / LV-DDR3-1066 |
65 |
Neue Plattform mit Socket G34
Abschied nimmt AMD beim Opteron Opteron 6100 „Magny-Cours“ von der Socket-F-Plattform der aktuellen Opterons. Die Opteron-6100-Prozessoren nehmen in der neuen Plattform „Maranello“ Platz. Mit Maranello und den Chipsätzen AMD SR5690/ SR5670 unterstützt AMD dann auch bei den Opterons Hyper-Transport 3.0.
AMD setzt bei der Maranello-Plattform mit dem 8- und 12-Kern-CPUs „Magny-Cours“ auf den neuen Socket G34. Der Steckplatz für die CPUs mit Land Grid Array (LGA) besitzt 1944 Kontaktpins. Die hohe Anzahl von Pins im Vergleich zum Socket F mit 1207 Kontakten ist durch die vier Speicherkanäle sowie den vier HT-Links notwendig. Zusätzlich erweitert AMD mit Maranello die Virtualisierungs-Features. Mit den Chipsätzen AMD SR5690/SR5670 wird die bereits 2006 angekündigte I/O-Virtualisierung IOMMU unterstützt.
Opteron 4100 für 1- und 2-Sockel-Server folgen
Während AMD mit der Opteron-6100-Serie hoch skalierbare und multithreaded optimierte Anwendungen und Einsatzszenarios in Servern mit zwei und vier Sockeln adressiert, fokussiert die im zweiten Quartal 2010 erhältliche Opteron-4100-Serie auf Energieeffizienz und kompakte und kostengünstige Serverstrukturen.
Die mit Codenamen „Lisbon“ bezeichneten Opteron-4100-CPUs sind für den Einsatz in Systemen mit einem oder zwei Sockeln ausgelegt. Diese Prozessoren gibt es mit vier und sechs Kernen. Alle Kerne befinden sich wie bei der Opteron-2300-Serie Shanghai und Opteron-2400-Serie Istanbul auf einem Siliziumplättchen. Neben den für die K10-Architektur typischen 512 KByte L2-Cache pro Kern gibt es bei allen Opteron-4100-Modellen einen Shared L3-Cache mit 6 MByte Fassungsvermögen. Die Kommunikation zur zweiten CPU und zum Chipsatz erledigen beim Opteron 4100 zwei HyperTransport-3.0-Links mit 6,4 GT/s.
Beim Speicher-Controller bleibt es beim Opteron 4100 bei zwei Channels – allerdings ebenfalls für DDR3-1333-DIMMs (4 Stück pro Sockel). Dadurch wird auch bei der Opteron-4100-Serie mit dem Socket C32 ein neuer Steckplatz fällig. Der Steckplatz basiert auf dem Socket F und nutzt ebenfalls 1207 Pins. Als preisgünstige Chipsätze für die neue C32-Plattform „San Marino“ sieht AMD den SR5670 und SR5650 vor. Die Chipsätze unterscheiden sich in erster Linie in der Anzahl der PCIe-Lanes und in der Verlustleistung.
In der Tabelle finden Sie alle neuen Opteron-4100-Prozessoren mit vier und sechs Kernen im Überblick (ACP-Werte hat AMD noch nicht veröffentlicht):
Prozessor |
Taktfrequenz [GHz] |
Kerne |
L3-Cache |
---|---|---|---|
Opteron 4186 |
2,9 |
6 |
6 MByte |
Opteron 4184 |
2,8 |
6 |
6 MByte |
Opteron 4180 |
2,6 |
6 |
6 MByte |
Opteron 4176 HE |
2,4 |
6 |
6 MByte |
Opteron 4174 HE |
2,3 |
6 |
6 MByte |
Opteron 4170 HE |
2,1 |
6 |
6 MByte |
Opteron 4164 EE |
1,8 |
6 |
6 MByte |
Opteron 4162 EE |
1,8 |
6 |
6 MByte |
Opteron 4130 |
2,6 |
4 |
6 MByte |
Opteron 4122 |
2,2 |
4 |
6 MByte |
Multitask Integer: SPECint_rate_base2006
Wir setzen die SPEC-Benchmarks unter Windows Server 2008 Enterprise x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 10.1 und Fortran 10.1 in der 64-Bit-Version sowie MS Visual Studio 2005 .NET für alle Integer-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz. Bei den Integer-Berechnungen von SPECint_rate_base2006 ermittelt die Benchmark-Suite CPU2006 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Integer-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standardsoftware.
Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECint_rate_base2006 der Anzahl der Prozessorkerne des Systems. Beispielsweise arbeiten beim Zwei-Sockel-Server mit Opteron-6174-CPUs 24 Kopien parallel. Beim Westmere-EP-System mit Xeon X5670 und X5680 (Hexa-Core) sind durch das zusätzliche Hyper-Threading 24 virtuelle Kerne vorhanden. Entsprechend laufen auch hier 24 parallele Kopien mit einem Speicherbedarf von 2 GByte RAM pro Kopie.
Intels 10.1-Compiler bieten mit dem Switch -QxO eine offizielle SSE3-Unterstützung für „Non-Intel-Processors“ (erstmals mit Version 10.0). Mit dieser Compiler-Option führten wir die CPU2006-Benchmarks für die Opteron-Prozessoren durch. Bei –QxO wird kein SSE4 verwendet. Zur optimalen Vergleichbarkeit testen wir den Xeon L5520, X5570, X5670 und X5680 ebenfalls mit -QxO. Zusätzlich überprüfen wir bei den Intel-CPUs die Leistungsfähigkeit mit dem Compiler-Flag –fast, der nicht mit den Opterons funktioniert. Hier wählen die Intel-Compiler automatisch die optimale Befehlssatzunterstützung:
Compiler-Option |
-fast (automatisch) |
-QxO (SSE3) |
---|---|---|
Xeon L5520 |
146 |
133 |
Xeon X5570 |
176 |
165 |
Xeon X5670 |
237 |
220 |
Xeon X5680 |
257 |
235 |
Opteron 2435 |
-- |
112 |
Opteron 6174 |
-- |
193 |
Die Xeon-Prozessoren arbeiten mit der Einstellung –fast zirka sieben bis zehn Prozent schneller als mit dem Switch -QxO. Der Opteron 6174 hält sich dennoch vor den Xeon-5500-Modellen, die 5600er Serie zieht jedoch weiter davon.
Multitask Integer: SPECint_rate_2006 optimiert
Unter Einsatz optimierter Compiler und spezieller Mathematik-Bibliotheken lassen sich für die Prozessoren die besten Ganzzahlenwerte für CPU2006 erzielen. Hier holen die Hersteller das Optimum aus ihren Systemen heraus. Jede einzelne Anwendung von CPU2006 wird speziell optimiert. Die folgenden Werte sind offizielle CPU2006-Resultate, die von Server-Herstellern auf SPEC.org gemeldet sind. Die Angaben für den neuen Opteron 6174 sind von AMD und als „estimated“ gekennzeichnet (noch nicht offiziell auf SPEC.org publiziert).
Multitask Floating Point: SPECfp_rate_base2006
Wir setzen die SPEC-Benchmarks unter Windows Server 2008 Enterprise x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 10.1 und Fortran 10.1 in der 64-Bit-Version sowie MS Visual Studio 2005 .NET für alle Floating-Point-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz. Bei den Floating-Point-Berechnungen von SPECfp_rate_base2006 ermittelt die Benchmark-Suite CPU2006 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Floating-Point-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standardsoftware.
Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECfp_rate_base2006 der Anzahl der Prozessorkerne des Systems. Beispielsweise arbeiten beim Zwei-Sockel-Server mit Opteron-6174-CPUs 24 Kopien parallel. Beim Westmere-EP-System mit Xeon X5670 und X5680 (Hexa-Core) sind durch das zusätzliche Hyper-Threading 24 virtuelle Kerne vorhanden. Entsprechend laufen auch hier 24 parallele Kopien mit einem Speicherbedarf von 2 GByte RAM pro Kopie.
Intels 10.1-Compiler bieten mit dem Switch -QxO eine offizielle SSE3-Unterstützung für „Non-Intel-Processors“ (erstmals mit Version 10.0). Mit dieser Compiler-Option führten wir die CPU2006-Benchmarks für die Opteron-Prozessoren durch. Bei –QxO wird kein SSE4 verwendet. Zur optimalen Vergleichbarkeit testen wir den Xeon L5520, X5570, X5670 und X5680 ebenfalls mit -QxO. Zusätzlich überprüfen wir bei den Intel-CPUs die Leistungsfähigkeit mit dem Compiler-Flag –fast, der nicht mit den Opterons funktioniert. Hier wählen die Intel-Compiler automatisch die optimale Befehlssatzunterstützung:
Compiler-Option |
-fast (automatisch) |
-QxO (SSE3) |
---|---|---|
Xeon L5520 |
135 |
131 |
Xeon X5570 |
160 |
154 |
Xeon X5670 |
207 |
171 |
Xeon X5680 |
219 |
176 |
Opteron 2435 |
-- |
108 |
Opteron 6174 |
-- |
196 |
Die Xeon-5600-Prozessoren gewinnen durch die Einstellung -fast und SSE4-Support mit zirka 21 bis 24 Prozent massiv an Performance. Durch für den Opteron optimierten Compiler-Versionen lässt sich aber auch bei den AMD-CPUs eine entsprechende Steigerung erreichen.
Multitask Floating Point: SPECfp_rate_2006 optimiert
Unter Einsatz optimierter Compiler und spezieller Mathematik-Bibliotheken lassen sich für die Prozessoren die besten Fließkommawerte für CPU2006 erzielen. Hier holen die Hersteller das Optimum aus ihren Systemen heraus. Jede einzelne Anwendung von CPU2006 wird speziell optimiert. Die folgenden Werte sind offizielle CPU2006-Resultate, die von Server-Herstellern auf SPEC.org gemeldet sind. Die Angaben für den neuen Opteron 6174 sind von AMD und als „estimated“ gekennzeichnet (noch nicht offiziell auf SPEC.org publiziert).
STREAM: Speicherbandbreite
Der quelloffene STREAM-Benchmark ist ein weit verbreiteter Industriestandardtest zum Messen der möglichen Speicherbandbreite in einem System. Wir verwenden die 64-Bit-Windows-Binary von der University of Virginia. Die OMP-fähige STREAM-Version nutzt alle Kerne der Prozessoren aus, um einen möglichst hohen Speicherdurchsatz zu generieren.
Laut AMD erhöht sich beim Opteron 6100 die Speicherbandbreite um mehr als das Doppelte gegenüber dem Opteron 2400. Der 12-Core-Prozessor besitzt vier Speicher-Channels für DDR3-1333-DIMMs. Die Opteron-2400-Serie muss sich mit zwei DDR2-800-Channels begnügen. Intels Xeon-5500- und Xeon-5600-Serie wartet mit drei DDR3-1333-Channel pro CPU auf.
Java Virtual Machine Performance
Mit SPECjvm2008 stellt die Standard Performance Evaluation Corporation (SPEC) einen Benchmark für die Performance von Systemen unter Java Runtime Environment (JRE) zur Verfügung. Die Evaluierungssoftware zur Ermittlung der Java-Performance wurde von SPEC in Zusammenarbeit mit AMD, Bea, Hewlett-Packard, IBM, Intel und Sun entwickelt.
Für die Performance des Systems in einer Java Virtual Machine zeigen sich neben der Wahl der Java-Engine die Prozessoren sowie die Speicherarchitektur verantwortlich. SPECjvm2008 startet eine JVM und führt einen Multithread-Workload durch. Alle Prozessorkerne eines Systems werden von SPECjvm2008 ausgenutzt.
SPECjvm2008 arbeitet mit einem Base-Run, bei dem keine speziellen Tuning-Maßnahmen durch Flags und Optimierungen erlaubt sind. Damit wird die Java-Performance der Systeme mit der installierten JVM ermittelt. Zehn verschiedene Tests wie Compilieren, Rendering, Verschlüsselung oder Komprimierung werden durchgeführt. Beim Peak-Run lassen sich für jeden Test Optimierungen für die JVM einstellen.
Wir führen SPECjvm2008 im Base-Run unter Windows Server 2008 Enterprise x64 mit der JRE Bea JRockit 6 R27 in der 64-Bit-Version durch:
Maximale Java-Performance
SPECpower_ssj2008 ermittelt neben der Energieeffizienz bei 100 Prozent Prozessorauslastung auch die maximale Java-Performance des Systems. Als Java-Engine unter Windows Server 2008 Enterprise x64 dient Bea JRockit in der 64-Bit-Version 6 R27.
SPECpower_ssj2008 nutzt einen anderen Workload als SPECjvm2008. Außerdem arbeiten bei SPECpower_ssj2008 nicht nur eine JVM, sondern mehrere virtuelle Java-Instanzen. Bei den getesteten Vier-Sockel-Systemen sind zwei JVMs aktiv. Jede JVM agiert multithreaded mit der Anzahl der CPU-Kerne pro Sockel. Bei diesem konfigurierbaren Setup erzielt SPECpower_ssj2008 bei Zwei-Sockel-Systemen die besten Ergebnisse.
Bei diesem Test sind die Energiesparoptionen der Prozessoren aktiv, die erreichbare Performance wird durch die Vollauslastung der CPUs allerdings nicht beeinflusst.
Dass beim Java-Workload von SPECpower hohe Speicher- und Busbandbreiten von Vorteil sind, zeigen auch die Xeon E5472. Trotz nur 3,0 GHz Taktfrequenz überholen die Xeon E5472 hier die 3,33-GHz-Xeon-X5470-CPUs, weil sie mit DDR2-800-Speicher und FSB1600 arbeiten (statt DDR2-667 und FSB1333).
Energieeffizienz: Performance/Watt
Der Gesamtwert von SPECpower_ssj2008 steht für die Energieeffizienz des Systems. Der Benchmark gibt die gemittelte Performance pro Watt an, die über alle Lastzustände von zehn bis 100 Prozent gemessenen werden.
Um die Energiesparoptionen der Prozessoren zu nutzen, arbeitet Windows Server 2008 Enterprise x64 mit dem Energieschema „Ausbalanciert“. SpeedStep (Intel) und PowerNow! (AMD) zum dynamischen Regeln von Taktfrequenz und Core-Spannung je nach CPU-Auslastung sind bei dem SPECpower-Benchmark aktiv.
Im zweiten Diagramm sehen Sie die Werte, wenn bei den Energieoptionen von Windows Server 2008 das Schemata „Höchstleistung“ ausgewählt ist. Die Prozessoren arbeiten immer mit voller Taktfrequenz und Core-Spannung. Die dynamischen Powermanagement-Funktionen SpeedStep (Intel) und PowerNow! (AMD) sind beim Schemata „Höchstleistung“ nicht aktiv.
Im zweiten Diagramm sehen Sie die Auswirkungen des deaktivierten CPU-Powermanagements auf die Energieeffizienz der Systeme.
Maximaler Energieverbrauch
SPECpower_ssj2008 ringt dem Testsystem im Lastzustand 100 Prozent den maximalen Energieverbrauch ab. Alle Kerne der Prozessoren sind voll ausgelastet. Die aktiven JVMs fordern zusätzlich den Arbeitsspeicher der Systeme.
Minimaler Energieverbrauch
SPECpower_ssj2008 führt neben den Lasttests zusätzlich Kalibrierungsmessungen über den Energieverbrauch bei Leerlauf durch. Dabei wird der minimale Energiebedarf des Systems ermittelt.
Im ersten Diagramm vergleichen wir den Systemverbrauch unter Windows Server 2008 Enterprise x64 mit dem Energie-Schemata „Ausbalanciert“. Die Prozessoren nutzen ihre Powermanagement-Features SpeedStep (Intel) und PowerNow! (AMD) aus.
Dann wird bei den Energieoptionen von Windows Server 2008 das Schemata „Höchstleistung“ ausgewählt. Die dynamischen Powermanagement-Funktionen SpeedStep (Intel) und PowerNow! (AMD) sind beim Schemata „Höchstleistung“ nicht aktiv. Die Auswirkungen sehen Sie im zweiten Diagramm.
Analyse: SunGard ACR
SunGards Adaptiv Credit Risk 4.0 ist ein Analysetool für den Finanzbereich. Basierend auf modifizierten Monte-Carlo-Simulationen berechnet das Programm den künftigen Wert einer Anlage auf Basis vorhandener Marktdaten.
SunGards Adaptiv Credit Risk wurde in C# für Microsofts .NET-Umgebung programmiert. Spezielle Mathematik-Bibliotheken wie Intels MKL oder AMDs Core Math Library ACML verwendet Adaptiv Credit Risk nicht. Das Analysetool arbeitet multithreaded und unterstützt Multiprozessor-Systeme optimal. SunGard rechnet überwiegend mit Integer-Operationen. Speicherzugriffe halten sich bei Adaptiv Credit Risk in Grenzen.
Rendering: CINEBENCH 11.5 64 Bit
Mit dem CINEBENCH 11.5 stellt Maxon die aktuelle Version des bekannten Benchmark-Tools bereit. CINEBENCH 11.5 basiert auf Cinema 4D Release 11.5 und führt Rendering-Tests durch. Maxon bietet CINEBENCH 11.5 als 32- und 64-Bit-Version zum Download an. Die Rendering-Engine von Cinemal 4D Release 11.5 unterstützt bis zu 64 Threads.
Beim Render-Test wird eine fotorealistische 3D-Szene mithilfe des Cinema-4D-Raytracers berechnet. Die Testszene enthält über 2000 Objekte mit mehr als 300.000 Polygonen, nutzt scharfe und weiche Spiegelungen, Flächenlichter und -schatten, prozedurale Shader, Kantenglättung und vieles mehr. Bei dem FPU-lastigen Test spielt die Leistungsfähigkeit der Grafikkarte keine Rolle. Auch höhere Speicher- und FSB-Bandbreiten nutzen beim Rendering von CINEBENCH 11.5 wenig – der Test läuft überwiegend in den Cache-Stufen ab.
AMD & Intel: Listenpreise 2-Sockel-CPUs
In der Tabelle finden Sie die Preise der aktuellen Xeon-5500-Prozessoren im Vergleich zu AMDs Opteron-2400-Serie. Bei AMDs Preisliste gab es am 04. November 2009 die letzten Änderungen. Intels Preisliste wurde am 14. März 2010 aktualisiert.
Modell |
Taktfrequenz [GHz] |
Listenpreis [US-Dollar] |
---|---|---|
Intel Xeon-5600-Serie |
||
Xeon X5680 |
3,33 |
1663 |
Xeon X5677 |
3,46 |
1663 |
Xeon X5670 |
2,93 |
1440 |
Xeon X5667 |
3,06 |
1440 |
Xeon X5660 |
2,80 |
1219 |
Xeon X5650 |
2,66 |
996 |
Xeon E5640 |
2,66 |
774 |
Xeon E5630 |
2,53 |
551 |
Xeon E5620 |
2,40 |
387 |
Xeon L5640 |
2,26 |
996 |
Xeon L5630 |
2,13 |
551 |
Xeon L5609 |
1,86 |
440 |
Intel Xeon-5500-Serie |
||
Xeon W5590 |
3,33 |
1600 |
Xeon W5580 |
3,20 |
1600 |
Xeon X5570 |
2,93 |
1386 |
Xeon X5560 |
2,80 |
1172 |
Xeon X5550 |
2,66 |
958 |
Xeon E5540 |
2,53 |
744 |
Xeon E5530 |
2,40 |
530 |
Xeon E5520 |
2,26 |
373 |
Xeon E5506 |
2,13 |
219 |
Xeon E5504 |
2,00 |
224 |
Xeon E5502 |
1,86 |
188 |
Xeon L5530 |
2,40 |
744 |
Xeon L5520 |
2,26 |
530 |
Xeon L5506 |
2,13 |
423 |
AMD Opteron-6100-Serie |
||
Opteron 6176 SE |
2,3 |
1386 |
Opteron 6174 |
2,2 |
1165 |
Opteron 6172 |
2,1 |
989 |
Opteron 6168 |
1,9 |
744 |
Opteron 6164 HE |
1,7 |
744 |
Opteron 6136 |
2,4 |
744 |
Opteron 6134 |
2,3 |
523 |
Opteron 6128 |
2,0 |
266 |
Opteron 6128 HE |
2,0 |
523 |
Opteron 6124 HE |
1,8 |
455 |
AMD Opteron-4100-Serie |
||
Opteron 4186 |
2,9 |
455 |
Opteron 4184 |
2,8 |
316 |
Opteron 4180 |
2,6 |
188 |
Opteron 4176 HE |
2,4 |
377 |
Opteron 4174 HE |
2,3 |
255 |
Opteron 4170 HE |
2,1 |
174 |
Opteron 4164 EE |
1,8 |
698 |
Opteron 4162 EE |
1,8 |
316 |
Opteron 4130 |
2,6 |
125 |
Opteron 4122 |
2,2 |
99 |
AMD Opteron-2400-Serie |
||
Opteron 2439 SE |
2,8 |
1019 |
Opteron 2435 |
2,6 |
989 |
Opteron 2431 |
2,4 |
698 |
Opteron 2427 |
2,2 |
455 |
Opteron 2425 HE |
2,1 |
523 |
Opteron 2423 HE |
2,0 |
455 |
Opteron 2419 EE |
1,8 |
989 |
Fazit
AMD schafft es, bei der neuen Opteron-6100-Serie trotz weiter verwendeter 45-nm-Fertigungstechnologie und fast unverändertem Energiebedarf, die Performance deutlich zu steigern. Mit der Kernverdoppelung auf 12 Cores und gleichzeitiger Reduktion der Taktfrequenz erreicht der getestete Opteron 6174 (2,2 GHz) bei unseren multithread-optimierten Anwendungen und Multitask-Szenarios eine zirka 66 bis 84 Prozent höhere Rechenleistung gegenüber dem Opteron 2435 (2,6 GHz / 6 Core). Der neue Opteron 6174 profitiert natürlich auch erheblich von seiner um den Faktor 2,7 gesteigerten Speicherbandbreite.
Intels ebenfalls in 45-nm-Technologie produzierten Xeon-5500-Modelle kann der Opteron 6174 gut im Zaum halten. Auch die neuen 32-nm-Prozessoren der Xeon-5600-Serie sind nicht mehr meilenweit von den Opterons entfernt. AMD hat natürlich den Nachteil deutlich geringerer Taktfrequenzen gegenüber den Intel-CPUs. Mehr ist jedoch bei den Opteron-6100-Modellen in der 45-nm-Technologie kaum möglich, schließlich soll der wichtige Energiebedarf nicht nach oben schnellen.
Dies führt zu einem weiteren erfreulichen Punkt: Die Energieeffizienz der neuen 2-Sockel-Plattform „Maranello“ für den Opteron 6174 hat sich gegenüber dem Vorgänger nochmals deutlich gesteigert. Selbst die sehr effiziente Xeon-5600-Plattform kann das Opteron-6100-System in unserer Konfiguration überholen. Im Prinzip, werden Netzteilunterschiede noch heraus nivelliert, so liegen beide 2-Sockel-Systeme auf einem Niveau.
Natürlich fehlt dem Opteron noch die Befehlssatzerweiterung AES-NI der Xeon-5600-Prozessoren, die gerade bei Webservern für einen deutlichen Performance-Schub sorgen kann. Die Software-Infrastruktur wird laut Intel schnell Nutzen von der AES-Beschleunigung ziehen. Erst 2011 mit dem 32-nm-Bulldozer-Core gibt es auch beim Opteron in Form des 16-Core-Prozessors „Interlago“ dann die AES-Beschleunigung.
Ab sofort bietet die Opteron-6100-Serie auf jeden Fall Vorteile durch die aggressive Preisgestaltung. Die Preise der 12-Core-Prozessoren liegen auf dem Niveau der bisherigen Hexa-Core-Modellen der Opteron-2400-Serie. Zusätzlich lassen sich die Opteron-6100-Modelle auch in 4-Sockel-Servern verwenden. Im Vergleich zu den bisher notwendigen Opteron-8400-CPUs halbieren sich so die Prozessorpreise. (cvi)
Testsysteme im Detail
AMDs Opteron 6174 „Magny-Cours“ testen wir in einem 2-Sockel-Referenzsystem von AMD. Das Tower-System verwendet das AMD-Referenz-Mainboard Dinar2 mit AMD SR5690-Chipsatz. Jeder Socket-G34-CPU stehen acht DIMM-Steckplätze zur Verfügung (zwei Speicherriegel pro Channel). Jedem Opteron 6174 stehen vier 4-GByte-Registered-DIMMs zur Verfügung. Das System kann somit auf insgesamt 32 GByte RAM zurückgreifen.
Der Opteron 2435 nimmt in einem 4-Sockel-Server Tyan Transport GT26 Platz. Der 1U-Rack-Server verwendet als Mainboard ein Tyan S4987 mit NVIDIA MCP55-Chipsatz. Das System eignet sich für den Betrieb mit zwei oder vier Prozessoren. Jedem Prozessor stehen zwei gepufferte 4-GByte-DIMMs in einer Dual-Channel-Konfiguration zur Verfügung. Insgesamt verfügt der Tyan-Server in der 2-Sockel-Konfiguration über 16 GByte Arbeitsspeicher
AMDs Opteron 2384 „Shanghai“ und 2356 „Barcelona“ testen wir in einem 2-Sockel-Server Supermicro A+ 2021M-UR+B. Der Rack-Server nutzt als Mainboard das Supermicro H8DMU+ mit NVIDIA MCP55Pro-Chipsatz. Jedem Prozessor stehen vier gepufferte 2-GByte-DIMMs in einer Dual-Channel-Konfiguration zur Verfügung. Insgesamt verfügt der Opteron-Server somit über 16 GByte Arbeitsspeicher.
Intels Xeon L5520 und X5570 „Nehalem-EP“ sowie den Xeon X5670 und X5680 „Westmere-EP“ testen wir in einem 2-Sockel-Server Asus RS700-E6/RS4. Der 1U-Server mit der neuen Tylersburg-EP-Plattform besitzt als Mainboard ein Asus Z8PS-D12-1U mit Chipsatz Intel 5520 und ICH10R. Jedem Prozessor steht pro Speicher-Channel ein 4 GByte Registered DIMM vom Typ Qimonda IMHH4GP12A1F1C-13H mit 1333 MHz Taktfrequenz zur Verfügung. Beim Xeon L5520 arbeitet der Speicher mit 1066 MHz. Insgesamt besitzt das System damit 24 GByte Arbeitsspeicher – 12 GByte pro CPU mit drei Channels.
Um die Performance und die Energieeffizienz der Xeon-Nehalem/Westmere-CPUs bestmöglich mit den Xeon-5400- und Opteron-Prozessoren vergleichen zu können, verwenden wir möglichst bauähnliche Server. Die Xeon-5400-CPUs nehmen in einem SuperServer 6025W-NTR+B von Supermicro Platz. Als Mainboard verwendet der Server ein Supermicro X7DWN+ mit Seaburg-Chipsatz. Vier FB-DIMM-Channels steuern insgesamt acht 2-GByte-Module vom Typ Nanya NT2GT72U4NB1BD-2C an. Die FB-DIMMs arbeiten bei der FSB1600-CPU Xeon E5472 mit DDR2-800-SDRAMs mit einem 5-5-5-Timing. Bei den FSB1333-Xeons steuert der Chipsatz den Speicher automatisch mit einer Geschwindigkeit von 667 MHz bei CL5 an.
Um insbesondere für die Energiemessungen gleiche Vorraussetzungen für die AMD- und Intel-Server zu ermöglichen, arbeiten in den Systemen an der SAS/SATA-Backplane jeweils zwei SATA-RAID-Edition-Festplatten von Samsung. Somit lassen sich bestmögliche Vergleiche zwischen den Prozessoren ziehen. Jeder Server bezieht seine Energie aus zwei 700-Watt-Netzteilen (AMD-Shanghai/Barcelona-Server und Intel-Xeon-5400-System) beziehungsweise 770-Watt-Netzteilen (Intel Nehalem-EP- und Westmere-EP-System). Das Testsystem für den Opteron 2435 ist mit einem 1000-Watt-Netzteil ausgestattet, im Opteron-6174-System befindet sich ein 1200-Watt-Netzteil. Bei den Energiemessungen achten wir darauf, möglichst die identische Anzahl von DIMMs zu verwenden.
Als Betriebssystem setzen wir Windows Server 2008 Enterprise x64 ein.