Effizienz deutlich gesteigert

CPU-Test: AMD 6-Core-Opteron 2435 und 8435

01.06.2009 von Christian Vilsbeck

AMD stellt mit den neuen Opteron-Serien 2400 und 8400 seine ersten 6-Core-Prozessoren vor. Die Server-CPUs mit Code-Namen Istanbul bleiben kompatibel zum Socket F und fordern mit hoher Energieeffizienz Intels Xeon-5500-Serie „Nehalem EP“ und den Xeon X7460 mit sechs Kernen heraus.

Nicht umsonst agiert AMDs Opteron in der Domäne von Systemen mit zwei und mehr x86-Prozessoren seit Jahren äußerst konkurrenzfähig gegen Intel: Durch integrierte Speicher-Controller und flexible und schnelle Interconnects zwischen den CPUs erwirkt AMDs Direct Connect Architecture in Mehrwegesystemen entscheidende Vorteile.

In Servern mit zwei Prozessoren befindet sich Intel seit März 2009 mit der Xeon-5500-Serie mit ähnlichem Konzept auf der Überholspur. Statt klassischer FSB/Chipsatz-Kombination setzen die Xeons mit Nehalem-Architektur auf drei integrierte DDR3-Speicher-Controller und das serielle QuickPath-Interface. Zusätzlich verfügen die Quad-Core-CPUs über Hyper-Threading – pro Xeon 5500 sind acht parallele Threads möglich. Die Performance und Energieeffizienz setzt Maßstäbe.

Bildergalerie: AMD Opteron Istanbul.

AMDs Opteron 2435 und 8435 (im Bild) mit Code-Namen Istanbul wird im 45-nm-Verfahren gefertigt.

AMD vereint beim Opteron Istanbul alle sechs Kerne auf einem Siliziumplättchen.

Der Preisaufschlag für die Hexa-Core-Serien 2400 und 8400 gegenüber den Quad-Core-Opterons hält sich in Grenzen.

Seit März 2010 gibt es den Istanbul-Nachfolger Opteron 6100 Magny-Cours mit zwölf Kernen.

Als Testplattform für den Opteron 2435 und 8435 dient der 4-Sockel-Server Tyan Transport GT26. Der 1U-Rackserver ist für den Betrieb mit zwei oder vier Socket-F-Opterons ausgelegt.

Jedem Opteron stehen bis zu acht DIMM-Steckplätze zur Verfügung.

Grund genug für AMD, seine Quad-Core-Prozessoren Opteron Shanghai der Serien 2300 und 8300 kräftig aufzubohren. Als Nachfolger gibt es jetzt die neuen Opteron-Serien 2400 (2-Sockel-Systeme) und 8400 (4- und 8-Sockel-Systeme). Die Opterons mit Code-Namen „Istanbul“ sind AMDs erste Prozessoren mit sechs Kernen. Als Besonderheit arbeiten die 6-Core-Opterons weiterhin in AMDs aktuellen Plattformen mit Socket F – neue Systeme sind nicht notwendig, ein BIOS-Update genügt. Mit sechs Kernen will AMD besonders die Energieeffizienz des Opterons nochmals erheblich verbessern.

Bildergalerie: Alle Benchmarks des Opteron „Istanbul“ im Überblick.

SPECint_rate_base2006: Die zwei Opteron 2435 (2,6 GHz) mit Hexa-Core bieten 31 Prozent mehr Integer-Performance als zwei Quad-Core-Opteron 2384 (2,7 GHz). Bei identischer Compiler-Einstellung -QxO arbeiten zwei Xeon X5570 aber noch 47 Prozent schneller, mit -fast 56 Prozent. Im Vergleich der 4-Sockel-Systeme liegen die neuen Opteron 8435 acht Prozent vor den Xeon-X7460-Modellen - beide CPUs arbeiten mit Hexa-Cores.

SPECfp_rate_base2006: Bei den sehr speicherintensiven Durchsatztests mit Floating-Point-Programmen ermöglichen zwei Opteron 2435 eine 25 Prozent höhere Performance gegenüber den Opteron-2384-CPUs. Damit bieten zwei 6-Core-Opterons fast die Fließkommaleistung von vier 6-Core-Xeons X7460. Intels Nehalem-basierende Xeon X5570 bleiben aber uneinholbar.

Java Runtime: Durch die Hexa-Core-Technologie arbeiten zwei Opteron 2435 32 Prozent schneller als die 2,7-GHz-Quad-Core-CPUs. Im 4-Sockel-Segment gewinnt AMD gegen die vier Hexa-Core-Xeons X7460. Eine beeindruckende Performance bieten wieder Intels zwei Xeon X5570 mit Nehalem-Architektur.

Java-Performance: Der Workload ist speicherintensiver als bei SPECjvm2008. Die neuen Opteron-2435-CPUs setzen sich deutlich von den 2,7-GHz-Quad-Core-Opterons ab. Das Opteron-2384-Päärchen arbeitet jedoch nur mit DDR2-667-Speicher (Stabilitätsprobleme bei SPECpower durch frühe BIOS-Revision). An die Performance von Intels Xeon-X5570-Duett kommen die zwei 6-Core-Opterons jedoch nicht heran. Bei den 4-Sockel-Servern düpieren die vier Opteron 8435 jedoch die vier Xeon X7460 (ebenfalls Hexa-Cores) geradezu.

Mit Powermanagement: Die zwei neuen Opteron 2435 hieven die Energieeffizienz des AMD-Servers auf das Niveau des Intel-Systems mit zwei Xeon X5570. Mit vier Opteron 8435 setzt sich der Socket-F-Server sogar an die Spitze.

Ohne Powermanagement: Mit inaktivem PowerNow! reduzieren die zwei Opteron 2485 die Systemeffizienz um knapp zwei Prozent. Beim Opteron-2384-System verschlechtert sich ohne PowerNow! die Effizienz noch um knapp drei Prozent. Intels Xeon X5570 senken die Effizienz ohne SpeedStep um knapp zwei Prozent.

Mit Powermanagement: Im Leerlauf arbeiten die zwei Opteron 2435 sowie das Xeon-X5570-Päärchen ähnlich sparsam. Während der Asus-Xeon-Server zwei 770-Watt-Netzteile betreibt, arbeitet im Tyan-Opteron-Server ein 1000-Watt-Netzteil, aber ein 4-Sockel-Mainboard (im Test mit zwei Opteron 2435 oder vier 8435 bestückt). Wird der Tyan-Opteron-Server mit vier 8435er betrieben, so steigt die Leerlaufenergie nur um 44 Watt gegenüber zwei CPUs. In den zusätzlichen 44 Watt ist auch der Energiebedarf für vier zusätzliche 4-GByte-DIMMs enthalten (zwei pro CPU).

Ohne Powermanagement: Im Leerlauf steigt bei den Nehalem-Xeons der Energiebedarf ohne SpeedStep lediglich um 2 Watt. Bei den Opteron-2435-CPUs erhöht sich der Energiebedarf im Leerlauf ohne Powermanagement um 10 Watt.

Verbrauchsarm: Während das AMD-System mit zwei Opteron 2384 im Leerlauf noch 37 Watt mehr als der neue Opteron-2435-Server benötigt, bleibt es unter Volllast 51 Watt genügsamer. Hier macht es sich zum einen bemerkbar, dass die Quad-Core-Opterons die 75-Watt-Spezifikation weniger ausreizen als die neuen Hexa-Core-Opterons. Zusätzlich wirkt sich hier die unterschiedliche Netzteilkonfiguration aus.

Schnelle Vorhersagen: Trotz Hexa-Core-Technologie müssen sich zwei Opteron 2435 den zwei Xeon X5570 deutlich geschlagen geben. Auch im Hexa-Core-Vergleich der 4-Sockel-Systeme arbeiten vier Opteron 8435 etwas langsamer als vier Xeon X7460. Weil sich Speicherzugriffe hier in Grenzen halten, sind alle Xeon-Prozessoren durch ihre hohe Integer-Performance für die Opteron-CPUs nicht in Reichweite.

Überraschung: Die Matrixberechnungen bei Linpack zählen schon immer zu einer Paradedisziplin für Opteron-Prozessoren. Entsprechend setzt sich AMDs neues Hexa-Core-Päärchen deutlich an die Spitze. Intels Xeon X5570 muss sich bereits dem Quad-Core-Opterons geschlagen geben.

RSA-2048 Encryption: Der Test läuft überwiegend im Cache ab. Die neuen 6-Core-Opterons 2435 verschlüsseln 44 Prozent schneller als zwei Opteron 2384. Intels Xeon-X5570-System wird vom Opteron-2435-Päärchen ebenfalls überholt. Auch den Vergleich der 4-Sockel-Systeme gewinnen die vier Hexa-Core-Opterons deutlich gegen die vier Hexa-Core-Xeons.

RSA-2048 Decryption: Auch das Entschlüsseln erledigen die Hexa-Core-Opterons bei 2- und 4-Sockel-Systemen mit dem höchsten Durchsatz.

Szene „Space Flyby“: Der Render-Workload passt überwiegend in die Caches der Prozessoren. Von integrierten Speicher-Controllern profitieren sowohl die Xeon-X5570-CPUs als auch die Opterons hier weniger. Die neuen 6-Core-Opterons 2435 erreichen nur die Performance der Xeon-E5472-Prozessoren (Quad-Core / 3,0 GHz). Intels Nehalem-Xeons bleiben in Führung.

1 Thread: Beim Rendering wird jetzt nur ein Prozessorkern verwendet – Multi-Core nutzt hier nichts. AMDs Opteron-CPUs sind durch ihre geringere Taktfrequenz hier deutlich im Nachteil. Durch die Turbo-Technologie arbeitet der Xeon X5570 mit 3,33 GHz Taktfrequenz.

Alle Threads: Jetzt nutzt CINEBENCH alle verfügbaren Prozessorkerne. AMDs Opteron-2435-Päärchen mit Hexa-Core-Technologie muss sich nur vom Xeon-X5470-Duett geschlagen geben. Die Nehalem-Quad-Core-Xeons profitieren hier stark von Hyper-Threading.

Im TecChannel-Testlabor überprüfen wir die Rechenleistung und die Performance pro Watt der neuen 6-Core-Opterons 2435 und 8435 (jeweils 2,6 GHz / 75 Watt). Als Vergleich für den Opteron 2435 im 2-Sockel-Server dienen möglichst identisch ausgestattete Systeme mit den Vorgängern Opteron 2356 „Barcelona“ (2,3 GHz / 75 Watt) und Opteron 2384 „Shanghai“ (2,7 GHz / 75 Watt). Von Intel tritt der Xeon X5570 „Nehalem-EP“ (2,93 GHz / 95 Watt) sowie die Xeon-5400-Serie an. In Servern mit vier Prozessoren vergleichen wir den neuen Opteron 8435 mit dem Quad-Core-Modell Opteron 8356 „Barcelona“ sowie Intels 6-Core-CPU Xeon X7460.

Wir überprüfen die Performance der CPUs bei Integer- und Floating-Point-Anwendungen sowie bei Verschlüsselung, Rendering und Simulation. Die Geschwindigkeit bei Java-Applikationen wird ebenso untersucht wie die Energieeffizienz der Systeme.

Details zum Opteron 2400 und 8400 „Istanbul“

Bei AMDs Istanbul handelt es sich um einen nativen 6-Core-Prozessor. AMD vereint alle sechs Kerne auf einem 45-nm-Siliziumplättchen. Die Server-CPU verricht in aktuellen Socket-F-Plattformen ihren Dienst.

Für den Istanbul-Opteron ist laut AMD deshalb nur ein BIOS-Update bei Socket-F-Servern, die bisher mit den 45-nm-Opterons „Shanghai“ arbeiten, notwendig. „Istanbul“ steuert wie der Opteron „Shanghai“ gepufferte DDR2-800-DIMMs im Dual-Channel-Modus an. Unverändert lässt AMD auch die Cache-Größen: Jeder Kern verfügt über einen dedizierten 512 KByte fassenden L2-Cache. Allen Kernen steht der gemeinsame 6 MByte große Datenpuffer zur Verfügung.

AMD bietet den Opteron „Istanbul“ für 2-, 4- und 8-Sockel-Systeme in den Serien 2400 und 8400 an. Zum Start der 6-Core-CPUs gibt es den für 2-Sockel-Systeme den Opteron 2427 (2,2 GHz), 2431 (2,4 GHz) und 2435 (2,6 GHz). Für Server mit vier oder acht Prozessoren bietet AMD den Opteron 8431 mit 2,4 GHz und 8435 mit 2,6 GHz Taktfrequenz. Die 8400er Serie unterscheidet sich durch einen zusätzlichen dritten HyperTransport-Link. Der Energiebedarf der neuen 6-Core-Opterons liegt unverändert zu den Quad-Core-Vorgängern bei 75 Watt ACP.

Im Laufe des dritten Quartals 2009 will AMD zusätzliche Opteron HE, SE und EE mit sechs Kernen ausliefern. Die besonders stromsparend ausgelegten Opteron-EE-Modelle spezifiziert AMD mit 40 Watt ACP. Mit „HE“ kennzeichnet AMD Opteron-Prozessoren mit 55 Watt ACP. Die Performance-Varianten „SE“ stuft der Hersteller dagegen mit 105 Watt ein.

Statt der TDP (Thermal Design Power), einem theoretischen Maximalwert, bei dem alle Transistoren der CPU gleichzeitig schalten, verwendet AMD bei der Energieeinstufung den ACP-Wert (Average CPU Power). Hier handelt es sich nach Ansicht des Herstellers um einen realistischen Maximalwert. Der ACP liegt jeweils unterhalb des TDP-Wertes, den es weiterhin für Entwickler gibt.

Alle Opteron-Modelle mit 75 Watt ACP im Überblick
Modell	Taktfrequenz [MHz]	ACP [Watt]	Listenpreis [US-Dollar]
45-nm-Hexa-Core
Neu: Opteron 2435	2600	75	1019
Neu: Opteron 2431	2400	75	--
Neu: Opteron 2427	2200	75	455
Neu: Opteron 8435	2600	75	2649
Neu: Opteron 8431	2400	75	1019

45-nm-Quad-Core
Opteron 2389	2900	75	698
Opteron 2387	2800	75	523
Opteron 2384	2700	75	523
Opteron 2382	2600	75	316
Opteron 2380	2500	75	316
Opteron 2378	2400	75	174
Opteron 2376	2300	75	147
Opteron 8389	2900	75	2149
Opteron 8387	2800	75	1865
Opteron 8384	2700	75	1514
Opteron 8382	2600	75	1165
Opteron 8380	2500	75	989
Opteron 8378	2400	75	873

65-nm-Quad-Core
Opteron 2356	2300	75	690
Opteron 2354	2200	75	455
Opteron 2352	2100	75	316
Opteron 2350	2000	75	255
Opteron 8356	2300	75	1514
Opteron 8354	2200	75	1165
Opteron 8350	2000	75	873

Details zu den Testsystemen

Um die Performance und vor allem die Energieeffizienz der verschiedenen Opteron- und Xeon-CPUs gut vergleichen zu können, verwenden wir möglichst bauähnliche Server.

AMDs Opteron 2435 und 8435 testen wir in einem 4-Sockel-Server Tyan Transport GT26. Der 1U-Rack-Server verwendet als Mainboard ein Tyan S4987 mit NVIDIA MCP55-Chipsatz. Das System eignet sich für den Betrieb mit zwei oder vier Prozessoren. Jedem Prozessor stehen zwei gepufferte 4-GByte-DIMMs in einer Dual-Channel-Konfiguration zur Verfügung. Insgesamt verfügt der Tyan-Server in der 2-Sockel-Konfiguration über 16 GByte Arbeitsspeicher, mit vier CPUs stehen 32 GByte RAM zur Verfügung.

AMDs Opteron 2384 „Shanghai“ und 2356 „Barcelona“ testen wir in einem 2-Sockel-Server Supermicro A+ 2021M-UR+B. Der Rack-Server verwendet als Mainboard das Supermicro H8DMU+ mit NVIDIA MCP55Pro-Chipsatz. Jedem Prozessor stehen vier gepufferte 2-GByte-DIMMs in einer Dual-Channel-Konfiguration zur Verfügung. Insgesamt verfügt der Opteron-Server somit über 16 GByte Arbeitsspeicher. Die Performance des Opteron 8356 „Barcelona“ wird im 4-Sockel-Server Transtec Calleo 501 ermittelt. Die Performance der Prozessoren ist in den unterschiedlichen Socket-F-Servern im Rahmen der Messtoleranzen auf gleichem Niveau – wie unsere Cross-Checks ergeben haben.

Intels Xeon X5570 „Nehalem-EP“ testen wir in einem 2-Sockel-Server Asus RS700-E6/RS4. Der 1U-Server mit der neuen Tylersburg-EP-Plattform besitzt als Mainboard ein Asus Z8PS-D12-1U mit Chipsatz Intel 5520 und ICH10R. Jedem Prozessor steht pro Speicher-Channel ein 4 GByte Registered DIMM vom Typ Qimonda IMHH4GP12A1F1C-13H mit 1333 MHz Taktfrequenz zur Verfügung. Insgesamt besitzt das System damit 24 GByte Arbeitsspeicher – 12 GByte pro CPU mit drei Channels.

Socket-F-Plattform: Der Vier-Sockel-Server Tyan Transport GT26 dient als Testplattform für die Hexa-Core-Opterons.

Die Xeon-5400-CPUs nehmen in einem SuperServer 6025W-NTR+B von Supermicro Platz. Als Mainboard verwendet der Server ein Supermicro X7DWN+ mit Seaburg-Chipsatz. Vier FB-DIMM-Channels steuern insgesamt acht 2-GByte-Module vom Typ Nanya NT2GT72U4NB1BD-2C an. Die FB-DIMMs arbeiten bei der FSB1600-CPU Xeon E5472 mit DDR2-800-SDRAMs mit einem 5-5-5-Timing. Bei den FSB1333-Xeons steuert der Chipsatz den Speicher automatisch mit einer Geschwindigkeit von 667 MHz bei CL5 an. Den 6-Core-Prozessor Xeon X7460 testen wir in Intels 4-Sockel-System S7000FCUR mit auf. Details zum Testsystem finden Sie in unserem Artikel Test: Erste 6-Core-CPU von Intel.

Um insbesondere für die Energiemessungen gleiche Vorraussetzungen für den AMD- und Intel-Server zu ermöglichen, arbeiten in den Systemen an der SAS/SATA-Backplane jeweils zwei SATA-RAID-Edition-Festplatten von Samsung. Somit lassen sich bestmögliche Vergleiche zwischen den Prozessoren ziehen.

Als Betriebssystem setzen wir Windows Server 2008 Enterprise x64 ein. Tests unter Linux erfolgen mit CentOS 5 in der 64-Bit-Version.

Multitask Integer: SPECint_rate_base2006

Wir setzen die SPEC-Benchmarks unter Windows Server 2008 Enterprise x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 10.1 und Fortran 10.1 in der 64-Bit-Version sowie MS Visual Studio 2005 .NET für alle Integer-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz.

Bei den Integer-Berechnungen von SPECint_rate_base2006 ermittelt die Benchmark-Suite CPU2006 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Integer-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standardsoftware.

Intels 10.1-Compiler bieten mit dem Switch -QxO eine offizielle SSE3-Unterstützung für „Non-Intel-Processors“ (erstmals mit Version 10.0). Mit dieser Compiler-Option führten wir die CPU2006-Benchmarks für die Opteron-Prozessoren durch. Bei den Xeon-CPUs nutzten wir das Compiler-Flag -fast. Hier wählen die Intel-Compiler automatisch die optimale Befehlssatzunterstützung. Zusätzlich testen wir den Xeon X5570 für eine optimale Vergleichbarkeit mit dem Opteron 2435 ebenfalls mit -QxO.

Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECint_rate_base2006 der Anzahl der Prozessorkerne des Systems. Beispielsweise arbeiten beim Zwei-Sockel-Server mit Hexa-Core-Opterons zwölf Kopien parallel. Beim Nehalem-EP-System mit Xeon X5570 (Quad-Core) sind durch das zusätzliche Hyper-Threading 16 virtuelle Kerne vorhanden. Entsprechend laufen bei den Xeon-X5570-CPUs 16 parallele Kopien.

SPECint_rate_base2006: Die zwei Opteron 2435 (2,6 GHz) mit Hexa-Core bieten 31 Prozent mehr Integer-Performance als zwei Quad-Core-Opteron 2384 (2,7 GHz). Bei identischer Compiler-Einstellung -QxO arbeiten zwei Xeon X5570 aber noch 47 Prozent schneller, mit -fast 56 Prozent. Im Vergleich der 4-Sockel-Systeme liegen die neuen Opteron 8435 acht Prozent vor den Xeon-X7460-Modellen - beide CPUs arbeiten mit Hexa-Cores.

Multitask Floating Point: SPECfp_rate_base2006

Wir setzen die SPEC-Benchmarks unter Windows Server 2008 Enterprise x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 10.1 und Fortran 10.1 in der 64-Bit-Version sowie MS Visual Studio 2005 .NET für alle Floating-Point-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz.

Bei den Floating-Point-Berechnungen von SPECfp_rate_base2006 ermittelt die Benchmark-Suite CPU2006 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Floating-Point-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standardsoftware.

Intels 10.1-Compiler bieten mit dem Switch -QxO eine offizielle SSE3-Unterstützung für „Non-Intel-Processors“ (erstmals mit Version 10.0). Mit dieser Compiler-Option führten wir die CPU2006-Benchmarks für die Opteron-Prozessoren durch. Bei den Xeon-CPUs nutzten wir das Compiler-Flag -fast. Hier wählen die Intel-Compiler automatisch die optimale Befehlssatzunterstützung. Zusätzlich testen wir den Xeon X5570 für eine optimale Vergleichbarkeit mit dem Opteron 2435 ebenfalls mit -QxO.

Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECfp_rate_base2006 der Anzahl der Prozessorkerne des Systems. Bei den Zwei-Sockel-Servern mit Quad-Core-Prozessoren arbeiten acht Kopien parallel. Beim Nehalem-EP-System sind durch das zusätzliche Hyper-Threading 16 virtuelle Kerne vorhanden. Entsprechend arbeitet bei den Xeon-X5570-CPUs 16 parallele Kopien. Durch den CPU2006-Speicherbedarf von bis zu 2 GByte RAM pro Kopie erhöhen konnten wir SPECfp_rate_base2006 mit vier Opteron 8435 (24 Kopien) nicht durchführen. Das von AMD zur Verfügung gestellte Testsystem war nur mit 32 GByte RAM bestückt.

SPECfp_rate_base2006: Bei den sehr speicherintensiven Durchsatztests mit Floating-Point-Programmen ermöglichen zwei Opteron 2435 eine 25 Prozent höhere Performance gegenüber den Opteron-2384-CPUs. Damit bieten zwei 6-Core-Opterons fast die Fließkommaleistung von vier 6-Core-Xeons X7460. Intels Nehalem-basierende Xeon X5570 bleiben aber uneinholbar.

SPECjvm2008: Java Virtual Machine Performance

Mit SPECjvm2008 stellt die Standard Performance Evaluation Corporation (SPEC) einen Benchmark für die Performance von Systemen unter Java Runtime Environment (JRE) zur Verfügung. Die Evaluierungssoftware zur Ermittlung der Java-Performance wurde von SPEC in Zusammenarbeit mit AMD, Bea, Hewlett-Packard, IBM, Intel und Sun entwickelt.

Für die Performance des Systems in einer Java Virtual Machine zeigen sich neben der Wahl der Java-Engine die Prozessoren sowie die Speicherarchitektur verantwortlich. SPECjvm2008 startet eine JVM und führt einen Multithread-Workload durch. Alle Prozessorkerne eines Systems werden von SPECjvm2008 ausgenutzt.

SPECjvm2008 arbeitet mit einem Base-Run, bei dem keine speziellen Tuning-Maßnahmen durch Flags und Optimierungen erlaubt sind. Damit wird die Java-Performance der Systeme mit der installierten JVM ermittelt. Zehn verschiedene Tests wie Compilieren, Rendering, Verschlüsselung oder Komprimierung werden durchgeführt. Beim Peak-Run lassen sich für jeden Test Optimierungen für die JVM einstellen.

Wir führen SPECjvm2008 im Base-Run unter Windows Server 2008 Enterprise x64 mit der JRE Bea JRockit 6 R27 in der 64-Bit-Version durch:

Java Runtime: Durch die Hexa-Core-Technologie arbeiten zwei Opteron 2435 32 Prozent schneller als die 2,7-GHz-Quad-Core-CPUs. Im 4-Sockel-Segment gewinnt AMD gegen die vier Hexa-Core-Xeons X7460. Eine beeindruckende Performance bieten wieder Intels zwei Xeon X5570 mit Nehalem-Architektur.

SPECpower: Maximale Java-Performance

SPECpower_ssj2008 ermittelt neben der Energieeffizienz bei 100 Prozent Prozessorauslastung auch die maximale Java-Performance des Systems. Als Java-Engine unter Windows Server 2008 Enterprise x64 dient Bea JRockit in der 64-Bit-Version 6 R27.

SPECpower_ssj2008 nutzt einen anderen Workload als SPECjvm2008. Außerdem arbeiten bei SPECpower_ssj2008 nicht nur eine JVM, sondern mehrere virtuelle Java-Instanzen. Bei den getesteten Vier-Sockel-Systemen sind zwei JVMs aktiv. Jede JVM agiert multithreaded mit der Anzahl der CPU-Kerne pro Sockel. Bei diesem konfigurierbaren Setup erzielt SPECpower_ssj2008 bei Zwei-Sockel-Systemen die besten Ergebnisse.

Bei diesem Test sind die Energiesparoptionen der Prozessoren aktiv, die erreichbare Performance wird durch die Vollauslastung der CPUs allerdings nicht beeinflusst.

Java-Performance: Der Workload ist speicherintensiver als bei SPECjvm2008. Die neuen Opteron-2435-CPUs setzen sich deutlich von den 2,7-GHz-Quad-Core-Opterons ab. Das Opteron-2384-Päärchen arbeitet jedoch nur mit DDR2-667-Speicher (Stabilitätsprobleme bei SPECpower durch frühe BIOS-Revision). An die Performance von Intels Xeon-X5570-Duett kommen die zwei 6-Core-Opterons jedoch nicht heran. Bei den 4-Sockel-Servern düpieren die vier Opteron 8435 die vier Xeon X7460 (ebenfalls Hexa-Cores) geradezu.

Dass beim Java-Workload von SPECpower hohe Speicher- und Busbandbreiten von Vorteil sind, zeigen auch die Xeon E5472. Trotz nur 3,0 GHz Taktfrequenz überholen die Xeon E5472 hier die 3,33-GHz-Xeon-X5470-CPUs, weil sie mit DDR2-800-Speicher und FSB1600 arbeiten (statt DDR2-667 und FSB1333).

SPECpower: Energieeffizienz Performance/Watt

Der Gesamtwert von SPECpower_ssj2008 steht für die Energieeffizienz des Systems. Der Benchmark gibt die gemittelte Performance pro Watt an, die über alle Lastzustände von zehn bis 100 Prozent gemessenen werden.

Um die Energiesparoptionen der Prozessoren zu nutzen, arbeitet Windows Server 2008 Enterprise x64 mit dem Energieschema „Ausbalanciert“. SpeedStep (Intel) und PowerNow! (AMD) zum dynamischen Regeln von Taktfrequenz und Core-Spannung je nach CPU-Auslastung sind bei dem SPECpower-Benchmark aktiv:

Mit Powermanagement: Die zwei neuen Opteron 2435 hieven die Energieeffizienz des AMD-Servers auf das Niveau des Intel-Systems mit zwei Xeon X5570. Mit vier Opteron 8435 setzt sich der Socket-F-Server sogar an die Spitze.

Jetzt wird bei den Energieoptionen von Windows Server 2008 das Schemata „Höchstleistung“ ausgewählt. Die Prozessoren arbeiten immer mit voller Taktfrequenz und Core-Spannung. Die dynamischen Powermanagement-Funktionen SpeedStep (Intel) und PowerNow! (AMD) sind beim Schemata „Höchstleistung“ nicht aktiv.

Im folgenden Diagramm sehen Sie die Auswirkungen des deaktivierten CPU-Powermanagements auf die Energieeffizienz der Systeme:

Ohne Powermanagement: Mit inaktivem PowerNow! reduzieren die zwei Opteron 2485 die Systemeffizienz um knapp zwei Prozent. Beim Opteron-2384-System verschlechtert sich ohne PowerNow! die Effizienz noch um knapp drei Prozent. Intels Xeon X5570 senken die Effizienz ohne SpeedStep um knapp zwei Prozent.

SPECpower: Kurven Energieeffizienz

Der Energieeffizienz-Benchmark SPECpower_ssj2008 ermittelt für jeden Lastzustand von zehn bis 100 Prozent die Performance/Watt-Werte der Systeme. Hier zeigt sich: Je höher die Prozessorauslastung, desto besser die Energieeffizienz des gesamten Systems.

In den Diagrammen wird die Performance pro Watt von zehn bis 100 Prozent in den roten Balken dargestellt. Die blaue Kurve zeigt zusätzlich den Energieverbrauch des Systems bei der entsprechenden Prozessorauslastung an. Links in den Bildern sehen Sie jeweils die Ergebnisse mit aktivem Prozessor-Powermanagement, rechts bei inaktivem SpeedStep (Intel) oder PowerNow! (AMD):

Opteron 2435 / 2,6 GHz / DDR2-800 / 75 Watt: Bei zehn Prozent Last sorgt PowerNow! für drei Prozent mehr Energieeffizienz. Bis hoch zu 60 Prozent erwirkt PowerNow! noch zwei Prozent mehr Effizienz.

Opteron 2384 / 2,7 GHz / DDR2-667 / 75 Watt: Liegen nur zehn Prozent Last an, so erhöht PowerNow! die Energieeffizienz des Systems um acht Prozent. Bis hoch zu 70 Prozent erwirkt PowerNow! noch zwei Prozent mehr Effizienz.

Opteron 2356 / 2,3 GHz / DDR2-667 / 75 Watt: AMDs PowerNow!-Technologie sorgt bei dem 65-nm-Opteron bis hoch zu 70 Prozent Auslastung für eine Effizienzsteigerung. Darüber bricht die Performance mit PowerNow! leicht ein. Insgesamt sorgt die Stromspartechnologie aber für zwei Prozent mehr Effizienz.

Xeon X5570 / 2,93 GHz / DDR3-1333 / 95 Watt: Bei 20 bis 30 Prozent Prozessorlast arbeitet SpeedStep beim Nehalem-Xeon mit effizientesten. Der CPU-Energiesparmodus erhöht in diesem Lastbereich die Energieeffizienz des Systems um fünf bis sechs Prozent.

Xeon X5470 / 3,33 GHz / 120 Watt: Besonders im Teillastbereich von 20 bis 50 Prozent Prozessorauslastung steigert SpeedStep die Energieeffizienz des Servers um bis zu zehn Prozent. Unter sehr hoher Last (ab 70 Prozent) bewirkt SpeedStep nur noch sehr wenig.

SPECpower: Maximaler Energieverbrauch

SPECpower_ssj2008 ringt dem Testsystem im Lastzustand 100 Prozent den maximalen Energieverbrauch ab. Alle Kerne der Prozessoren sind voll ausgelastet. Die aktiven JVMs fordern zusätzlich den Arbeitsspeicher der Systeme.

Verbrauchsarm: Während das AMD-System mit zwei Opteron 2384 im Leerlauf noch 37 Watt mehr als der neue Opteron-2435-Server benötigt, bleibt es unter Volllast 51 Watt genügsamer. Hier macht es sich zum einen bemerkbar, dass die Quad-Core-Opterons die 75-Watt-Spezifikation weniger ausreizen als die neuen Hexa-Core-Opterons. Zusätzlich wirkt sich hier die unterschiedliche Netzteilkonfiguration aus.

Arbeiten im Tyan-4-Sockel-Server statt zwei Opteron 2435 vier Opteron 8435, so erhöht sich der Energiebedarf um 169 Watt. Neben den zwei zusätzlichen 75-Watt-Opterons (zirka 150 Watt) sorgen pro CPU zwei 4-GByte-DIMMs sowie die höhere Netzteilbelastung für den Energieaufschlag. Zirka 90 Watt mehr genehmigt sich der bauähnliche Transtec-Server mit vier 65-nm-Quad-Core-Opterons – bei deutlich geringerer Performance.

Intels 4-Sockel-Server mit Xeon-X7460-CPUs (130 Watt TDP) benötigt unter Volllast sogar 283 Watt mehr Energie als der Tyan-4-Sockel-Server mit Opteron-8435-CPUs (75 Watt ACP). Neben der höheren Watt-Einstufung der CPUs sorgen beim Intel-S7000FCUR-Server die stromhungrigeren FB-DIMMs sowie zwei redundant ausgelegte 1570-Watt-Netzteile für den deutlichen Mehrverbrauch.

SPECpower: Minimaler Energieverbrauch

SPECpower_ssj2008 führt neben den Lasttests zusätzlich Kalibrierungsmessungen über den Energieverbrauch bei Leerlauf durch. Dabei wird der minimale Energiebedarf des Systems ermittelt.

Im folgenden Diagramm vergleichen wir den Systemverbrauch unter Windows Server 2008 Enterprise x64 mit dem Energie-Schemata „Ausbalanciert“. Die Prozessoren nutzen ihre Powermanagement-Features SpeedStep (Intel) und PowerNow! (AMD) aus:

Mit Powermanagement: Im Leerlauf arbeiten die zwei Opteron 2435 sowie das Xeon-X5570-Päärchen ähnlich sparsam. Während der Asus-Xeon-Server zwei 770-Watt-Netzteile betreibt, arbeitet im Tyan-Opteron-Server ein 1000-Watt-Netzteil, aber ein 4-Sockel-Mainboard (im Test mit zwei Opteron 2435 oder vier 8435 bestückt). Wird der Tyan-Opteron-Server mit vier 8435er betrieben, so steigt die Leerlaufenergie nur um 44 Watt gegenüber zwei CPUs. In den zusätzlichen 44 Watt ist auch der Energiebedarf für vier zusätzliche 4-GByte-DIMMs enthalten (zwei pro CPU).

Jetzt wird bei den Energieoptionen von Windows Server 2008 das Schemata „Höchstleistung“ ausgewählt. Die dynamischen Powermanagement-Funktionen SpeedStep (Intel) und PowerNow! (AMD) sind beim Schemata „Höchstleistung“ nicht aktiv:

Ohne Powermanagement: Im Leerlauf steigt bei den Nehalem-Xeons der Energiebedarf ohne SpeedStep lediglich um 2 Watt. Bei den Opteron-2435-CPUs erhöht sich der Energiebedarf im Leerlauf ohne Powermanagement um 10 Watt.

Effizienz und Verbrauch: 1 vs. 2 Netzteile

Alle Energieeffizienz-Messungen der Opteron-Prozessoren 2435 und 8435 führen wie im 4-Sockel-Server Tyan Transport GT26 durch. Der 1U-Rack-Server ist mit einem 1000-Watt-Netzteil mit 80+ Spezifikation ausgestattet. Die 2-Sockel-Server für Intels Xeon-5400- und 5500-CPUs sowie AMDs Opteron 2356 und 2384 sind jeweils mit zwei redundant ausgelegten 700- beziehungsweise 770-Watt-Netzteilen ausgestattet. Wird ein Netzteil rausgezogen, so läuft der Server mit dem verbleibenden Netzteil problemlos weiter. Mit zwei Netzteilen lässt sich die Ausfallsicherheit des Servers deutlich erhöhen. Intels 4-Sockel-Server S7000FCUR für die Xeon-X7460-CPUs besitzt für eine redundante Stromversorgung zwei 1570-Watt-Netzteile.

Um den Einfluss der Netzteile auf die Energieeffizienz eines Systems zu zeigen, führen wir SPECpower_ssj2008 beim 2-Sockel-Server Asus RS700-E6/RS4 mit den Nehalem-CPUs Xeon X5570 mit einem und mit zwei Netzteilen durch. In der Tabelle zeigen wir die mit SPECpower ermittelten Energieaufnahmen und Performance/Watt-Werte:

Energieaufnahme und Effizienz Nehalem-Server
Xeon-X5570-Server	1 Netzteil im Betrieb	2 Netzteile im Betrieb
Energieaufnahme Leerlauf	115	155
Energieaufnahme Volllast	341	361
SPECpower Performance/Watt	1032	932

Wird auf ein Netzteil verzichtet, so benötigt der Nehalem-Server im Leerlauf 26 und unter Volllast sechs Prozent weniger Energie. Die Performance pro Watt des Servers erhöht sich um elf Prozent, wenn nur ein Netzteil verwendet wird.

Analyse: SunGard ACR

SunGards Adaptiv Credit Risk 4.0 ist ein Analysetool für den Finanzbereich. Basierend auf modifizierten Monte-Carlo-Simulationen berechnet das Programm den künftigen Wert einer Anlage auf Basis vorhandener Marktdaten.

SunGards Adaptiv Credit Risk wurde in C# für Microsofts .NET-Umgebung programmiert. Spezielle Mathematik-Bibliotheken wie Intels MKL oder AMDs Core Math Library ACML verwendet Adaptiv Credit Risk nicht. Das Analysetool arbeitet multithreaded und unterstützt Multiprozessor-Systeme optimal. SunGard rechnet überwiegend mit Integer-Operationen. Speicherzugriffe halten sich bei Adaptiv Credit Risk in Grenzen.

Schnelle Vorhersagen: Trotz Hexa-Core-Technologie müssen sich zwei Opteron 2435 den zwei Xeon X5570 deutlich geschlagen geben. Auch im Hexa-Core-Vergleich der 4-Sockel-Systeme arbeiten vier Opteron 8435 etwas langsamer als vier Xeon X7460. Weil sich Speicherzugriffe hier in Grenzen halten, sind alle Xeon-Prozessoren durch ihre hohe Integer-Performance für die Opteron-CPUs nicht in Reichweite.

Linpack 64 Bit

Linpack dient als verbreitetes Tool zum Ermitteln der Floating-Point-Performance von Highend-Computern. Das Ergebnis wird in Flops (Fließkomma-Operationen pro Sekunde) angegeben.

Linpack löst komplexe lineare Gleichungssysteme. Die Anzahl der Gleichungen lässt sich dabei stark erhöhen, um auch massiv parallel operierende Systeme unter Last zu setzen. Der Bedarf an Arbeitsspeicher wächst entsprechend mit. Die Speicherzuweisung erfolgt über eine Matrix-Berechnung. Size x LDA x 8 (Anzahl der Gleichungen x Input x 8 bit) ergibt den zu allokierenden Speicher.

Unter Linux 64 Bit setzen wir die 64-Bit-Version von Linpack 2.1.2 ein. Der SMP-fähige Benchmark setzt EMT64-Prozessoren mit SSE3-Unterstützung voraus. AMDs Opteron-Prozessoren mit SSE3 arbeiten unter Linux ebenfalls problemlos mit der von Intel-Compilern erstellten Linpack-Version zusammen.

Bei unseren Tests löst Linpack in verschiedenen Durchläufen 5000, 10.000, 15.000, 18.000, 22.000 und 27.000 Gleichungssysteme. Damit benötigt der Benchmark zwischen 190 MByte (5000 Gleichungssysteme) und zirka 5,4 GByte Arbeitsspeicher (27.000 Gleichungssysteme). Im Diagramm finden Sie die von den Prozessoren maximal erreichten GFlops.

Überraschung: Die Matrixberechnungen bei Linpack zählen schon immer zu einer Paradedisziplin für Opteron-Prozessoren. Entsprechend setzt sich AMDs neues Hexa-Core-Päärchen deutlich an die Spitze. Intels Xeon X5570 muss sich bereits dem Quad-Core-Opterons geschlagen geben.

Encryption/Decryption: openSSL 64 Bit

Die Leistungsfähigkeit der Prozessoren beim Verschlüsseln und Entschlüsseln von Daten unter Linux 64 Bit ermittelt das Open-Source-Programm openSSL in der 64-Bit-Version 0.9.8b. Der Code von openSSL ist single threaded programmiert. Durch den Start von multiplen Kopien summiert openSSL die Performance beim Verschlüsseln und Entschlüsseln von Daten.

Wir testen die Prozessoren bei openSSL mit dem RSA-Schlüssel und einer Schlüssellänge von 2048 Bit. Der synthetische Benchmark gibt einen guten Anhaltspunkt für die Geschwindigkeit der Prozessoren beim Verschlüsseln und Entschlüsseln von Daten. Spezielle, für die CPU-Architekturen optimierte Mathematik-Bibliotheken kommen beim mit gcc kompilierten openSSL-Benchmark nicht zum Einsatz.

RSA-2048 Encryption: Der Test läuft überwiegend im Cache ab. Die neuen 6-Core-Opterons 2435 verschlüsseln 44 Prozent schneller als zwei Opteron 2384. Intels Xeon-X5570-System wird vom Opteron-2435-Päärchen ebenfalls überholt. Auch den Vergleich der 4-Sockel-Systeme gewinnen die vier Hexa-Core-Opterons deutlich gegen die vier Hexa-Core-Xeons.

RSA-2048 Decryption: Auch das Entschlüsseln erledigen die Hexa-Core-Opterons bei 2- und 4-Sockel-Systemen mit dem höchsten Durchsatz.

Rendering: SPECapc 3ds Max 2009 x64

Discreet/Autodesk bietet mit 3ds Max 2009 x64 eine professionelle Software für 3D-Modelling, Animation und Rendering an. Bei den Render-Vorgängen nutzt 3ds Max 9 2009 x64 Multiprocessing voll aus. Die Multi-Core-Technologie sowie ein zweiter Prozessor wirken somit beschleunigend.

Die gewählte Render-Szene „Space Flyby“ basiert auf der Benchmark-Suite SPECapc for 3ds Max von SPEC.org. Die Grafikkarten-Performance spielt beim Rendering keine Rolle, die OpenGL/DirectX-basierten Tests der SPECapc-Suite verwenden wir nicht.

Mit vier Opteron 8435 oder vier Xeon-X7460-CPUs lässt sich der Rendering-Test mit 3ds Max 2009 nicht durchführen. Die Rendering-Engine des Programms unterstützt maximal 16 CPU-Kerne. Beim Start von 3ds Max 2009 auf einem 4-Sockel-Server mit 24 Cores erfolgt eine Fehlermeldung der Engine.

Szene „Space Flyby“: Der Render-Workload passt überwiegend in die Caches der Prozessoren. Von integrierten Speicher-Controllern profitieren sowohl die Xeon-X5570-CPUs als auch die Opterons hier weniger. Die neuen 6-Core-Opterons 2435 erreichen nur die Performance der Xeon-E5472-Prozessoren (Quad-Core / 3,0 GHz). Intels Nehalem-Xeons bleiben in Führung.

Rendering: CINEBENCH 10 64 Bit

Mit dem CINEBENCH 10 stellt Maxon die aktuelle Version des bekannten Benchmark-Tools bereit. CINEBENCH 10 basiert auf Cinema 4D Release 10 und führt wieder Rendering-Tests durch. Maxon bietet CINEBENCH 10 als 32- und 64-Bit-Version zum Download an.

Beim Render-Teset wird eine fotorealistische 3D-Szene mithilfe des Cinema-4D-Raytracers berechnet. Die Szene enthält unter anderem Lichtquellen, Schatteneffekte sowie Multi-Level-Reflektionen. Bei dem FPU-lastigen Test spielt die Leistungsfähigkeit der Grafikkarte keine Rolle. Auch höhere Speicher- und FSB-Bandbreiten nutzen beim Rendering von CINEBENCH 10 wenig – der Test läuft überwiegend in den Cache-Stufen ab.

Die Rendering-Engine von Cinema 4D Release 10 unterstützt maximal 16 parallele Threads. Die 4-Sockel-Systeme mit Hexa-Core-CPUs (24 Kerne) werden nicht voll ausgenutzt. CINEBENCH 10 führen wir deshalb nur mit 2-Sockel-Konfigurationen durch.

1 Thread: Beim Rendering wird jetzt nur ein Prozessorkern verwendet – Multi-Core nutzt hier nichts. AMDs Opteron-CPUs sind durch ihre geringere Taktfrequenz hier deutlich im Nachteil. Durch die Turbo-Technologie arbeitet der Xeon X5570 mit 3,33 GHz Taktfrequenz.

Alle Threads: Jetzt nutzt CINEBENCH alle verfügbaren Prozessorkerne. AMDs Opteron-2435-Päärchen mit Hexa-Core-Technologie muss sich nur vom Xeon-X5470-Duett geschlagen geben. Die Nehalem-Quad-Core-Xeons profitieren hier stark von Hyper-Threading.

Fazit

AMDs neue Opteron-Prozessoren 2435 und 8435 mit 2,6 GHz Taktfrequenz ermöglichen durch ihre Hexa-Core-Technologie zirka 30 Prozent mehr Performance gegenüber den 2,7-GHz-Quad-Core-Modellen. Der Leistungssprung der 6-Core-Opterons ging erfreulicherweise nicht zu Lasten der Energieeffizienz – im Gegenteil. AMD spezifiziert die Hexa-Core-CPUs unverändert zu den Quad-Core-Opterons mit 75 Watt ACP. Entsprechend steigern die neuen Opteron 2435 die Performance pro Watt wieder auf das Niveau der bisher überragenden Xeon-X5570-Systeme.

Geht es nur um die pure Performance, so haben AMDs 6-Core-Opterons jedoch weiterhin kaum Chancen gegen Intels Xeon X5570 mit Nehalem-Architektur. Allerdings schaffen es die Opteron-2435-CPUs, den Xeon X5570 wenigstens vereinzelt in den Schatten zu stellen.

Im Segment der 4-Sockel-Server kehrt sich das Performance-Verhältnis um. AMD legt mit den neuen Opteron-8435-CPUs die Messlatte für Intels 6-Core-Prozessor Xeon X7460 sehr hoch. Die vier 6-Core-Opterons bieten in Verbindung mit AMDs Direct Connect Architektur überwiegend deutlich mehr Rechenleistung. Intels 6-Core-Xeons kommunizieren alle noch „klassisch“ über den Chipsatz – auch mit dem Arbeitsspeicher. Selbst die immensen 25 MByte Cache pro Xeon X7460 kompensieren nicht den Nachteil der langsamen Speicherzugriffe über den Chipsatz. In der Energieeffizienz zeigt sich unser getesteter Tyan-1U-Rackserver mit vier Opteron 8435 sogar dreimal besser als das Intel System S7000FCUR. Der Xeon-X7460-Server ist allerdings durch seine redundanten Netzteile benachteiligt.

Ein weiterer Pluspunkt für die neuen Opteron-Serien 2400 und 8400 ist die Kompatibilität zu vorhandenen AMD-Plattformen mit Socket F. Durch die unveränderte Infrastruktur bieten sich die 6-Core-Opterons sogar für CPU-Upgrades in vorhandenen Systemen an. (cvi)