Intel Xeon X7460 mit sechs Kernen und 25 MByte Cache

Test: Erste 6-Core-CPU von Intel

15.09.2008 von Christian Vilsbeck
Der Xeon X7460 „Dunnington“ ist der erste 6-Core-Prozessor von Intel. TecChannel hat den neuen Intel Xeon einem Test unterzogen und stellt ihm den Opteron 8356 von AMD gegenüber. Der Intel Xeon X7460 „Dunnington“ für Mehrwegesysteme arbeitet mit 2,66 GHz Taktfrequenz und besitzt immense 25 MByte Cache.

In der Domäne von Systemen mit vier oder mehr x86-Prozessoren agiert AMD seit dem Debüt des Opteron äußerst konkurrenzfähig gegen Intel. Das Konzept mit den flexiblen HyperTransport-Schnittstellen sowie den Speicher-Controllern in der CPU erwirkt in Mehrwegesystemen besonders bei speicherintensiven Szenarios Vorteile.

Nicht ohne Grund beschreitet Intel mit der Nehalem-Architektur diesen erfolgversprechenden Pfad in Bälde ebenfalls. Doch im Xeon-MP-Segment, also für Systeme mit vier oder acht Prozessoren, wird mit Nehalem EX erst in der zweiten Jahreshälfte 2009 der Architekturschwenk vollzogen.

Neue Generation im Test

Neu: Test von Intels Xeon-5600-Serie mit Hexa-Core für 2-Sockel-Server

Im September 2007 konnte Intel mit der Caneland-Plattform und den Xeon-7300-Prozessoren bereits Boden auf AMD gut machen. Die Quad-Core-Xeons mit 65-nm-Core-Architektur müssen sich allerdings mit einem „klassischen“ FSB1066 begnügen. Die Kommunikation zwischen den CPUs und zum Speicher erfolgt über den Chipsatz. Um unnötigen Busverkehr zu vermeiden, verfügen die Xeon-7300-Topmodelle über 8 MByte L2-Cache. Der Clarksboro-Chipsatz 7300 arbeitet zusätzlich mit einem 64 MByte fassenden Snoop-Filter-Cache. Dieser Puffer im Chipsatz soll Traffic aus dem Bus filtern und somit die FSB-Auslastung ebenfalls reduzieren.

Bildergalerie: Intel Xeon 7400 „Dunnington“.
Der 6-Core-Prozessor Xeon X7460 „Dunnington“ für den Sockel mPGA604 setzt auf Intels 45-nm-Penryn-Architektur. Die 2,66-GHz-CPU besitzt 9 MByte L2-Cache sowie 16 MByte L3-Cache.
Der Xeon X7460 (links) mit seinen sechs Kernen benötigt etwas mehr Platz als die Xeon-5400-Serie (rechts) mit Quad-Core.
Die sechs Kerne des Dunnington-Xeons sind in drei Dual-Core-Segmente mit je eigenem 3-MByte-L2-Cache aufgeteilt. Alle Cores können auf den gemeinsamen 16 MByte großen L3-Cache zurück greifen.
Der Xeon 7400 mit sechs Kernen basiert auf der aktuellen 45-nm-Penryn-Architektur. Die Vorgängermodelle Xeon 7300 werden noch im 65-nm-Verfahren produziert.
Die neue Xeon-7400-Serie setzt unverändert zum Xeon 7300 auf den Socket mPGA604.
Rackserver wie der Intel S7000FCUR mit vier CPUs sind das Einsatzgebiet der Xeon-7400-Serie.
Um einen sicheren Betrieb der vier 6-Core-Xeons zu gewährleisten, bietet der Intel Server S7000FCUR zwei redundant ausgelegte Netzteile.
Im 4-Sockel-Server Intel S7000FCUR sind die vier Prozessoren unter großen passiven Kühlern versteckt.
Sind die Kühler entfernt, so wird der Blick auf die vier Xeon X7460 frei.
Die vier Xeon X7460 sind über vier FSBs mit dem Chipsatz Intel 7300 (links unter dem Kühler) verbunden.
Das 4-Sockel-Mainboard mit dem 7300er Chipsatz steuert vier FB-DIMM-Channels an. Die Speichermodule sitzen auf Speicherkarten, die in das Mainboard gesteckt werden.
Für jeden der vier Speicher-Channels gibt es eine FB-DIMM-Raisercard. Pro Karte sind acht Speichermodule möglich.

Intel betreibt viel Aufwand, um bremsende Zugriffe auf den Arbeitsspeicher zu vermeiden. Jetzt wird der Aufwand nochmals erhöht: Für die aktuelle Caneland-Plattform gibt es die neuen Xeon-7400-Prozessoren. Die CPUs arbeiten mit sechs Kernen, 9 MByte L2-Cache sowie zusätzlich 16 MByte L3-Cache. Alles vereint Intel auf einem riesigen Siliziumplättchen.

Im TecChannel-Testlabor tritt Intels neuer 6-Core-Prozessor Xeon X7460 mit 2,66 GHz Taktfrequenz gegen den Vorgänger Xeon X7350 mit 2,93 GHz sowie AMDs Opteron 8356 mit 2,3 GHz Taktfrequenz in 4-Sockel-Systemen an. Wir überprüfen die Performance bei Integer- und Floating-Point-Anwendungen mit massivem Arbeitsspeicherbedarf bis 48 GByte. Die Geschwindigkeit bei Java-Applikationen wird ebenso untersucht wie die Energieeffizienz der 4-Sockel-Systeme.

Details zum 6-Core-Xeon „Dunnington“

Der Xeon MP „Dunnington“ der Serie 7400 bleibt Sockel-kompatibel zur Caneland-Plattform. Der FSB arbeitet unverändert zur Xeon-7300-Serie mit 1066 MHz. Den Xeon 7400 fertigt Intel in der 45-nm-Technologie und integriert alle sechs Kerne auf einem Siliziumplättchen. Insgesamt besteht ein Dunnington-Die aus 1,9 Milliarden Transistoren, die sich auf 503 mm² ausbreiten.

Die sechs Kerne sind in drei „Dual-Core-Segmente“ aufgeteilt. Jedem Segment steht ein eigener 3 MByte fassenden Shared-L2-Cache zur Verfügung. Insgesamt besitzt die CPU somit 9 MByte L2-Cache. Zusätzlich können alle sechs Kerne auf einen gemeinsamen 16 MByte großer L3-Cache zurück greifen.

Floorplan: Die sechs Kerne des Dunnington-Xeons sind in drei Dual-Core-Segmente mit je eigenem 3-MByte-L2-Cache aufgeteilt. Alle Cores können auf den gemeinsamen 16 MByte großen L3-Cache zurück greifen. (Quelle: Intel)

Intel bietet den Dunnington zum Start als Xeon X7460 mit einer Taktfrequenz von 2,66 GHz an. Die aktuellen Xeon-7300-Quad-Cores arbeiten im Spitzenmodell X7350 mit 2,93 GHz Taktfrequenz. Den TDP-Wert des 6-Core-Prozessors mit 2,66 GHz spezifiziert Intel wie beim X7350 mit 130 Watt.

Neben dem Topmodell X7460 gibt es mit dem Xeon E7450 und L7455 zwei weitere 6-Core-Prozessoren. Der Xeon E7450 arbeitet mit 2,4 GHz Taktfrequenz und 12 MByte L3-Cache. Den TDP-Wert des 2,4-GHz-Xeons stuft Intel auf 90 Watt ein. Die Stromsparvariante Xeon L7455 (12 MByte L3-Cache) begnügt sich mit 65 Watt TDP bei 2,13 GHz Taktfrequenz.

Auffrischung: Der Xeon 7400 mit sechs Kernen basiert auf der aktuellen 45-nm-Penryn-Architektur. Die Vorgängermodelle Xeon 7300 werden noch im 65-nm-Verfahren produziert. (Quelle: Intel)

Intel stellt zusätzlich vier Xeon-7400-Prozessoren mit Quad-Core-Technologie vor. Im Vergleich zu den 6-Core-Modellen fehlt diesen CPUs ein „Dual-Core-Segment“ auf dem Siliziumplättchen. Die Xeon-7400-Modelle gibt es mit 2,13 und 2,4 GHz Taktfrequenz in Varianten mit 50 und 90 Watt TDP sowie unterschiedlicher L3-Cache-Größe.

In der Tabelle finden Sie alle neuen Xeon-7400-Prozessoren mit 45-nm-Technologie sowie die bisherigen Xeon-7300-Modelle:

Intels Xeons-MP-Prozessoren für die Caneland-Plattform im Überblick

Prozessor

Taktfrequenz [GHz]

L2-Cache

L3-Cache

Kerne

TDP [Watt]

Xeon X7460

2,66

3 x 3 MByte

16 MByte

6

130

Xeon E7450

2,40

3 x 3 MByte

12 MByte

6

90

Xeon L7455

2,13

3 x 3 MByte

12 MByte

6

65

Xeon E7440

2,40

3 x 3 MByte

16 MByte

4

90

Xeon E7430

2,13

3 x 3 MByte

12 MByte

4

90

Xeon E7420

2,13

3 x 3 MByte

8 MByte

4

90

Xeon L7445

2,13

3 x 3 MByte

12 MByte

4

50

Xeon X7350

2,93

8 MByte

--

4

130

Xeon L7345

1,86

8 MByte

--

4

50

Xeon E7340

2,40

8 MByte

--

4

80

Xeon E7330

2,40

6 MByte

--

4

80

Xeon E7320

2,13

4 MByte

--

4

80

Xeon E7310

1,60

4 MByte

--

4

80

4-Sockel-System: Inter Server System S7000FCUR

Intels Xeon-7300/7400-Prozessoren testen wir in dem 4-Sockel-Server Intel Server System S7000FCUR. Der 4HE-Rackserver basiert auf Intels Caneland-Plattform mit dem Chipsatz 7300 „Clarksboro“. Über vier unabhängige FSB-Ports steuert der Chipsatz die Prozessoren mit einer Busfrequenz von 1066 MHz an. Damit erlaubt die Caneland-Plattform eine gesamte Busbandbreite von 34 GByte/s.

Intel stattet den 7300er Chipsatz mit einem 64 MByte großer Snoop-Filter-Cache aus. Dieser Puffer im Chipsatz soll Traffic aus dem Bus filtern und somit die FSB-Auslastung reduzieren. Der Snoop-Filter speichert Tags und den Coherency-Status aller Cache-Lines, die mit dem Hauptspeicher kohärent sind. Damit optimiert der Snoop-Filter die Effizienz und Auslastung der FSBs. Daten werden im Snoop-Filter des Chipsatzes nicht gespeichert. Die Snoop-Filter-Größe wird auf die Cache-Größe der Quad-Core-CPUs optimiert.

24 Kerne inside: Rackserver wie der Intel S7000FCUR mit vier CPUs sind das Einsatzgebiet der Xeon-7400-Serie. (Quelle: Intel)

Beim Speicher steuert der Intel-7300-Chipsatz vier FB-DIMM-Channels mit DDR2-667-SDRAM an. Pro Channel kann der Chipsatz acht DIMMs verwalten. Im Intel Server System S7000FCUR sitzen die DIMMs auf vier einfach entnehmbaren Speicherkarten. In unserem Testsystem sind 32 GByte Arbeitsspeicher verbaut – pro Channel vier 2-GByte-FB-DIMMs.

Für eine redundante Stromversorgung sorgen beim S7000FCUR-Server zwei 1570-Watt-Netzteile. Als Massenspeicher dienen zwei 2,5-Zoll-SAS-Festplatten Seagate Savvio 10K.2. Insgesamt bietet der S7000FCUR Platz für acht 2,5-Zoll-Festplatten.

Testvorbetrachtung

Die vier 6-Core-Prozessoren Xeon X7460 mit 2,66 GHz Taktfrequenz vergleichen wir im identischen 4-Sockel-Server Intel Server System S7000FCUR gegen die vier Quad-Core-Vorgängermodelle Xeon X7350 mit 2,93 GHz Taktfrequenz. Den Intel-Prozessoren stellen wir vier AMD Opteron 8356 mit 2,3 GHz Taktfrequenz im 4-Sockel-Server Calleo 501 von transtec entgegen. Sowohl dem Intel- als auch AMD-System stehen 32 GByte DDR2-667-Arbeitsspeicher zur Verfügung.

4-Sockel-Opteron-Server: Der transtec Calleo 501 im 1HE-Rackgehäuse beherbergt vier Opteron 8356.

Um die Leistungsfähigkeit der 4-Sockel-Systeme gegenüber 2-Sockel-Systeme zu überprüfen, nehmen wir in den Test zusätzlich den Xeon L5430 (2,66 GHz) und X5470 (3,33 GHz) sowie den Opteron 2356 mit 2,3 GHz Taktfrequenz auf. Der 3,33-GHz-Quad-Core-Xeon arbeitet in dem 2-Sockel-Server-Plattform „Stoakley“ von Intel. Für den Opteron 2356 verwenden wir den 2-Sockel-Server Fujitsu Siemens Primergy RX330 S1. Beide Systeme greifen auf jeweils 16 GByte DDR2-667-SDRAM in gepufferter Ausführung zurück.

Bei unserer Performance-Analysen der Prozessoren haben wir Benchmarks gewählt, die vom Storage-Subsystem weitgehend unabhängig sind und die Workloads sich im Arbeitsspeicher halten.

Als Betriebssystem setzen wir Windows Server 2008 Enterprise x64 ein.

CPU2006 Integer: SPECint_rate_base2006

Wir setzen die SPEC-Benchmarks unter Windows Server 2008 Enterprise x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 10.1 und Fortran 10.1 in der 64-Bit-Version und MS Visual Studio 2005 .NET für alle Integer-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz.

Bei den Integer-Berechnungen von SPECint_rate_base2006 ermittelt die Benchmark-Suite CPU2006 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Integer-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standard-Software.

Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECint_rate_base2006 der Anzahl der Prozessorkerne des Systems. Beim 4-Sockel-System Intel Server System S7000FCUR mit vier Xeon X7460 arbeiten 24 Kopien parallel. Der 4-Sockel-Server Calleo 501 von transtec mit vier Opteron 8356 muss 16 Kopien handhaben.

SPECint_rate_base2006: Die vier 6-Core-Xeons setzen sich eindrucksvoll an die Spitze. Allerdings skaliert die Performance nicht so gut wie bei AMD – vier 2,3-GHz-Quad-Core-Opterons liefern eine 94 Prozent höhere Integer-Performance als zwei 2,3-GHz-Quad-Core-Opterons. Die vier 2,66-GHz-Xeons liefern zwar ebenfalls 95 Prozent mehr Rechenleistung als zwei Xeon L5430 mit 2,66 GHz, allerdings arbeiten hier 24 gegen 8 Kerne.

CPU2006 Floating Point: SPECfp_rate_base2006

Wir setzen die SPEC-Benchmarks unter Windows Server 2008 Enterprise x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 10.1 und Fortran 10.1 in der 64-Bit-Version und MS Visual Studio 2005 .NET für alle Floating-Point-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz.

Bei den Floating-Point-Berechnungen von SPECfp_rate_base2006 ermittelt die Benchmark-Suite CPU2006 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Floating-Point-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standard-Software.

Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECfp_rate_base2006 der Anzahl der Prozessorkerne des Systems. Beim 4-Sockel-System Intel Server System S7000FCUR mit vier Xeon X7460 arbeiten 24 Kopien parallel. Der 4-Sockel-Server Calleo 501 von transtec mit vier Opteron 8356 muss 16 Kopien handhaben. SPECfp_rate_base2006 benötigt im 64-Bit-Modus pro Kopie bis zu 2 GByte Arbeitsspeicher. Entsprechend rüsten wird den Intels-Server für den SPECfp_rate_base2006-Test der vier 6-Core-Xeons auf 48 GByte RAM auf.

SPECfp_rate_base2006: Bei den sehr speicherintensiven Durchsatztests mit Floating-Point-Programmen setzen sich die vier Xeon X7460 mit 22 Prozent mehr Performance von den vier Opterons ab. Durch die extrem üppigen Caches machen die 6-Core-Xeons den konzeptionellen Nachteil der Intel-Plattform gegenüber AMDs Konzepts der integrierten Speicher-Controller in Verbindung mit den HyperTransport-Schnittstellen Boden gut. Allerdings sind die Opterons mit geringerer Taktfrequenz den Xeons bei den speicherlastigen Tests deutlich näher.

Intels 10.1-Compiler bieten mit dem Switch –QxO eine offizielle SSE3-Unterstützung für „Non-Intel-Processors“ (erstmals mit Verion 10.0). Mit dieser Compiler-Option führten wir die CPU2006-Benchmarks für die Opteron-Prozessoren durch. Bei den Xeon-CPUs nutzten wir das Compiler-Flag –fast. Hier wählen die Intel-Compiler automatisch die optimale Befehlssatzunterstützung.

SPECjvm2008: Java Virtual Machine Performance

Mit SPECjvm2008 stellt die Standard Performance Evaluation Corporation (SPEC) einen Benchmark für die Performance von Systemen unter Java Runtime Environment (JRE) zur Verfügung. Die Evaluierungs-Software zur Ermittlung der Java-Performance wurde von SPEC in Zusammenarbeit mit AMD, Bea, Hewlett Packard, IBM, Intel und Sun entwickelt.

Für die Performance des Systems in einer Java Virtual Machine zeigt sich neben der Wahl der Java-Engine die Prozessoren sowie die Speicherarchitektur verantwortlich. SPECjvm2008 startet eine JVM und führt einen Multithread-Workload durch. Alle Prozessorkerne eines Systems werden von SPECjvm2008 ausgenutzt.

SPECjvm2008 arbeitet mit einem Base-Run, bei dem keine speziellen Tuning-Maßnahmen durch Flags und Optimierungen erlaubt sind. Damit wird die Java-Performance der Systeme mit der installierten JVM ermittelt. Zehn verschiedene Tests wie Compilieren, Rendering, Verschlüsselung oder Komprimierung werden durchgeführt. Beim Peak-Run lassen sich für jeden Test Optimierungen für die JVM einstellen.

Wir führen SPECjvm2008 im Base-Run unter Windows Server 2008 Enterprise x64 mit der JRE Bea JRockit 6 R27 in der 64-Bit-Version durch:

Java Runtime: Die vier 6-Core-Xeons erledigen Java-Applikationen 14 Prozent schneller als die 2,93-GHz-Quad-Core-Modelle.

SPECpower: Maximale Java-Performance

SPECpower_ssj2008 ermittelt neben der Energieeffizienz bei 100 Prozent Prozessorauslastung auch die maximale Java-Performance des Systems. Als Java-Engine unter Windows Server 2008 Enterprise x64 dient Bea JRockit in der 64-Bit-Version 6 R27.

SPECpower_ssj2008 nutzt einen anderen Workload als SPECjvm2008. Außerdem arbeiten bei SPECpower_ssj2008 nicht nur eine JVM, sondern mehrere virtuelle Java-Instanzen. Bei den getesteten 4-Sockel-Systemen sind vier JVMs aktiv. Jede JVM agiert multithreaded mit der Anzahl der CPU-Kerne pro Sockel. Bei diesem konfigurierbaren Setup erzielt SPECpower_ssj2008 bei 4-Sockel-Systemen die besten Ergebnisse.

Bei diesem Test sind die Energiespar-Optionen der Prozessoren aktiv, die erreichbare Performance wird durch die Vollauslastung der CPUs allerdings nicht beeinflusst.

Java-Performance: Die vier Hexa-Core-Xeons liegen einsam an der Spitze bei mehreren Java-Instanzen. Gegenüber den zwei 2,66-GHz-Quad-Core-Xeons arbeiten die vier Sechskerner 75 Prozent schneller. Deutlich besser skaliert das 4fach-Opteron-System mit 115 Prozent mehr Speed gegenüber den 2-Sockel-Opteron-Server. Neben der doppelten Kernanzahl besitzt das 4-Sockel-System auch eine verdoppelte Anzahl an Speicher-Controllern. Der Java-Workload belegt viel Arbeitsspeicher, deshalb besitzt die Speichergeschwindigkeit einen spürbaren Einfluss auf die Performance.

SPECpower: Energieeffizienz Performance/Watt

Der Gesamtwert von SPECpower_ssj2008 steht für die Energieeffizienz des Systems. Der Benchmark gibt die gemittelte Performance pro Watt an, die über alle Lastzustände von 10 bis 100 Prozent gemessenen werden.

Um die Energiesparoptionen der Prozessoren zu nutzen, arbeitet Windows Server 2008 Enterprise x64 mit dem Energieschemata „Ausbalanciert“. SpeedStep (Intel) und PowerNow! (AMD) zum dynamischen Regeln von Taktfrequenz und Core-Spannung je nach CPU-Auslastung sind bei den SPECpower-Benchmark aktiv:

Mit Powermanagement: Obwohl der 4-Sockel-Intel-Server S7000FCUR eine 42 Prozent höhere Java-Performance als der transtec Calleo 501 mit vier Opterons bietet, liegen beide System in der Energieeffizienz fast gleichauf.

Jetzt wird bei den Energieoptionen von Windows Server 2008 das Schemata „Höchstleistung“ ausgewählt. Die Prozessoren arbeiten immer mit voller Taktfrequenz und Core-Spannung. Die dynamischen Powermanagement-Funktionen SpeedStep (Intel) und PowerNow! (AMD) sind beim Schemata „Höchstleistung“ nicht aktiv.

Im folgenden Diagramm sehen Sie die Auswirkungen des deaktivierten CPU-Powermanagements auf die Energieeffizienz der Systeme:

Ohne Powermanagement: Mit inaktivem PowerNow! reduzieren die vier Opteron 8356 die Systemeffizienz um fünf Prozent. Bei den Hexa-Core-Xeons verliert der 4-Sockel-Intel-Server ohne SpeedStep ein gutes Prozent an Energieeffizienz.

SPECpower: Kurven Energieeffizienz

Der Energieeffizienz-Benchmark SPECpower_ssj2008 ermittelt für jeden Lastzustand von 10 bis 100 Prozent die Performance/Watt-Werte der Systeme. Hier zeigt sich, je höher die Prozessorauslastung ist, desto besser ist die Energieeffizienz des gesamten Systems.

In den Diagrammen wird die Performance/Watt von 10 bis 100 Prozent in den roten Balken dargestellt. Die blaue Kurve zeigt zusätzlich den Energieverbrauch des Systems bei der entsprechenden Prozessorauslastung an. Links in den Bildern sehen Sie jeweils die Ergebnisse mit aktivem Prozessor-Powermanagement, rechts bei inaktivem SpeedStep (Intel) oder PowerNow! (AMD):

Xeon X7460 2,66 GHz 130 Watt TDP: SpeedStep sorgt im Lastbereich von 20 bis 50 Prozent bei den vier Hexa-Core-Xeons für knapp zwei Prozent mehr Energieeffizienz im System.
Opteron 8356 2,3 GHz 80 Watt TDP: Im Lastbereich von null bis 50 Prozent agiert PowerNow! im 4-Sockel-System äußerst effektiv. Liegt beispielsweise nur 10 Prozent last an, so erhöht PowerNow! die Energieeffizienz des Systems um 12 Prozent.
Xeon X5470 3,33 GHz 120 Watt TDP: Besonders im Teillastbereich von 20 bis 50 Prozent Prozessorauslastung steigert SpeedStep die Energieeffizienz des Servers um bis zu 10 Prozent. Unter sehr hoher Last (ab 70 Prozent) bewirkt SpeedStep nur noch sehr wenig.
Xeon L5430 2,66 GHz 50 Watt TDP: Die blau gekennzeichnete Energiekurve zeigt beim Low-Voltage-Xeon fast einen identischen Verlauf. Entsprechend sind die Performance-Watt-Werte mit und ohne SpeedStep hier sehr ähnlich. Durch geringe Unterschiede in der Core-Spannung und Taktfrequenz (zwischen 2,0 und 2,66 GHz) bewirkt SpeedStep beim Low-Voltage-Xeon wenig.
Opteron 2356 2,3 GHz 80 Watt TDP: AMDs PowerNow!-Technologie erhöht wie Intels SpeedStep die Energieeffizienz des Systems im Teillastbereich zwischen 10 und 50 Prozent. Zwar benötigt der 2-Sockel-Opteron-Server weniger Energie als das Intel-2-Sockel-System mit den Xeons, die Java-Performance ist aber deutlich geringer. Deshalb sind die Performance/Watt-Werte des Opteron in allen Lastbereichen geringer als bei den Xeons.

SPECpower: Maximaler Energieverbrauch

SPECpower_ssj2008 ringt dem Testsystem im Lastzustand 100 Prozent den maximalen Energieverbrauch ab. Alle Kerne der Prozessoren sind voll ausgelastet. Die aktiven JVMs fordern zusätzlich den Arbeitsspeicher der Systeme.

Stromhunger: Die vier 130-Watt-Hexa-Core-Xeons benötigen zusammen mit den 32 GByte FB-DIMM-Speicher deutlich mehr Energie als das 4-Sockel-AMD-System. Bei den 2-Sockel-Systemen sieht es zwischen Intel und AMD ausgeglichener aus.

SPECpower: Minimaler Energieverbrauch

SPECpower_ssj2008 führt neben den Lasttests zusätzlich Kalibrierungsmessungen über den Energieverbrauch bei Leerlauf durch. Dabei wird der minimale Energiebedarf des Systems ermittelt.

Im folgenden Diagramm vergleichen wir den Systemverbrauch unter Windows Server 2008 Enterprise x64 mit dem Energie-Schemata „Ausbalanciert“. Die Prozessoren nutzen ihre Powermanagement-Features SpeedStep (Intel) und PowerNow! (AMD) aus:

Mit Powermanagement: Im Leerlauf benötigt der 4-Sockel-Intel-Server mit Abstand am meisten Energie. Gegenüber Volllast reduziert sich der Energiebedarf um 32 Prozent. Der 4-Sockel-Opteron-Server benötigt im Vergleich zum Volllastbetrieb um 50 Prozent weniger Energie. Dem AMD-System kommt zu Gute, dass die Opteron 8356 im Leerlauf durch PowerNow! die Energieeffizienz des Systems um 16 Prozent erhöhen. Bei den Xeon X7460 erhöht SpeedStep im Leerlauf die Energieeffizienz nur um ein Prozent.

Jetzt wird bei den Energieoptionen von Windows Server 2008 das Schemata „Höchstleistung“ ausgewählt. Die dynamischen Powermanagement-Funktionen SpeedStep (Intel) und PowerNow! (AMD) sind beim Schemata „Höchstleistung“ nicht aktiv:

Ohne Powermanagement: Beim Intel-Server S7000FCUR erhöht sich der Energiebedarf im Leerlauf mit den Xeon X7460 nur um zwei Watt (mit Xeon-X7350-CPUs um 13 Watt). Ohne PowerNow! genehmigt sich der transtec Calleo 501 mit vier Opteron 8356 dagegen 22 Watt mehr Energie.

Analyse: SunGard ACR

SunGards Adaptiv Credit Risk 4.0 ist ein Analysetool für den Finanzbereich. Basierend auf modifizierten Monte-Carlo-Simulationen berechnet das Programm den künftigen Wert einer Anlage auf Basis vorhandener Marktdaten.

SunGards Adaptiv Credit Risk wurde in C# für Microsofts .NET-Umgebung programmiert. Spezielle Mathematik-Bibliotheken wie Intels MKL oder AMDs Core Math Library ACML verwendet Adaptiv Credit Risk nicht. Das Analysetool arbeitet multithreaded und unterstützt Multiprozessor-Systeme optimal. SunGard rechnet überwiegend mit Integer-Operationen. Speicherzugriffe halten sich bei Adaptiv Credit Risk in Grenzen.

Schnelle Vorhersagen: Die vier 2,66-GHz-Hexa-Core-Xeons arbeiten 12 Prozent flinker als vier 2,93-GHz-Quad-Core-Xeons. Bei neun Prozent geringerer Taktfrequenz, aber 50 Prozent mehr Kernen, skaliert die Performance von SunGard nur noch mäßig beim Sprung von 16 auf 24 Cores.

AMD & Intel: Listenpreise

In der Tabelle finden Sie die Preise der aktuellen Xeon- und Opteron-Preise für Systeme mit vier oder mehr Sockeln. Bei AMDs Preisliste gab es am 01. September 2008 die letzten Änderungen. Intels Preisliste wurde am 14. September 2008 aktualisiert.

OEM-Preise im Vergleich

Modell

Taktfrequenz /FSB [MHz]

Listenpreis [US-Dollar]

AMD K10-Quad-Core

Opteron 8360 SE

2500 / 1000

2149

Opteron 8358 SE

2400 / 1000

1865

Opteron 8356

2300 / 1000

1514

Opteron 8354

2200 / 1000

1165

Opteron 8350

2000 / 1000

873

Opteron 8347 HE

1900 / 1000

873

Opteron 8346 HE

1800 / 1000

698

Intel Xeon MP

Xeon X7460

2667 / 1066

2729

Xeon E7450

2400 / 1066

2301

Xeon L7455

2133 /1066

2729

Xeon E7440

2400 / 1066

1980

Xeon E7430

2133 /1066

1391

Xeon E7420

2133 /1066

1177

Xeon L7445

2133 /1066

2729

Xeon X7350

2933 / 1066

2301

Xeon L7345

1867 / 1066

1498

Xeon E7340

2400 / 1066

1980

Xeon E7330

2400 / 1066

1391

Xeon E7320

2133 / 1066

1177

Xeon E7310

1600 / 1066

856

Fazit

Intel sichert sich mit dem Hexa-Core-Prozessor Xeon X7460 bei 4-Sockel-Systemen in unseren Testszenarios mit immensem Aufwand mehr Performance als AMDs Opteron. Bei speicherintensiven Anwendungen kaschiert der extrem üppige Cache von 9 MByte L2-Cache plus 16 MByte L3-Cache pro Prozessor die Schwächen der „klassischen“ Intel-Architektur mit FSBs und Speicherkommunikation über den Chipsatz. So liegt AMDs Opteron bei 4-Sockel-Systemen beim Fließkommatest des Industrie-Benchmarks SPECfp_rate_base2006 nicht mehr einsam in Führung. Allerdings schafft das AMD-System eine ähnlich gute Floating-Point-Performance mit 16 statt 24 Kernen und mit nur 2 MByte L3-Cache pro CPU. Die Speicher-Performance der AMD-Systemarchitektur ist konzeptbedingt einfach besser.

In der Integer-Performance ist der 4-Sockel-Intel-Server mit den 6-Core-Xeons dafür eine Klasse für sich. Allerdings skaliert die Performance des 4-Sockel-Intel-Servers beim Wechsel von 2,93-GHz-Quad-Core-Xeons auf die neuen 6-Core-Xeons oft nicht mehr besonders gut. Hier hängt es auch sehr von der eingesetzten Software ab, wie das Thread-Handling beim Sprung von 16 auf 24 Kernen bewältigt wird. Einige Anwendungen wie 3ds Max 2009 für Rendering verweigern beispielsweise mit 24 Kernen komplett den Dienst – bei 16 ist Schluss.

Bei der Energieeffizienz der von uns betrachteten 4-Sockel-Systeme sieht es zwischen AMD und Intel ausgeglichen aus. Zwar liefern die Hexa-Core-Xeons im Intel Server S7000FCUR beim Industrie-Benchmark SPECpower eine deutlich höhere Java-Performance als das 4-Sockel-Opteron-System, der Energiebedarf ist jedoch ebenfalls viel höher. Bei den 2-Sockel-Systemen fällt die Energieeffizienz noch deutlich zu Gunsten des Intel-Servers aus.

In dieser ersten Performance-Betrachtung ermöglichen die 6-Core-Xeon-Prozessoren im 4-Sockel-System einen Sieg für Intel gegen AMD. Im nächsten Schritt untersuchen wir die Performance der 4-Sockel-Systeme bei Virtualisierungsszenarien. Hier kommt dem Speicher-Handling eine besondere Bedeutung zu. Die Opterons mit ihren integrierten Speicher-Controllern beherrschen das Nested Paging und sollten konzeptionell im Vorteil sein… (cvi)