In der Domäne von Systemen mit vier oder mehr x86-Prozessoren agiert AMD seit dem Debüt des Opteron äußerst konkurrenzfähig gegen Intel. Das Konzept mit den flexiblen HyperTransport-Schnittstellen sowie den Speicher-Controllern in der CPU erwirkt in Mehrwegesystemen besonders bei speicherintensiven Szenarios Vorteile.
Nicht ohne Grund beschreitet Intel mit der Nehalem-Architektur diesen erfolgversprechenden Pfad in Bälde ebenfalls. Doch im Xeon-MP-Segment, also für Systeme mit vier oder acht Prozessoren, wird mit Nehalem EX erst in der zweiten Jahreshälfte 2009 der Architekturschwenk vollzogen.
Neu: Test von Intels Xeon-5600-Serie mit Hexa-Core für 2-Sockel-Server |
Im September 2007 konnte Intel mit der Caneland-Plattform und den Xeon-7300-Prozessoren bereits Boden auf AMD gut machen. Die Quad-Core-Xeons mit 65-nm-Core-Architektur müssen sich allerdings mit einem „klassischen“ FSB1066 begnügen. Die Kommunikation zwischen den CPUs und zum Speicher erfolgt über den Chipsatz. Um unnötigen Busverkehr zu vermeiden, verfügen die Xeon-7300-Topmodelle über 8 MByte L2-Cache. Der Clarksboro-Chipsatz 7300 arbeitet zusätzlich mit einem 64 MByte fassenden Snoop-Filter-Cache. Dieser Puffer im Chipsatz soll Traffic aus dem Bus filtern und somit die FSB-Auslastung ebenfalls reduzieren.
Intel betreibt viel Aufwand, um bremsende Zugriffe auf den Arbeitsspeicher zu vermeiden. Jetzt wird der Aufwand nochmals erhöht: Für die aktuelle Caneland-Plattform gibt es die neuen Xeon-7400-Prozessoren. Die CPUs arbeiten mit sechs Kernen, 9 MByte L2-Cache sowie zusätzlich 16 MByte L3-Cache. Alles vereint Intel auf einem riesigen Siliziumplättchen.
Im TecChannel-Testlabor tritt Intels neuer 6-Core-Prozessor Xeon X7460 mit 2,66 GHz Taktfrequenz gegen den Vorgänger Xeon X7350 mit 2,93 GHz sowie AMDs Opteron 8356 mit 2,3 GHz Taktfrequenz in 4-Sockel-Systemen an. Wir überprüfen die Performance bei Integer- und Floating-Point-Anwendungen mit massivem Arbeitsspeicherbedarf bis 48 GByte. Die Geschwindigkeit bei Java-Applikationen wird ebenso untersucht wie die Energieeffizienz der 4-Sockel-Systeme.
Details zum 6-Core-Xeon „Dunnington“
Der Xeon MP „Dunnington“ der Serie 7400 bleibt Sockel-kompatibel zur Caneland-Plattform. Der FSB arbeitet unverändert zur Xeon-7300-Serie mit 1066 MHz. Den Xeon 7400 fertigt Intel in der 45-nm-Technologie und integriert alle sechs Kerne auf einem Siliziumplättchen. Insgesamt besteht ein Dunnington-Die aus 1,9 Milliarden Transistoren, die sich auf 503 mm² ausbreiten.
Die sechs Kerne sind in drei „Dual-Core-Segmente“ aufgeteilt. Jedem Segment steht ein eigener 3 MByte fassenden Shared-L2-Cache zur Verfügung. Insgesamt besitzt die CPU somit 9 MByte L2-Cache. Zusätzlich können alle sechs Kerne auf einen gemeinsamen 16 MByte großer L3-Cache zurück greifen.
Intel bietet den Dunnington zum Start als Xeon X7460 mit einer Taktfrequenz von 2,66 GHz an. Die aktuellen Xeon-7300-Quad-Cores arbeiten im Spitzenmodell X7350 mit 2,93 GHz Taktfrequenz. Den TDP-Wert des 6-Core-Prozessors mit 2,66 GHz spezifiziert Intel wie beim X7350 mit 130 Watt.
Neben dem Topmodell X7460 gibt es mit dem Xeon E7450 und L7455 zwei weitere 6-Core-Prozessoren. Der Xeon E7450 arbeitet mit 2,4 GHz Taktfrequenz und 12 MByte L3-Cache. Den TDP-Wert des 2,4-GHz-Xeons stuft Intel auf 90 Watt ein. Die Stromsparvariante Xeon L7455 (12 MByte L3-Cache) begnügt sich mit 65 Watt TDP bei 2,13 GHz Taktfrequenz.
Intel stellt zusätzlich vier Xeon-7400-Prozessoren mit Quad-Core-Technologie vor. Im Vergleich zu den 6-Core-Modellen fehlt diesen CPUs ein „Dual-Core-Segment“ auf dem Siliziumplättchen. Die Xeon-7400-Modelle gibt es mit 2,13 und 2,4 GHz Taktfrequenz in Varianten mit 50 und 90 Watt TDP sowie unterschiedlicher L3-Cache-Größe.
In der Tabelle finden Sie alle neuen Xeon-7400-Prozessoren mit 45-nm-Technologie sowie die bisherigen Xeon-7300-Modelle:
Prozessor |
Taktfrequenz [GHz] |
L2-Cache |
L3-Cache |
Kerne |
TDP [Watt] |
---|---|---|---|---|---|
Xeon X7460 |
2,66 |
3 x 3 MByte |
16 MByte |
6 |
130 |
Xeon E7450 |
2,40 |
3 x 3 MByte |
12 MByte |
6 |
90 |
Xeon L7455 |
2,13 |
3 x 3 MByte |
12 MByte |
6 |
65 |
Xeon E7440 |
2,40 |
3 x 3 MByte |
16 MByte |
4 |
90 |
Xeon E7430 |
2,13 |
3 x 3 MByte |
12 MByte |
4 |
90 |
Xeon E7420 |
2,13 |
3 x 3 MByte |
8 MByte |
4 |
90 |
Xeon L7445 |
2,13 |
3 x 3 MByte |
12 MByte |
4 |
50 |
Xeon X7350 |
2,93 |
8 MByte |
-- |
4 |
130 |
Xeon L7345 |
1,86 |
8 MByte |
-- |
4 |
50 |
Xeon E7340 |
2,40 |
8 MByte |
-- |
4 |
80 |
Xeon E7330 |
2,40 |
6 MByte |
-- |
4 |
80 |
Xeon E7320 |
2,13 |
4 MByte |
-- |
4 |
80 |
Xeon E7310 |
1,60 |
4 MByte |
-- |
4 |
80 |
4-Sockel-System: Inter Server System S7000FCUR
Intels Xeon-7300/7400-Prozessoren testen wir in dem 4-Sockel-Server Intel Server System S7000FCUR. Der 4HE-Rackserver basiert auf Intels Caneland-Plattform mit dem Chipsatz 7300 „Clarksboro“. Über vier unabhängige FSB-Ports steuert der Chipsatz die Prozessoren mit einer Busfrequenz von 1066 MHz an. Damit erlaubt die Caneland-Plattform eine gesamte Busbandbreite von 34 GByte/s.
Intel stattet den 7300er Chipsatz mit einem 64 MByte großer Snoop-Filter-Cache aus. Dieser Puffer im Chipsatz soll Traffic aus dem Bus filtern und somit die FSB-Auslastung reduzieren. Der Snoop-Filter speichert Tags und den Coherency-Status aller Cache-Lines, die mit dem Hauptspeicher kohärent sind. Damit optimiert der Snoop-Filter die Effizienz und Auslastung der FSBs. Daten werden im Snoop-Filter des Chipsatzes nicht gespeichert. Die Snoop-Filter-Größe wird auf die Cache-Größe der Quad-Core-CPUs optimiert.
Beim Speicher steuert der Intel-7300-Chipsatz vier FB-DIMM-Channels mit DDR2-667-SDRAM an. Pro Channel kann der Chipsatz acht DIMMs verwalten. Im Intel Server System S7000FCUR sitzen die DIMMs auf vier einfach entnehmbaren Speicherkarten. In unserem Testsystem sind 32 GByte Arbeitsspeicher verbaut – pro Channel vier 2-GByte-FB-DIMMs.
Für eine redundante Stromversorgung sorgen beim S7000FCUR-Server zwei 1570-Watt-Netzteile. Als Massenspeicher dienen zwei 2,5-Zoll-SAS-Festplatten Seagate Savvio 10K.2. Insgesamt bietet der S7000FCUR Platz für acht 2,5-Zoll-Festplatten.
Testvorbetrachtung
Die vier 6-Core-Prozessoren Xeon X7460 mit 2,66 GHz Taktfrequenz vergleichen wir im identischen 4-Sockel-Server Intel Server System S7000FCUR gegen die vier Quad-Core-Vorgängermodelle Xeon X7350 mit 2,93 GHz Taktfrequenz. Den Intel-Prozessoren stellen wir vier AMD Opteron 8356 mit 2,3 GHz Taktfrequenz im 4-Sockel-Server Calleo 501 von transtec entgegen. Sowohl dem Intel- als auch AMD-System stehen 32 GByte DDR2-667-Arbeitsspeicher zur Verfügung.
Um die Leistungsfähigkeit der 4-Sockel-Systeme gegenüber 2-Sockel-Systeme zu überprüfen, nehmen wir in den Test zusätzlich den Xeon L5430 (2,66 GHz) und X5470 (3,33 GHz) sowie den Opteron 2356 mit 2,3 GHz Taktfrequenz auf. Der 3,33-GHz-Quad-Core-Xeon arbeitet in dem 2-Sockel-Server-Plattform „Stoakley“ von Intel. Für den Opteron 2356 verwenden wir den 2-Sockel-Server Fujitsu Siemens Primergy RX330 S1. Beide Systeme greifen auf jeweils 16 GByte DDR2-667-SDRAM in gepufferter Ausführung zurück.
Bei unserer Performance-Analysen der Prozessoren haben wir Benchmarks gewählt, die vom Storage-Subsystem weitgehend unabhängig sind und die Workloads sich im Arbeitsspeicher halten.
Als Betriebssystem setzen wir Windows Server 2008 Enterprise x64 ein.
CPU2006 Integer: SPECint_rate_base2006
Wir setzen die SPEC-Benchmarks unter Windows Server 2008 Enterprise x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 10.1 und Fortran 10.1 in der 64-Bit-Version und MS Visual Studio 2005 .NET für alle Integer-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz.
Bei den Integer-Berechnungen von SPECint_rate_base2006 ermittelt die Benchmark-Suite CPU2006 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Integer-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standard-Software.
Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECint_rate_base2006 der Anzahl der Prozessorkerne des Systems. Beim 4-Sockel-System Intel Server System S7000FCUR mit vier Xeon X7460 arbeiten 24 Kopien parallel. Der 4-Sockel-Server Calleo 501 von transtec mit vier Opteron 8356 muss 16 Kopien handhaben.
CPU2006 Floating Point: SPECfp_rate_base2006
Wir setzen die SPEC-Benchmarks unter Windows Server 2008 Enterprise x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 10.1 und Fortran 10.1 in der 64-Bit-Version und MS Visual Studio 2005 .NET für alle Floating-Point-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz.
Bei den Floating-Point-Berechnungen von SPECfp_rate_base2006 ermittelt die Benchmark-Suite CPU2006 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Floating-Point-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standard-Software.
Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECfp_rate_base2006 der Anzahl der Prozessorkerne des Systems. Beim 4-Sockel-System Intel Server System S7000FCUR mit vier Xeon X7460 arbeiten 24 Kopien parallel. Der 4-Sockel-Server Calleo 501 von transtec mit vier Opteron 8356 muss 16 Kopien handhaben. SPECfp_rate_base2006 benötigt im 64-Bit-Modus pro Kopie bis zu 2 GByte Arbeitsspeicher. Entsprechend rüsten wird den Intels-Server für den SPECfp_rate_base2006-Test der vier 6-Core-Xeons auf 48 GByte RAM auf.
Intels 10.1-Compiler bieten mit dem Switch –QxO eine offizielle SSE3-Unterstützung für „Non-Intel-Processors“ (erstmals mit Verion 10.0). Mit dieser Compiler-Option führten wir die CPU2006-Benchmarks für die Opteron-Prozessoren durch. Bei den Xeon-CPUs nutzten wir das Compiler-Flag –fast. Hier wählen die Intel-Compiler automatisch die optimale Befehlssatzunterstützung.
SPECjvm2008: Java Virtual Machine Performance
Mit SPECjvm2008 stellt die Standard Performance Evaluation Corporation (SPEC) einen Benchmark für die Performance von Systemen unter Java Runtime Environment (JRE) zur Verfügung. Die Evaluierungs-Software zur Ermittlung der Java-Performance wurde von SPEC in Zusammenarbeit mit AMD, Bea, Hewlett Packard, IBM, Intel und Sun entwickelt.
Für die Performance des Systems in einer Java Virtual Machine zeigt sich neben der Wahl der Java-Engine die Prozessoren sowie die Speicherarchitektur verantwortlich. SPECjvm2008 startet eine JVM und führt einen Multithread-Workload durch. Alle Prozessorkerne eines Systems werden von SPECjvm2008 ausgenutzt.
SPECjvm2008 arbeitet mit einem Base-Run, bei dem keine speziellen Tuning-Maßnahmen durch Flags und Optimierungen erlaubt sind. Damit wird die Java-Performance der Systeme mit der installierten JVM ermittelt. Zehn verschiedene Tests wie Compilieren, Rendering, Verschlüsselung oder Komprimierung werden durchgeführt. Beim Peak-Run lassen sich für jeden Test Optimierungen für die JVM einstellen.
Wir führen SPECjvm2008 im Base-Run unter Windows Server 2008 Enterprise x64 mit der JRE Bea JRockit 6 R27 in der 64-Bit-Version durch:
SPECpower: Maximale Java-Performance
SPECpower_ssj2008 ermittelt neben der Energieeffizienz bei 100 Prozent Prozessorauslastung auch die maximale Java-Performance des Systems. Als Java-Engine unter Windows Server 2008 Enterprise x64 dient Bea JRockit in der 64-Bit-Version 6 R27.
SPECpower_ssj2008 nutzt einen anderen Workload als SPECjvm2008. Außerdem arbeiten bei SPECpower_ssj2008 nicht nur eine JVM, sondern mehrere virtuelle Java-Instanzen. Bei den getesteten 4-Sockel-Systemen sind vier JVMs aktiv. Jede JVM agiert multithreaded mit der Anzahl der CPU-Kerne pro Sockel. Bei diesem konfigurierbaren Setup erzielt SPECpower_ssj2008 bei 4-Sockel-Systemen die besten Ergebnisse.
Bei diesem Test sind die Energiespar-Optionen der Prozessoren aktiv, die erreichbare Performance wird durch die Vollauslastung der CPUs allerdings nicht beeinflusst.
SPECpower: Energieeffizienz Performance/Watt
Der Gesamtwert von SPECpower_ssj2008 steht für die Energieeffizienz des Systems. Der Benchmark gibt die gemittelte Performance pro Watt an, die über alle Lastzustände von 10 bis 100 Prozent gemessenen werden.
Um die Energiesparoptionen der Prozessoren zu nutzen, arbeitet Windows Server 2008 Enterprise x64 mit dem Energieschemata „Ausbalanciert“. SpeedStep (Intel) und PowerNow! (AMD) zum dynamischen Regeln von Taktfrequenz und Core-Spannung je nach CPU-Auslastung sind bei den SPECpower-Benchmark aktiv:
Jetzt wird bei den Energieoptionen von Windows Server 2008 das Schemata „Höchstleistung“ ausgewählt. Die Prozessoren arbeiten immer mit voller Taktfrequenz und Core-Spannung. Die dynamischen Powermanagement-Funktionen SpeedStep (Intel) und PowerNow! (AMD) sind beim Schemata „Höchstleistung“ nicht aktiv.
Im folgenden Diagramm sehen Sie die Auswirkungen des deaktivierten CPU-Powermanagements auf die Energieeffizienz der Systeme:
SPECpower: Kurven Energieeffizienz
Der Energieeffizienz-Benchmark SPECpower_ssj2008 ermittelt für jeden Lastzustand von 10 bis 100 Prozent die Performance/Watt-Werte der Systeme. Hier zeigt sich, je höher die Prozessorauslastung ist, desto besser ist die Energieeffizienz des gesamten Systems.
In den Diagrammen wird die Performance/Watt von 10 bis 100 Prozent in den roten Balken dargestellt. Die blaue Kurve zeigt zusätzlich den Energieverbrauch des Systems bei der entsprechenden Prozessorauslastung an. Links in den Bildern sehen Sie jeweils die Ergebnisse mit aktivem Prozessor-Powermanagement, rechts bei inaktivem SpeedStep (Intel) oder PowerNow! (AMD):
SPECpower: Maximaler Energieverbrauch
SPECpower_ssj2008 ringt dem Testsystem im Lastzustand 100 Prozent den maximalen Energieverbrauch ab. Alle Kerne der Prozessoren sind voll ausgelastet. Die aktiven JVMs fordern zusätzlich den Arbeitsspeicher der Systeme.
SPECpower: Minimaler Energieverbrauch
SPECpower_ssj2008 führt neben den Lasttests zusätzlich Kalibrierungsmessungen über den Energieverbrauch bei Leerlauf durch. Dabei wird der minimale Energiebedarf des Systems ermittelt.
Im folgenden Diagramm vergleichen wir den Systemverbrauch unter Windows Server 2008 Enterprise x64 mit dem Energie-Schemata „Ausbalanciert“. Die Prozessoren nutzen ihre Powermanagement-Features SpeedStep (Intel) und PowerNow! (AMD) aus:
Jetzt wird bei den Energieoptionen von Windows Server 2008 das Schemata „Höchstleistung“ ausgewählt. Die dynamischen Powermanagement-Funktionen SpeedStep (Intel) und PowerNow! (AMD) sind beim Schemata „Höchstleistung“ nicht aktiv:
Analyse: SunGard ACR
SunGards Adaptiv Credit Risk 4.0 ist ein Analysetool für den Finanzbereich. Basierend auf modifizierten Monte-Carlo-Simulationen berechnet das Programm den künftigen Wert einer Anlage auf Basis vorhandener Marktdaten.
SunGards Adaptiv Credit Risk wurde in C# für Microsofts .NET-Umgebung programmiert. Spezielle Mathematik-Bibliotheken wie Intels MKL oder AMDs Core Math Library ACML verwendet Adaptiv Credit Risk nicht. Das Analysetool arbeitet multithreaded und unterstützt Multiprozessor-Systeme optimal. SunGard rechnet überwiegend mit Integer-Operationen. Speicherzugriffe halten sich bei Adaptiv Credit Risk in Grenzen.
AMD & Intel: Listenpreise
In der Tabelle finden Sie die Preise der aktuellen Xeon- und Opteron-Preise für Systeme mit vier oder mehr Sockeln. Bei AMDs Preisliste gab es am 01. September 2008 die letzten Änderungen. Intels Preisliste wurde am 14. September 2008 aktualisiert.
Modell |
Taktfrequenz /FSB [MHz] |
Listenpreis [US-Dollar] |
---|---|---|
AMD K10-Quad-Core |
||
Opteron 8360 SE |
2500 / 1000 |
2149 |
Opteron 8358 SE |
2400 / 1000 |
1865 |
Opteron 8356 |
2300 / 1000 |
1514 |
Opteron 8354 |
2200 / 1000 |
1165 |
Opteron 8350 |
2000 / 1000 |
873 |
Opteron 8347 HE |
1900 / 1000 |
873 |
Opteron 8346 HE |
1800 / 1000 |
698 |
Intel Xeon MP |
||
Xeon X7460 |
2667 / 1066 |
2729 |
Xeon E7450 |
2400 / 1066 |
2301 |
Xeon L7455 |
2133 /1066 |
2729 |
Xeon E7440 |
2400 / 1066 |
1980 |
Xeon E7430 |
2133 /1066 |
1391 |
Xeon E7420 |
2133 /1066 |
1177 |
Xeon L7445 |
2133 /1066 |
2729 |
Xeon X7350 |
2933 / 1066 |
2301 |
Xeon L7345 |
1867 / 1066 |
1498 |
Xeon E7340 |
2400 / 1066 |
1980 |
Xeon E7330 |
2400 / 1066 |
1391 |
Xeon E7320 |
2133 / 1066 |
1177 |
Xeon E7310 |
1600 / 1066 |
856 |
Fazit
Intel sichert sich mit dem Hexa-Core-Prozessor Xeon X7460 bei 4-Sockel-Systemen in unseren Testszenarios mit immensem Aufwand mehr Performance als AMDs Opteron. Bei speicherintensiven Anwendungen kaschiert der extrem üppige Cache von 9 MByte L2-Cache plus 16 MByte L3-Cache pro Prozessor die Schwächen der „klassischen“ Intel-Architektur mit FSBs und Speicherkommunikation über den Chipsatz. So liegt AMDs Opteron bei 4-Sockel-Systemen beim Fließkommatest des Industrie-Benchmarks SPECfp_rate_base2006 nicht mehr einsam in Führung. Allerdings schafft das AMD-System eine ähnlich gute Floating-Point-Performance mit 16 statt 24 Kernen und mit nur 2 MByte L3-Cache pro CPU. Die Speicher-Performance der AMD-Systemarchitektur ist konzeptbedingt einfach besser.
In der Integer-Performance ist der 4-Sockel-Intel-Server mit den 6-Core-Xeons dafür eine Klasse für sich. Allerdings skaliert die Performance des 4-Sockel-Intel-Servers beim Wechsel von 2,93-GHz-Quad-Core-Xeons auf die neuen 6-Core-Xeons oft nicht mehr besonders gut. Hier hängt es auch sehr von der eingesetzten Software ab, wie das Thread-Handling beim Sprung von 16 auf 24 Kernen bewältigt wird. Einige Anwendungen wie 3ds Max 2009 für Rendering verweigern beispielsweise mit 24 Kernen komplett den Dienst – bei 16 ist Schluss.
Bei der Energieeffizienz der von uns betrachteten 4-Sockel-Systeme sieht es zwischen AMD und Intel ausgeglichen aus. Zwar liefern die Hexa-Core-Xeons im Intel Server S7000FCUR beim Industrie-Benchmark SPECpower eine deutlich höhere Java-Performance als das 4-Sockel-Opteron-System, der Energiebedarf ist jedoch ebenfalls viel höher. Bei den 2-Sockel-Systemen fällt die Energieeffizienz noch deutlich zu Gunsten des Intel-Servers aus.
In dieser ersten Performance-Betrachtung ermöglichen die 6-Core-Xeon-Prozessoren im 4-Sockel-System einen Sieg für Intel gegen AMD. Im nächsten Schritt untersuchen wir die Performance der 4-Sockel-Systeme bei Virtualisierungsszenarien. Hier kommt dem Speicher-Handling eine besondere Bedeutung zu. Die Opterons mit ihren integrierten Speicher-Controllern beherrschen das Nested Paging und sollten konzeptionell im Vorteil sein… (cvi)