Nehalem-EX vs. AMD 12-Core-Opteron 6100

Intel Xeon X7560 - Neue 8-Core-CPU im Test

30.03.2010 von Christian Vilsbeck
Intel vollzieht mit der neuen Xeon-7500-Serie einen Architekturwechsel. Durch seine hohe Skalierfähigkeit sowie ausgeklügelten Sicherheits-Features soll die neue Xeon-MP-Generation mehr als nur pure Performance bieten.

Mit der Xeon-7500-Serie - Codename „Nehalem-EX“ - bietet Intel seine neue CPU-Generation für Server mit zwei, vier und mehr Sockeln an. Die Prozessoren treten die Nachfolge der Xeon-7400-Serie an. Mit 45-nm-Core-Architektur und sechs Kernen setzen die 7400er CPUs noch auf die klassisch ausgelegte Xeon-MP-Plattform Caneland mit „klassischen“ FSBs zum Chipsatz, der wiederum den Speicher ansteuert.

Bei seiner neuen Xeon-7500-Generation krempelt Intel die CPU nebst zugehöriger Plattform komplett um. Die aus den Core-2-Desktop-CPUs bekannte Prozessorarchitekur muss dem 45-nm-Nehalem-Design weichen - allerdings kräftig aufgewertet. So produziert Intel mit dem Xeon 7500 erstmals einen 8-Core-Prozessor. Zusätzlich integriert der Hersteller auf dem Siliziumplättchen einen L3-Cache von sehr üppigen 24 MByte.

Bildergalerie: Alle Benchmarks des Xeon X7560 im Überblick.
CPU2006 64 Bit - Multitasking - SPECint_rate_base2006
Die zwei Xeon X7560 platzieren sich zwischen den Hexa-Core-Xeon-5600-Modellen. Das Ergebnis ist gut, bedenkt man, dass die CPUs zwar acht statt sechs Kerne haben, aber mit deutlich geringerer Taktfrequenz arbeiten. Müssen die zwei Xeon X7560 aber nur mit ihrem eigenen Speicher auskommen (ohne FlexMem), so sinkt die Performance auf das Niveau der Opteron-6174-CPUs. Sehr groß ist allerdings der Sprung gegenüber der Xeon-7400-Vorgängerplattform – zwei Xeon X7560 (2,26 GHz / 8 Core) sind schneller als vier Xeon X7460 (2,66 GHz / 6 Core).
CPU2006 64 Bit - Multitasking - SPECint_rate_2006 - optimierte Herstellerangaben
Mit speziellen Compilern und Bibliotheken wird das Integer-Leistungsvermögen gegenüber unseren Standardeinstellungen fast verdoppelt. Der Opteron 6174 liegt jetzt auf einem Niveau mit Intels Xeon X5680. Offiziell gemeldete Werte für den Xeon X7560 liegen uns noch nicht vor. Sobald wir diese erhalten, ergänzen wir das Diagramm. Uns vorliegende inoffizielle Werte des Xeon X7560 liegen auf dem Niveau des Opteron 6174.
CPU2006 64 Bit - Multitasking - SPECfp_rate_base2006
Bei den sehr speicherintensiven Durchsatztests mit Floating-Point-Programmen profitiert das Xeon-X7560-Päärchen deutlich von der der zusätzlichen Bandbreite der FlexMem-Technologie. Steht den 8-Core-Xeons nur der eigene Speicher zur Verfügung, bricht die Performance um 31 Prozent ein. Der Speicherdurchsatz ist trotz der vielen Kanäle durch Latenzzeiten der SMBs beschränkt. Stark präsentiert sich das Opteron-6174-Duett. Die AMD-CPUs gewinnen deutlich von ihrer hohen Speicherbandbreite mit vier DDR3-1333-Channels pro CPU. Einen deutlichen Geschwindigkeitsprung machen die zwei Xeon X7650 im Vergleich zu den Vorgängern, die selbst in der 4-Sockel-Konfiguration deutlich langsamer sind.
CPU2006 64 Bit - Multitasking - SPECfp_rate_2006 - optimierte Herstellerangaben
Bei den sehr speicherintensiven und damit Speicherbandbreiten-abhängigen Fließkommaszenarios lässt sich die Performance durch spezielle Compiler und Bibliotheken gegenüber unseren Standardeinstellungen um zirka 11 bis 23 Prozent steigern. An der Reihenfolge der Prozessoren und somit am Kräfteverhältnis ändert sich allerdings nichts. Offiziell gemeldete Werte für den Xeon X7560 liegen uns noch nicht vor. Sobald wir diese erhalten, ergänzen wir das Diagramm. Uns vorliegende inoffizielle Werte des Xeon X7560 liegen in etwa zwischen dem Xeon X5680 und Opteron 6174.
STREAM 5.8 OMP 64 Bit - Speicherbandbreite
Die beiden Xeon X7560 erreichen nur die halbe Bandbreite der Xeon-5600-Serie. Der etwas enttäuschende Durchsatz wird auch durch die Latenzzeiten der SMBs verursacht. Mit einer gcc-compilierten Linux-Variante von STREAM holt das Xeon-X7560-Päärchen immerhin etwas 28 GByte/s aus dem Speicher. Deutlich langsamer sind dagegen die Vorgänger Xeon X7460 mit klassischer FSB/Chipsatz-Anbindung. Die beiden Opteron-6174-Prozessoren holen aus den insgesamt acht DDR3-1333-Channels dagegen einen Speicherdurchsatz von 51,8 GByte/s heraus.
SPECjvm2008 - Base Run - Performance Java Runtime Environment
Eine sehr gute Java-Leistung erzielen die Xeon-5600-Prozessoren mit Hexa-Core-Technologie. Die Octa-Core-Xeons liegen schon abgeschlagen zurück; sie streiten sich mit den Zwölfkern-Opterons um die Plätze. Immerhin bieten zwei Xeon X7650 exakt die gleiche Performance als vier Xeon X7460.
SPECpower_ssj2008 - Java-Performance - 100 Prozent Load
Der Workload ist speicherintensiver als bei SPECjvm2008 und skaliert besser mit der Anzahl der Prozessoren / Kerne. Jetzt zeigen Intels neue 8-Core-Prozessoren Xeon X7650 erstmals ihr volles Potenzial an Rechenleistung. Auch die Opteron-6174-CPUs können ihre vielen Kerne ausnutzen und sie profitieren von der hohen Speicherbandbreite der vier DDR3-1333-Channels pro CPU. Extrem langsam sind im Vergleich die vier Xeon X7460 (Hexa-Core). Die klassische FSB-/Chipsatz-Architektur der Plattform wirkt stark bremsend.
SPECpower_ssj2008 - Performance/Watt - CPU-Powermanagement on
Zwar ist der Dell PowerEdge R810 mit den Xeon-X7650-CPUs nicht hohe Energieeffizienz getrimmt, dennoch zeigt sich ein erheblicher Fortschritt im Vergleich zur Xeon-7400-Plattform. Bei den sehr vergleichbar ausgestatteten Xeon-5500/5600- und Opteron-Plattformen wird mit AMDs 12-Core-Prozessoren die höchste Effizienz erreicht.
SPECpower_ssj2008 - Performance/Watt - CPU-Powermanagement off
Mit inaktivem SpeedStep reduzieren die zwei Xeon X7560 sowie die Xeon X5570 die Systemeffizienz um zwei Prozent (beide 45-nm-Nehalem). Beim Xeon X5670 und X5680 sinkt die Effizienz um knapp ein Prozent (32-nm-Westmere). Beim Opteron-6174-System geht die Effizienz ohne PowerNow! um ein knappes Prozent zurück.
SPECpower_ssj2008 - Energieaufnahme Plattform unter Volllast
Die beiden Xeon X7650 sind mit 130 Watt TDP eingestuft. Der als Plattform dienende Dell PowerEdge R810 ist durch seine Ausstattung mit zwei 1100-Wattnetzteilen deutlich mehr PCI-Express-Schnittstellen etwas im Nachteil gegenüber den Xeon-5500/5600- und Opteron-Systemen. Dennoch zeigt sich, dass im Segment der Server mit zwei Prozessoren es deutlich sparsamere Lösungen gibt als ein Xeon-7500-System. Sehr energiehungrig zeigt sich das Xeon-X7460-System mit vier CPUs. Neben den 130-Watt-TDP-Xeons sorgen auch die stromhungrigen FB-DIMMs sowie die zwei 1570-Watt-Netzteile für einen deutlichen Mehrverbrauch.
SPECpower_ssj2008 - Energieaufnahme Plattform im Leerlauf - Energiesparmodus an
Das 4-Sockel-System Dell PowerEdge R810 mit zwei bestückten Xeon X7560 ist zwar nicht auf geringste Energieaufnahme getrimmt, trotzdem sind mit zwei CPUs die Opteron- und Xeon-5500/5600-Plattformen massiv sparsamer im Leerlauf. Gegenüber der Vorgängerplattform mit Xeon-7400-CPUs und FB-DIMM-Technologie zeigt sich die neue 7500er Plattform jedoch deutlich genügsamer.
SPECpower_ssj2008 - Energieaufnahme Plattform im Leerlauf - Energiesparmodus aus
Im Leerlauf steigt bei den Xeon X7560 der Energiebedarf ohne SpeedStep lediglich um ein Watt. Beim Xeon X5680 (32-nm-Westmere) erhöht sich der Konsum dagegen um sieben Watt. Die Opteron-6174-Modelle erhöhen ihren Energiebedarf im Leerlauf ohne PowerNow! sogar um 14 Watt.
SunGard ACR 4.0 64 Bit - Monte Carlo Simulation
Trotz Octa-Core-Technologie sowie zusätzlichem Hyper-Threading müssen sich zwei Xeon X7560 den zwei Xeon X5680 (Hexa-Core + Hyper-Threading) geschlagen geben. Die Xeon-X5680-CPUs arbeiten mit einer deutlich höheren Taktfrequenz. Die Speicherbandbreite und –zugriffe halten sich hier stark in Grenzen, wie auch der kaum messbare Unterschied zwischen den Xeon-X7560-CPUs mit und ohne FlexMem zeigt.
openSSL 0.9.8b 64 Bit - Encryption RSA2048
Der Test läuft überwiegend im Cache ab. Die 8-Core-Xeons X7560 verschlüsseln fast so schnell wie die mit 3,33 GHz Taktfrequenz agierenden 6-Core-Xeons X5680. Erstmals sind die „alten“ Xeon X7460 schneller als die Nachfolgegeneration Xeon X7560 – allerdings nur durch die doppelte Prozessoranzahl.
openSSL 0.9.8b 64 Bit - Decryption RSA2048
Auch das Entschlüsseln erledigen die 32-nm-Hexa-Core-Xeons X5680 etwas schneller als die Octa-Core-Xeons X7560. Auch hier kommt noch kein AES-NI der 32-nm-Xeon-5600-Serie zum Einsatz.
CINEBENCH 11.5 64 Bit - Single-Thread-Rendering
Beim Rendering wird jetzt nur ein Prozessorkern verwendet – Multi-Core nutzt hier nichts. Durch die Turbo-Technologie arbeitet der Xeon X7560 jetzt mit 2,66 statt 2,26 GHz Taktfrequenz. Deswegen überholt der Xeon X7560 auch den Xeon X7460, der mit 2,66 GHz arbeitet und auf der 45-nm-Penryn-Architektur basiert. Der Opteron 6174 liegt durch seine geringe Taktfrequenz von 2,2 GHz auf dem letzten Platz.
CINEBENCH 11.5 64 Bit - Multi-Thread-Rendering
Jetzt nutzt CINEBENCH alle verfügbaren Prozessorkerne. Die zwei Xeon X7560 bieten mit 8-Core-Architektur (plus Hyper-Threading) das Leistungsniveau der 12-Core-Opteron-CPUs. Wie es mit weniger Kernen noch schneller geht, zeigt Intels 32-nm-Xeon X5680. An der Spitze liegt der Hexa-Core-Prozesssor Xeon X7460 – aber nur, weil hier vier CPUs im Einsatz sind.

Vorbei sind auch die Zeiten des Speicher-Controllers im Chipsatz – dem größten Schwachpunkt der Xeon-7400-Server. Bei der neuen Xeon-7500-Serie warten die CPUs mit zwei integrierten Speicher-Controllern für acht DDR3-DIMM-Channels auf. Die Kommunikation zwischen den Prozessoren erfolgt über QuickPath-Schnittstellen. Mit diesem Konzept ist AMD in 4-Wege-Servern durch die höheren Bandbreiten seit Jahren Intel überlegen.

Bildergalerie: Xeon X7560 mit Sockel und FlexMem.
Intel-Xeon-7500-Serie
Der Xeon X7560 mit Octa-Core arbeitet mit 2,26 GHz Grundtaktfrequenz. Per Turbo Mode können einzelne Kerne mit bis zu 2,66 GHz arbeiten. Den acht Kernen steht ein 24 MByte großer gemeinsamer L3-Cache zur Verfügung.
Xeon X7560 mit Octa-Core
Platz nehmen Intels Xeon-7500-Prozessoren in dem neuen Sockel LGA1567.
Xeon X7560 mit Octa-Core
Dell entwickelte mit FlexMem ein spezielle Technologie, um in einem 4-Sockel-Xeon-7500-System, dass nur mit zwei CPUs bestückt ist, trotzdem die DIMM-Sockel der unbelegten CPUs nutzen zu können.
Xeon X7560 mit Octa-Core
Statt eines teuren Xeon 7500 steckt in unbelegten CPU-Sockeln die von Dell entwickelte FlexMem Bridge. So können die vorhandenen CPUs auch den Speicher nutzen, die am unbelegten Socket LGA1567 zugeordnet sind.
Xeon X7560 mit Octa-Core
Als Testsystem für die Xeon-X7560-Prozessoren dient uns der neue Dell-Server PowerEdge R810.
Xeon X7560 mit Octa-Core
Der 2U-Server für vier Prozessoren ist in unserer Konfiguration mit zwei Xeon X7560 ausgestattet. In den unbelegten CPU-Sockets (in der Bildmitte oben und unten) steckt die FlexMem-Bridge, damit die zwei verbauten CPUs auch den Speicher der nicht vorhandenen Prozessoren nutzen kann (Ausnutzung aller DIMM-Slots).

Intel will mit seiner neuen Xeon-7500-Plattform aber nicht nur in der Performance einen großen Schritt machen, sondern auch die Betriebssicherheit erhöhen. Für diesen Zweck unterstützt der Xeon 7500 die neue MCA-Technologie, die Hardware-Fehler im Prozessor und Speicher im laufenden Betrieb abfängt. Damit wildert Intel klar im Revier der RISC-Maschinen sowie des eigenen Itaniums.

Mit dem Xeon 7500 will Intel vor allem hohe Bandbreiten, große Mengen an Arbeitsspeicher und Durchsatz bieten. Ähnlich wie AMD mit seiner neuen Opteron-6100-Serie positioniert Intel neue Xeon-7500-Modelle auch in einer „neuen Kategorie“ von 2-Sockel-Systemen. Gerade bei Konsolidierungszwecken kann ein Server oft nicht mit genug Arbeitsspeicher ausgerüstet sein. DIMM-Module mit der höchsten Kapazität sind oft sehr teuer, mit Standardriegel lässt sich der Arbeitsspeicher günstiger ausbauen – wenn entsprechend viele DIMM-Slots zur Verfügung stehen.

Bildergalerie: Intel Xeon 7500 Serie - Produktpräsentation.
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)

Im TecChannel-Testlabor überprüfen wir die Leistungsfähigkeit des neuen Topmodells Xeon X7560 in dem ebenfalls neuen Dell PowerEdge R810. Der Server besitzt vier CPU-Steckplätze, ist aber nur mit zwei Xeon X7560 ausgerüstet. Somit ergibt sich ein idealer Vergleich zu den konkurrierenden 2-Sockel-Konfigurationen mit AMDs 12-Core-CPU Opteron 6174 und den Opteron-Serien 2300/2400 und Intels Xeon-5500/5600-Serie. Außerdem nehmen wir einen 4-Sockel-Server mit vier 6-Core-CPUs Xeon X7460 Dunnington zur Leistungseinordnung des Vorgängermodells des neuen Xeon X7560 in den Vergleich mit auf.

Wir überprüfen die Performance der CPUs bei Integer- und Floating-Point-Anwendungen sowie bei Verschlüsselung, Rendering und Simulation. Die Geschwindigkeit bei Java-Applikationen wird ebenso untersucht wie die Energieeffizienz der Zwei-Sockel-Systeme. Außerdem messen wir den Speicherdurchsatz der Server.

Xeon 7500 mit Turbo und 16 Threads

Intel vereint beim neuen Xeon 7500 „Nehalem-EX“ alle acht Kerne sind auf einem Siliziumplättchen. Laut Intel benötigt die Octa-Core-CPU 2,3 Milliarden Transistoren. Das Vorgängermodell Xeon X7460 mit sechs Kernen und 25 MByte Cache (9M L2-Cache, 16M Shared L3-Cache) besteht aus 1,9 Milliarden Transistoren.

Intel fertigt den Nehalem EX weiterhin im 45-nm-Prozess. Jedem der acht Kerne steht ein dedizierter 256 KByte großer L2-Cache zur Verfügung. Für alle Cores gibt es einen gemeinsamen bis zu 24 MByte (je nach Modell) fassenden L3-Cache. Intel teilt die dritte Pufferstufe in acht 3-MByte-Segmente auf, um die Bandbreite beim Zugriff zu optimieren. Damit soll ein Transfer zu den Kernen mit zirka 200 GByte/s möglich sein. Die Latenzzeit beziffert Intel mit 21 ns.

Üppig: Intel spendiert seiner Octa-Core-CPU Xeon 7500 einen 24 MByte großen L3-Cache. (Quelle: Intel)

Intels 8-Core-Prozessor kann durch sein zusätzliches Hyper-Threading pro Kern insgesamt 16 Threads parallel abarbeiten. Neben den Octa-Core-Modellen gibt es die Xeon-7500-Serie auch in Varianten mit vier und sechs Kernen. So markiert der vierkernige Xeon E7520 mit 1,86 GHz Taktfrequenz den Einstieg der Serie. Am oberen Ende rangiert das Topmodell Xeon X7560 mit 2,26 GHz Taktfrequenz und Octa-Core.

Topmodell: Der Xeon X7560 mit acht Kernen und 24 MByte L3-Cache arbeitet mit 2,26 GHz Grundtaktfrequnenz. Per Turbo Mode können einzelne Kerne mit bis zu 2,66 GHz arbeiten.

Bis auf das Einstiegsmodell beherrschen die Xeon-7500-Modelle die Turbo-Technologie zum Steigern der Taktfrequenz einzelner Kerne. So kann der Xeon X7560 beispielsweise die Taktfrequenz eines Core um bis zu drei „Speed-Bins“ erhöhen. Dies entspricht bei den festgelegten 133 MHz für einen Bin dann einer um 400 MHz erhöhten Taktfrequenz.

Intel stuft die Xeon-7500-Prozessoren mit TDP-Werten von 95, 105 und 130 Watt ein. Während das Topmodell Xeon X7560 mit 130 Watt spezifiziert ist, gibt es auch eine 8-Core-Low-Voltage-Variante mit 95 Watt TDP. Die Taktfrequenz dieses Xeon L7555 beträgt 1,86 GHz.

Hohe Skalierfähigkeit

Intel stattet den Xeon 7500 mit vier QuickPath-Interfaces aus. Damit lassen sich bis zu acht Xeons direkt und ohne zusätzliche Switch-Chips miteinander verbinden. Die QuickPath-Schnittstellen arbeiten pro Link mit einer Bandbreite von 4,8, 5,86 oder 6,4 GT/s (modellabhängig). Im Prozessor sind die vier QPI-Links über einen Crossbar-Router verbunden, der eine Bandbreite von 120 GByte/s erlaubt.

Als Chipsatz für die Xeon-7500-Plattform steht der neue Chipsatz Intel 7500 „Boxboro-EX“ parat. Der Chipsatz ist ein I/O-Hub und ist nur noch als Brücke zwischen den QPI-Links der CPUs und den I/O-Schnittstellen zu sehen. Die Hauptfunktion von Boxboro-EX ist das Bereitstellen von PCI-Express-2.0-Schnittstellen.

FSB ade: Mit der Xeon-7500-Serie führt Intel die QuickPath-Architektur in Mehrwegesystemen ein. Jeder Xeon 7500 verfügt über vier QuickPath-Schnittstellen sowie integrierte Speicher-Channels. (Quelle: Intel)

Mit der Speicheransteuerung hat der Chipsatz bei der neuen Xeon-7500-Plattform nichts mehr zu tun. Jeder Xeon 7500 besitzt zwei integrierte Speicher-Controller. Jeder Controller besitzt zwei sogenannte „Scalable Memory Interfaces“ SMI. Dabei handelt es sich um serielle Highspeed-Links. Die insgesamt vier SMI-Links eines Xeon 7500 steuern jeweils einen eigenen „Scalable Memory Interconnect with Buffers“ SMB an. Jeder SMB kann im Dual-Channel-Mode bis zu vier Registered DDR3-DIMMs mit 800 oder 1066 MHz ansprechen. Die SMBs ersetzen bei der Xeon-7500-Plattform die FB-DIMM-Technologie der Vorgängerplattform mit Xeon-7400-CPUs. Das Memory-Subsystem eines Xeon 7500 kann somit 16 DIMMs via acht Channels ansteuern. In einer 4-Sockel-Konfiguration sind 64 Speicherriegel möglich.

RAS-Features auf RISC-Niveau

Mit der Xeon-7500-Serie bietet Intel eigenen Angaben zufolge erstmals die RAS-Features von RISC-Systemen bei x86-Servern an. Möglich machen soll dies das neue Feature „MCA Recovery“ des Nehalem-EX. Mit der „Machine Check Architecture“ (MCA) sollen Fehler bei CPU, Speicher und I/O entdeckt und korrigiert werden. Defekte bei diesen Komponenten sollen den Betrieb des Servers nicht stören.

RISC-Angriff: Mit dem neuem Feature „MCA Recovery“ soll der Xeon 7500 im x86-Segment erstmals die RAS-Fähigkeit von RISC-Systemen bieten. (Quelle: Intel)

Das Feature „MCA Recovery“ muss von den Betriebssystemen unterstützt werden. Eine Unterstützung wird von den Anbietern entsprechender Enterprise-Betriebssysteme bereits angekündigt. Microsoft unterstützt MCA Recovery mit Windows Server 2008 R2, VMware will künftige Versionen von vSphere anpassen, Novell bereitet sein SUSE Linux Enterprise auf MCA Recovery vor und Red Hat arbeitet ebenfalls an einer entsprechenden Unterstützung.

Alles sicher: Intel integriert in der neuen Xeon-7500-Plattform eigenen Angaben zufolge über 20 neue RAS-Features. (Quelle: Intel)

Mit den Hochverfügbarkeits-Features sowie der hohen Skalierfähigkeit des Nehalem EX macht sich Intel zusätzliche interne Konkurrenz zum Itanium. Hier pochte Intel bisher stets auf die speziellen RAS-Features für den sicheren Betrieb von Mission-Critical-Workloads. Der Itanium sei laut Intel aber weiterhin die „ideale Lösung“ für System mit mehr als acht Prozessoren und höchstem Speicherbedarf.

Alle Xeon-7500-Modelle im Überblick

In der Tabelle finden Sie alle neuen Xeon-7500-Prozessoren mit ihren technischen Daten im Überblick:

Alle Xeon-7500-Modelle im Überblick

Prozessor

Grundtaktfrequenz [GHz]

QPI [GT/s]

Skalierfähigkeit (glueless)

L3-Cache

Kerne

DIMM-Support

Turbo [Speed Bins]

HT

TDP [Watt]

Xeon X7560

2,26

6,4

8 Sockets

24 MByte

8

DDR3-1066

+3

ja

130

Xeon X7550

2,0

6,4

8 Sockets

18 MByte

8

DDR3-1066

+3

ja

130

Xeon X7542

2,66

5,86

8 Sockets

18 MByte

6

DDR3-1066

+1

nein

130

Xeon E7540

2,0

6,4

8 Sockets

18 MByte

6

DDR3-1066

+2

ja

105

Xeon E7530

1,86

5,86

4 Sockets

12 MByte

6

DDR3-1066

+2

ja

105

Xeon E7520

1,86

4,8

4 Sockets

18 MByte

4

DDR3-800

nein

ja

95

Xeon L7555

1,86

5,86

8 Sockets

24 MByte

8

DDR3-1066

+5

ja

95

Xeon L7545

1,86

5,86

8 Sockets

18 MByte

6

DDR3-1066

+5

ja

95

Mehr Speicher mit FlexMem-Bridge

In der Xeon-7500-Plattform kann jede CPU über die QuickPath-Schnittstellen auch auf den Speicher der benachbarten Prozessoren zugreifen. Dadurch erhöht sich die verfügbare Speicherbandbreite eines Xeon 7500. In einer 2-Sockel-Konfiguration steht somit jedem Xeon 7500 auch der Speicher des anderen Prozessors zur Verfügung. Der Zugriff auf den Nachbarspeicher ist zwar deutlich langsamer als auf den eigenen, die Bandbreite wird jedoch erhöht. In einer 4-Sockel-Konfiguration gilt das gleiche Prinzip.

Simulant: Statt einer teuren Xeon-7500-CPU sitzt Dells FlexMem Bridge im CPU-Sockel. Speicheranfragen der anderen Prozessoren werden einfach auf den Speicher durchgeleitet.

Dell entwickelte für die Xeon-7500-Plattform eine eigene Technologie mit der Bezeichnung FlexMem-Bridge. Durch FlexMem können in einem 4-Sockel-System, dass nur mit zwei CPUs bestückt ist, auch die DIMM-Steckplätze der beiden leeren CPU-Sockel bestückt werden. Den beiden verbauten Prozessoren steht somit neben dem eigenen Speicher zusätzlich noch die DIMMs zur Verfügung, die den leeren CPU-Sockeln zugeordnet sind. Da der Zugriff auf den Nachbarspeicher auch über den in der Nachbar-CPU integrierten Router erfolgen muss, funktioniert dieses Prinzip nur bei bestückten Sockeln.

Eigenentwicklung: Dells FlexMem Bridge zählt nicht zur Grundausstattung von Intels Xeon-7500-Plattform.

Damit es trotzdem funktioniert, hat Dell die FlexMem Bridge konzipiert. Die Bridge wird in den CPU-Sockel geklemmt und leitet vereinfacht ausgedrückt die Speicheranfragen der benachbarten CPU einfach zu den „Scalable Memory Interconnect with Buffers“ SMB durch. Wer sein System somit aus Kostengründen oder ausreichender Performance nur mit zwei Xeon-7500-Prozessoren ausstatten will, dem steht durch FlexMem dennoch der Speicherausbau eines voll bestückten 4-Sockel-Servers zur Verfügung.

Unser Testsystem Dell PowerEdge R810 mit vier CPU-Sockeln ist mit zwei Xeon X7560 bestückt. Unsere Benchmarks führen wir jeweils mit und ohne FlexMem-Technologie durch. Die Speicherbandbreite erhöht sich, wenn beide CPUs jeweils noch auf den Speicher der leeren CPU-Sockel zurückgreifen können.

Multitask Integer: SPECint_rate_base2006

Wir setzen die SPEC-Benchmarks unter Windows Server 2008 Enterprise x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 10.1 und Fortran 10.1 in der 64-Bit-Version sowie MS Visual Studio 2005 .NET für alle Integer-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz. Bei den Integer-Berechnungen von SPECint_rate_base2006 ermittelt die Benchmark-Suite CPU2006 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Integer-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standardsoftware.

Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECint_rate_base2006 der Anzahl der Prozessorkerne des Systems. Beispielsweise arbeiten beim Zwei-Sockel-Server mit Opteron-6174-CPUs 24 Kopien parallel. Beim Westmere-EP-System mit Xeon X5670 und X5680 (Hexa-Core) sind durch das zusätzliche Hyper-Threading 24 virtuelle Kerne vorhanden. Entsprechend laufen auch hier 24 parallele Kopien mit einem Speicherbedarf von 2 GByte RAM pro Kopie. Das Xeon-X7560-System mit den zwei 8-Core-CPUs verlangt durch das zusätzliche Hyper-Threading nach 32 Kopien.

SPECint_rate_base2006: Die zwei Xeon X7560 platzieren sich zwischen den Hexa-Core-Xeon-5600-Modellen. Das Ergebnis ist gut, bedenkt man, dass die CPUs zwar acht statt sechs Kerne haben, aber mit deutlich geringerer Taktfrequenz arbeiten. Müssen die zwei Xeon X7560 aber nur mit ihrem eigenen Speicher auskommen (ohne FlexMem), so sinkt die Performance auf das Niveau der Opteron-6174-CPUs. Sehr groß ist allerdings der Sprung gegenüber der Xeon-7400-Vorgängerplattform – zwei Xeon X7560 (2,26 GHz / 8 Core) sind schneller als vier Xeon X7460 (2,66 GHz / 6 Core).

Intels 10.1-Compiler bieten mit dem Switch -QxO eine offizielle SSE3-Unterstützung für „Non-Intel-Processors“ (erstmals mit Version 10.0). Mit dieser Compiler-Option führten wir die CPU2006-Benchmarks für die Opteron-Prozessoren durch. Bei den Xeon-CPUs nutzten wir das Compiler-Flag -fast. Hier wählen die Intel-Compiler automatisch die optimale Befehlssatzunterstützung. Zusätzlich testen wir den Xeon X5570, X5670, X5680 und X7560 für eine optimale Vergleichbarkeit mit dem Opteron 2435 und 6174 ebenfalls mit -QxO:

SPECint_rate_base2006

Compiler-Option

-fast (automatisch)

-QxO (SSE3)

Xeon X7560 FlexMem

242

224

Xeon X5570

176

165

Xeon X5670

237

220

Xeon X5680

257

235

Opteron 2435

--

112

Opteron 6174

--

193

Die Xeon-Prozessoren verlieren durch die Einstellung –QxO zirka sechs bis neun Prozent Performance.

Multitask Integer: SPECint_rate_base2006 optimiert

Unter Einsatz optimierter Compiler und spezieller Mathematik-Bibliotheken lassen sich für die Prozessoren die besten Ganzzahlenwerte für CPU2006 erzielen. Hier holen die Hersteller das Optimum aus ihren Systemen heraus. Die folgenden Werte sind offizielle CPU2006-Resultate, die von Server-Herstellern auf SPEC.org gemeldet sind.

SPECint_rate_base2006 optimiert: Mit speziellen Compilern und Bibliotheken wird das Integer-Leistungsvermögen gegenüber unseren Standardeinstellungen fast verdoppelt. Der Opteron 6174 liegt jetzt auf einem Niveau mit Intels Xeon X5680.

Offiziell gemeldete Werte für den Xeon X7560 liegen uns noch nicht vor. Sobald wir diese erhalten, ergänzen wir das Diagramm. Uns vorliegende inoffizielle Werte des Xeon X7560 liegen auf dem Niveau des Opteron 6174.

Multitask Floating Point: SPECfp_rate_base2006

Wir setzen die SPEC-Benchmarks unter Windows Server 2008 Enterprise x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 10.1 und Fortran 10.1 in der 64-Bit-Version sowie MS Visual Studio 2005 .NET für alle Floating-Point-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz. Bei den Floating-Point-Berechnungen von SPECfp_rate_base2006 ermittelt die Benchmark-Suite CPU2006 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Floating-Point-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standardsoftware.

Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECfp_rate_base2006 der Anzahl der Prozessorkerne des Systems. Beispielsweise arbeiten beim Zwei-Sockel-Server mit Opteron-6174-CPUs 24 Kopien parallel. Beim Westmere-EP-System mit Xeon X5670 und X5680 (Hexa-Core) sind durch das zusätzliche Hyper-Threading 24 virtuelle Kerne vorhanden. Entsprechend laufen auch hier 24 parallele Kopien mit einem Speicherbedarf von 2 GByte RAM pro Kopie. Das Xeon-X7560-System mit den zwei 8-Core-CPUs verlangt durch das zusätzliche Hyper-Threading nach 32 Kopien.

SPECfp_rate_base2006: Bei den sehr speicherintensiven Durchsatztests mit Floating-Point-Programmen profitiert das Xeon-X7560-Päärchen deutlich von der der zusätzlichen Bandbreite der FlexMem-Technologie. Steht den 8-Core-Xeons nur der eigene Speicher zur Verfügung, bricht die Performance um 31 Prozent ein. Der Speicherdurchsatz ist trotz der vielen Kanäle durch Latenzzeiten der SMBs beschränkt. Stark präsentiert sich das Opteron-6174-Duett. Die AMD-CPUs gewinnen deutlich von ihrer hohen Speicherbandbreite mit vier DDR3-1333-Channels pro CPU. Einen deutlichen Geschwindigkeitsprung machen die zwei Xeon X7650 im Vergleich zu den Vorgängern, die selbst in der 4-Sockel-Konfiguration deutlich langsamer sind.

Intels 10.1-Compiler bieten mit dem Switch -QxO eine offizielle SSE3-Unterstützung für „Non-Intel-Processors“ (erstmals mit Version 10.0). Mit dieser Compiler-Option führten wir die CPU2006-Benchmarks für die Opteron-Prozessoren durch. Bei den Xeon-CPUs nutzten wir das Compiler-Flag -fast. Hier wählen die Intel-Compiler automatisch die optimale Befehlssatzunterstützung. Zusätzlich testen wir den Xeon L5520, X5570, X5670, X5680 und X7560 für eine optimale Vergleichbarkeit mit dem Opteron 2435 und 6174 ebenfalls mit -QxO:

SPECfp_rate_base2006

Compiler-Option

-fast (automatisch)

-QxO (SSE3)

Xeon X7560 FlexMem

213

207

Xeon X5570

160

154

Xeon X5670

207

171

Xeon X5680

219

176

Opteron 2435

--

108

Opteron 6174

--

196

Die Xeon-5600-Prozessoren (32-nm-Westmere-Architektur) verlieren durch die Einstellung –QxO mit zirka 17 bis 20 Prozent massiv Performance, wenn maximal SSE3 unterstützt wird. Beim Xeon X7560 und den Xeon-5500-Modellen (alle 45-nm-Nehalem-Architektur) beträgt der Einbruch nur drei bis vier Prozent.

Multitask Floating Point: SPECfp_rate_base2006 optimiert

Unter Einsatz optimierter Compiler und spezieller Mathematik-Bibliotheken lassen sich für die Prozessoren die besten Fließkommawerte für CPU2006 erzielen. Hier holen die Hersteller das Optimum aus ihren Systemen heraus. Die folgenden Werte sind offizielle CPU2006-Resultate, die von Server-Herstellern auf SPEC.org gemeldet sind.

SPECfp_rate_base2006 optimiert: Bei den sehr speicherintensiven und damit Speicherbandbreiten-abhängigen Fließkommaszenarios lässt sich die Performance durch spezielle Compiler und Bibliotheken gegenüber unseren Standardeinstellungen um zirka 11 bis 23 Prozent steigern. An der Reihenfolge der Prozessoren und somit am Kräfteverhältnis ändert sich allerdings nichts.

Offiziell gemeldete Werte für den Xeon X7560 liegen uns noch nicht vor. Sobald wir diese erhalten, ergänzen wir das Diagramm. Uns vorliegende inoffizielle Werte des Xeon X7560 liegen in etwa zwischen dem Xeon X5680 und Opteron 6174.

STREAM: Speicherbandbreite

Der quelloffene STREAM-Benchmark ist ein weit verbreiteter Industriestandardtest zum Messen der möglichen Speicherbandbreite in einem System. Wir verwenden die 64-Bit-Windows-Binary von der University of Virginia. Die OMP-fähige STREAM-Version nutzt möglichst alle Kerne der Prozessoren aus, um den höchsten Speicherdurchsatz zu generieren.

Maximum: Die beiden Xeon X7560 erreichen nur die halbe Bandbreite der Xeon-5600-Serie. Der etwas enttäuschende Durchsatz wird auch durch die Latenzzeiten der SMBs verursacht. Mit einer gcc-compilierten Linux-Variante von STREAM holt das Xeon-X7560-Päärchen immerhin etwas 28 GByte/s aus dem Speicher. Deutlich langsamer sind dagegen die Vorgänger Xeon X7460 mit klassischer FSB/Chipsatz-Anbindung. Die beiden Opteron-6174-Prozessoren holen aus den insgesamt acht DDR3-1333-Channels dagegen einen Speicherdurchsatz von 51,8 GByte/s heraus.

Java Virtual Machine Performance

Mit SPECjvm2008 stellt die Standard Performance Evaluation Corporation (SPEC) einen Benchmark für die Performance von Systemen unter Java Runtime Environment (JRE) zur Verfügung. Die Evaluierungssoftware zur Ermittlung der Java-Performance wurde von SPEC in Zusammenarbeit mit AMD, Bea, Hewlett-Packard, IBM, Intel und Sun entwickelt.

Für die Performance des Systems in einer Java Virtual Machine zeigen sich neben der Wahl der Java-Engine die Prozessoren sowie die Speicherarchitektur verantwortlich. SPECjvm2008 startet eine JVM und führt einen Multithread-Workload durch. Alle Prozessorkerne eines Systems werden von SPECjvm2008 ausgenutzt.

SPECjvm2008 arbeitet mit einem Base-Run, bei dem keine speziellen Tuning-Maßnahmen durch Flags und Optimierungen erlaubt sind. Damit wird die Java-Performance der Systeme mit der installierten JVM ermittelt. Zehn verschiedene Tests wie Compilieren, Rendering, Verschlüsselung oder Komprimierung werden durchgeführt. Beim Peak-Run lassen sich für jeden Test Optimierungen für die JVM einstellen.

Wir führen SPECjvm2008 im Base-Run unter Windows Server 2008 Enterprise x64 mit der JRE Bea JRockit 6 R27 in der 64-Bit-Version durch:

Java Runtime: Eine sehr gute Java-Leistung erzielen die Xeon-5600-Prozessoren mit Hexa-Core-Technologie. Die Octa-Core-Xeons liegen schon abgeschlagen zurück; sie streiten sich mit den Zwölfkern-Opterons um die Plätze. Immerhin bieten zwei Xeon X7650 exakt die gleiche Performance als vier Xeon X7460.

Maximale Java-Performance

SPECpower_ssj2008 ermittelt neben der Energieeffizienz bei 100 Prozent Prozessorauslastung auch die maximale Java-Performance des Systems. Als Java-Engine unter Windows Server 2008 Enterprise x64 dient Bea JRockit in der 64-Bit-Version 6 R27.

SPECpower_ssj2008 nutzt einen anderen Workload als SPECjvm2008. Außerdem arbeiten bei SPECpower_ssj2008 nicht nur eine JVM, sondern mehrere virtuelle Java-Instanzen. Bei den getesteten Vier-Sockel-Systemen sind zwei JVMs aktiv. Jede JVM agiert multithreaded mit der Anzahl der CPU-Kerne pro Sockel. Bei diesem konfigurierbaren Setup erzielt SPECpower_ssj2008 bei Zwei-Sockel-Systemen die besten Ergebnisse.

Bei diesem Test sind die Energiesparoptionen der Prozessoren aktiv, die erreichbare Performance wird durch die Vollauslastung der CPUs allerdings nicht beeinflusst.

Java-Performance: Der Workload ist speicherintensiver als bei SPECjvm2008 und skaliert besser mit der Anzahl der Prozessoren / Kerne. Jetzt zeigen Intels neue 8-Core-Prozessoren Xeon X7650 erstmals ihr volles Potenzial an Rechenleistung. Auch die Opteron-6174-CPUs können ihre vielen Kerne ausnutzen und sie profitieren von der hohen Speicherbandbreite der vier DDR3-1333-Channels pro CPU. Extrem langsam sind im Vergleich die vier Xeon X7460 (Hexa-Core). Die klassische FSB-/Chipsatz-Architektur der Plattform wirkt stark bremsend.

Dass beim Java-Workload von SPECpower hohe Speicher- und Busbandbreiten von Vorteil sind, zeigen auch die Xeon E5472. Trotz nur 3,0 GHz Taktfrequenz überholen die Xeon E5472 hier die 3,33-GHz-Xeon-X5470-CPUs, weil sie mit DDR2-800-Speicher und FSB1600 arbeiten (statt DDR2-667 und FSB1333).

Energieeffizienz: Performance/Watt

Der Gesamtwert von SPECpower_ssj2008 steht für die Energieeffizienz des Systems. Der Benchmark gibt die gemittelte Performance pro Watt an, die über alle Lastzustände von zehn bis 100 Prozent gemessenen werden.

Um die Energiesparoptionen der Prozessoren zu nutzen, arbeitet Windows Server 2008 Enterprise x64 mit dem Energieschema „Ausbalanciert“. SpeedStep (Intel) und PowerNow! (AMD) zum dynamischen Regeln von Taktfrequenz und Core-Spannung je nach CPU-Auslastung sind bei dem SPECpower-Benchmark aktiv.

Mit Powermanagement: Zwar ist der Dell PowerEdge R810 mit den Xeon-X7650-CPUs nicht hohe Energieeffizienz getrimmt, dennoch zeigt sich ein erheblicher Fortschritt im Vergleich zur Xeon-7400-Plattform. Bei den sehr vergleichbar ausgestatteten Xeon-5500/5600- und Opteron-Plattformen wird mit AMDs 12-Core-Prozessoren die höchste Effizienz erreicht.

Jetzt wird bei den Energieoptionen von Windows Server 2008 das Schemata „Höchstleistung“ ausgewählt. Die Prozessoren arbeiten immer mit voller Taktfrequenz und Core-Spannung. Die dynamischen Powermanagement-Funktionen SpeedStep (Intel) und PowerNow! (AMD) sind beim Schemata „Höchstleistung“ nicht aktiv.

Im zweiten Diagramm sehen Sie die Auswirkungen des deaktivierten CPU-Powermanagements auf die Energieeffizienz der Systeme.

Ohne Powermanagement: Mit inaktivem SpeedStep reduzieren die zwei Xeon X7560 sowie die Xeon X5570 die Systemeffizienz um zwei Prozent (beide 45-nm-Nehalem). Beim Xeon X5670 und X5680 sinkt die Effizienz um knapp ein Prozent (32-nm-Westmere). Beim Opteron-6174-System geht die Effizienz ohne PowerNow! um ein knappes Prozent zurück.

Maximaler Energieverbrauch

SPECpower_ssj2008 ringt dem Testsystem im Lastzustand 100 Prozent den maximalen Energieverbrauch ab. Alle Kerne der Prozessoren sind voll ausgelastet. Die aktiven JVMs fordern zusätzlich den Arbeitsspeicher der Systeme.

Kernig: Die beiden Xeon X7650 sind mit 130 Watt TDP eingestuft. Der als Plattform dienende Dell PowerEdge R810 ist durch seine Ausstattung mit zwei 1100-Wattnetzteilen deutlich mehr PCI-Express-Schnittstellen etwas im Nachteil gegenüber den Xeon-5500/5600- und Opteron-Systemen. Dennoch zeigt sich, dass im Segment der Server mit zwei Prozessoren es deutlich sparsamere Lösungen gibt als ein Xeon-7500-System. Sehr energiehungrig zeigt sich das Xeon-X7460-System mit vier CPUs. Neben den 130-Watt-TDP-Xeons sorgen auch die stromhungrigen FB-DIMMs sowie die zwei 1570-Watt-Netzteile für einen deutlichen Mehrverbrauch.

Minimaler Energieverbrauch

SPECpower_ssj2008 führt neben den Lasttests zusätzlich Kalibrierungsmessungen über den Energieverbrauch bei Leerlauf durch. Dabei wird der minimale Energiebedarf des Systems ermittelt.

Im ersten Diagramm vergleichen wir den Systemverbrauch unter Windows Server 2008 Enterprise x64 mit dem Energie-Schemata „Ausbalanciert“. Die Prozessoren nutzen ihre Powermanagement-Features SpeedStep (Intel) und PowerNow! (AMD) aus.

Mit Powermanagement: Das 4-Sockel-System Dell PowerEdge R810 mit zwei bestückten Xeon X7560 ist zwar nicht auf geringste Energieaufnahme getrimmt, trotzdem sind mit zwei CPUs die Opteron- und Xeon-5500/5600-Plattformen massiv sparsamer im Leerlauf. Gegenüber der Vorgängerplattform mit Xeon-7400-CPUs und FB-DIMM-Technologie zeigt sich die neue 7500er Plattform jedoch deutlich genügsamer.

Dann wird bei den Energieoptionen von Windows Server 2008 das Schemata „Höchstleistung“ ausgewählt. Die dynamischen Powermanagement-Funktionen SpeedStep (Intel) und PowerNow! (AMD) sind beim Schemata „Höchstleistung“ nicht aktiv. Die Auswirkungen sehen Sie im zweiten Diagramm.

Ohne Powermanagement: Im Leerlauf steigt bei den Xeon X7560 der Energiebedarf ohne SpeedStep lediglich um ein Watt. Beim Xeon X5680 (32-nm-Westmere) erhöht sich der Konsum dagegen um sieben Watt. Die Opteron-6174-Modelle erhöhen ihren Energiebedarf im Leerlauf ohne PowerNow! sogar um 14 Watt.

Analyse: SunGard ACR

SunGards Adaptiv Credit Risk 4.0 ist ein Analysetool für den Finanzbereich. Basierend auf modifizierten Monte-Carlo-Simulationen berechnet das Programm den künftigen Wert einer Anlage auf Basis vorhandener Marktdaten.

SunGards Adaptiv Credit Risk wurde in C# für Microsofts .NET-Umgebung programmiert. Spezielle Mathematik-Bibliotheken wie Intels MKL oder AMDs Core Math Library ACML verwendet Adaptiv Credit Risk nicht. Das Analysetool arbeitet multithreaded und unterstützt Multiprozessor-Systeme optimal. SunGard rechnet überwiegend mit Integer-Operationen. Speicherzugriffe halten sich bei Adaptiv Credit Risk in Grenzen.

Schnelle Vorhersagen: Trotz Octa-Core-Technologie sowie zusätzlichem Hyper-Threading müssen sich zwei Xeon X7560 den zwei Xeon X5680 (Hexa-Core + Hyper-Threading) geschlagen geben. Die Xeon-X5680-CPUs arbeiten mit einer deutlich höheren Taktfrequenz. Die Speicherbandbreite und –zugriffe halten sich hier stark in Grenzen, wie auch der kaum messbare Unterschied zwischen den Xeon-X7560-CPUs mit und ohne FlexMem zeigt.

Encryption/Decryption: openSSL 64 Bit

Die Leistungsfähigkeit der Prozessoren beim Verschlüsseln und Entschlüsseln von Daten unter Linux 64 Bit ermittelt das Open-Source-Programm openSSL in der 64-Bit-Version 0.9.8b. Der Code von openSSL ist single threaded programmiert. Durch den Start von multiplen Kopien summiert openSSL die Performance beim Verschlüsseln und Entschlüsseln von Daten.

Wir testen die Prozessoren bei openSSL mit dem RSA-Schlüssel und einer Schlüssellänge von 2048 Bit. Der synthetische Benchmark gibt einen guten Anhaltspunkt für die Geschwindigkeit der Prozessoren beim Verschlüsseln und Entschlüsseln von Daten. Spezielle, für die CPU-Architekturen optimierte Mathematik-Bibliotheken kommen beim mit gcc kompilierten openSSL-Benchmark nicht zum Einsatz.

RSA-2048 Encryption: Der Test läuft überwiegend im Cache ab. Die 8-Core-Xeons X7560 verschlüsseln fast so schnell wie die mit 3,33 GHz Taktfrequenz agierenden 6-Core-Xeons X5680. Erstmals sind die „alten“ Xeon X7460 schneller als die Nachfolgegeneration Xeon X7560 – allerdings nur durch die doppelte Prozessoranzahl.
RSA-2048 Decryption: Auch das Entschlüsseln erledigen die 32-nm-Hexa-Core-Xeons X5680 etwas schneller als die Octa-Core-Xeons X7560. Auch hier kommt noch kein AES-NI der 32-nm-Xeon-5600-Serie zum Einsatz.

Rendering: CINEBENCH 11.5 64 Bit

Mit dem CINEBENCH 11.5 stellt Maxon die aktuelle Version des bekannten Benchmark-Tools bereit. CINEBENCH 11.5 basiert auf Cinema 4D Release 11.5 und führt Rendering-Tests durch. Maxon bietet CINEBENCH 11.5 als 32- und 64-Bit-Version zum Download an. Die Rendering-Engine von Cinemal 4D Release 11.5 unterstützt bis zu 64 Threads.

Beim Render-Test wird eine fotorealistische 3D-Szene mithilfe des Cinema-4D-Raytracers berechnet. Die Testszene enthält über 2000 Objekte mit mehr als 300.000 Polygonen, nutzt scharfe und weiche Spiegelungen, Flächenlichter und -schatten, prozedurale Shader, Kantenglättung und vieles mehr. Bei dem FPU-lastigen Test spielt die Leistungsfähigkeit der Grafikkarte keine Rolle. Auch höhere Speicher- und FSB-Bandbreiten nutzen beim Rendering von CINEBENCH 11.5 wenig – der Test läuft überwiegend in den Cache-Stufen ab.

1 Thread: Beim Rendering wird jetzt nur ein Prozessorkern verwendet – Multi-Core nutzt hier nichts. Durch die Turbo-Technologie arbeitet der Xeon X7560 jetzt mit 2,66 statt 2,26 GHz Taktfrequenz. Deswegen überholt der Xeon X7560 auch den Xeon X7460, der mit 2,66 GHz arbeitet und auf der 45-nm-Penryn-Architektur basiert. Der Opteron 6174 liegt durch seine geringe Taktfrequenz von 2,2 GHz auf dem letzten Platz.
Alle Threads: Jetzt nutzt CINEBENCH alle verfügbaren Prozessorkerne. Die zwei Xeon X7560 bieten mit 8-Core-Architektur (plus Hyper-Threading) das Leistungsniveau der 12-Core-Opteron-CPUs. Wie es mit weniger Kernen noch schneller geht, zeigt Intels 32-nm-Xeon X5680. An der Spitze liegt der Hexa-Core-Prozesssor Xeon X7460 – aber nur, weil hier vier CPUs im Einsatz sind.

AMD & Intel: Listenpreise 2-Sockel-CPUs

In der Tabelle finden Sie die Preise der aktuellen Xeon-5500-Prozessoren im Vergleich zu AMDs Opteron-2400-Serie. Bei AMDs Preisliste gab es am 29. März 2010 die letzten Änderungen. Intels Preisliste wurde am 28. März 2010 aktualisiert.

OEM-Preise im Vergleich

Modell

Taktfrequenz [GHz]

Listenpreis [US-Dollar]

Intel Xeon-7500-Serie

Xeon X7560

2,26

3692

Xeon X7550

2,0

2729

Xeon X7542

2,66

1980

Xeon E7540

2,0

1980

Xeon E7530

1,86

1391

Xeon E7520

1,86

856

Xeon L7555

1,86

3157

Xeon L7545

1,86

2087

Intel Xeon-7400-Serie

X7460

2,66

2729

E7450

2,4

2301

E7440

2,4

1980

E7430

2,13

1391

E7420

2,13

1177

L7455

2,13

2729

L7445

2,13

1980

Intel Xeon-5600-Serie

Xeon X5680

3,33

1663

Xeon X5677

3,46

1663

Xeon X5670

2,93

1440

Xeon X5667

3,06

1440

Xeon X5660

2,80

1219

Xeon X5650

2,66

996

Xeon E5640

2,66

774

Xeon E5630

2,53

551

Xeon E5620

2,40

387

Xeon L5640

2,26

996

Xeon L5630

2,13

551

Xeon L5609

1,86

440

Intel Xeon-5500-Serie

Xeon W5590

3,33

1600

Xeon W5580

3,20

1600

Xeon X5570

2,93

1386

Xeon X5560

2,80

1172

Xeon X5550

2,66

958

Xeon E5540

2,53

744

Xeon E5530

2,40

530

Xeon E5520

2,26

373

Xeon E5506

2,13

219

Xeon E5504

2,00

224

Xeon E5502

1,86

188

Xeon L5530

2,40

744

Xeon L5520

2,26

530

Xeon L5506

2,13

423

AMD Opteron-6100-Serie

Opteron 6176 SE

2,3

1386

Opteron 6174

2,2

1165

Opteron 6172

2,1

989

Opteron 6168

1,9

744

Opteron 6164 HE

1,7

744

Opteron 6136

2,4

744

Opteron 6134

2,3

523

Opteron 6128

2,0

266

Opteron 6128 HE

2,0

523

Opteron 6124 HE

1,8

455

AMD Opteron-4100-Serie

Opteron 4186

2,9

455

Opteron 4184

2,8

316

Opteron 4180

2,6

188

Opteron 4176 HE

2,4

377

Opteron 4174 HE

2,3

255

Opteron 4170 HE

2,1

174

Opteron 4164 EE

1,8

698

Opteron 4162 EE

1,8

316

Opteron 4130

2,6

125

Opteron 4122

2,2

99

AMD Opteron-2400-Serie

Opteron 2439 SE

2,8

1019

Opteron 2435

2,6

989

Opteron 2431

2,4

698

Opteron 2427

2,2

455

Opteron 2425 HE

2,1

523

Opteron 2423 HE

2,0

455

Opteron 2419 EE

1,8

989

Fazit

Nur auf die Performance fokussiert, wird der Intel Xeon X7560 in der 2-Sockel-Konfiguration seinen Erwartungen nicht gerecht. In fast allen Szenarien arbeiten die Xeon-X5680-Prozessoren schneller als die für 2-, 4- und 8-Sockel-Systeme ausgelegten neuen Octa-Core-Xeons. Zwar arbeiteten die Xeon-X7560-CPUs mit acht statt nur sechs Kernen, allerdings bei deutlich geringerer Taktfrequenz. Zudem liefert das Speicher-Subsystem der Xeon-7500-Plattform mit den Scalable Memory Buffers geringere Bandbreiten als die Triple-Channel-Speicher-Controller der Xeon-5600-Serie. Immerhin sorgt Dells eigene FlexMem-Technologie, mit der selbst bei zwei CPUs der Speicher von vier Sockeln zur Verfügung steht, in sehr speicherintensiven Szenarios für 30 bis 40 Prozent mehr Performance.

Das Einsatzgebiet der Xeon-7500-Serie im 2-Sockel-Segment bleibt somit bereits aus Sicht der Performance eingeschränkt. Bei diesen Systemen wird primär auf geringe Kosten und hohe Energieeffizienz Wert gelegt. Beide Punkte sind nicht die Paradedisziplin der Xeon-7500-Prozessoren. Die Xeon-5600-Serie sowie AMDs Opteron-6100-Modelle sind Intels Octa-Core-Modellen hier weit überlegen.

Die Stärken der Xeon-7500-Plattform liegen abseits von Performance und Energieeffizienz aus Seiten der Skalierfähigkeit und Betriebssicherheit. Hier sind die neuen Xeon-7500-CPUs der x86-Konkurrenz weit vorraus. So erlauben die CPUs Systeme mit bis zu acht Prozessoren, die direkt miteinander verbunden sind. AMD schränkt seine Opteron-6100-Modelle auf maximal vier Sockeln ein – nachvollziehbar, der 8-Sockel-x86-Markt ist verschwindend gering. Wichtiger bei der Xeon-7500-Plattform ist der sehr hohe mögliche Speicherausbau. In einer 4-Sockel-Konfiguration erlauben Xeon-7500-Systeme bis zu 64 DIMMs für einen Arbeitsspeicher von 1 TByte. Vier Opteron-6100-CPUs können maximal 48 Speichermodule ansprechen.

Ein entscheidenderes Alleinstellungsmerkmal der Xeon-7500-Plattform im x86-Segment sind seine RAS-Features. Insbesondere die MCA-Technologie zum Abfangen von Hardwarefehlern besitzt RISC-Niveau. Wer auf hohe Betriebsicherheit Wert legt, für den sind Xeon-7500-Systeme auch eine deutlich günstigere Wahl als RISC-Maschinen.

Zu guter Letzt machen Intels neue Xeon-7500-Prozessoren auch aus Sicht der Performance einen großen Sprung; im Vergleich zu den Vorgängermodellen der Xeon-7400-Serie. So sind bereits zwei Xeon X7560 (2,26 GHz / 8 Core) meist schneller als vier Xeon X7460 (2,66 GHz / 6 Core). Auch die Energieeffizienz betreffend liegen Faktoren zwischen der alten und neuen Generation. (cvi)

Testsysteme im Detail

Intels Xeon X7560 testen wir in dem 4-Sockel-Server Dell PowerEdge R810. Der 2U-Server verwendet den Intel-7500-Chipsatz und bietet insgesamt 32 DIMM-Steckplätze. Pro CPU stehen somit acht Registered DDR3-1066-DIMMs zur Verfügung. Das System kann in der Vollbestückung mit 4-GByte-Modulen auf 128 GByte RAM zurückgreifen.

AMDs Opteron 6174 „Magny-Cours“ testen wir in einem 2-Sockel-Referenzsystem von AMD. Das Tower-System verwendet das AMD-Referenz-Mainboard Dinar2 mit AMD SR5690-Chipsatz. Jeder Socket-G34-CPU stehen acht DIMM-Steckplätze zur Verfügung (zwei Speicherriegel pro Channel). Jedem Opteron 6174 stehen vier 4-GByte-Registered-DIMMs zur Verfügung. Das System kann somit auf insgesamt 32 GByte RAM zurückgreifen.

Der Opteron 2435 nimmt in einem 4-Sockel-Server Tyan Transport GT26 Platz. Der 1U-Rack-Server verwendet als Mainboard ein Tyan S4987 mit NVIDIA MCP55-Chipsatz. Das System eignet sich für den Betrieb mit zwei oder vier Prozessoren. Jedem Prozessor stehen zwei gepufferte 4-GByte-DIMMs in einer Dual-Channel-Konfiguration zur Verfügung. Insgesamt verfügt der Tyan-Server in der 2-Sockel-Konfiguration über 16 GByte Arbeitsspeicher.

Xeon-7500-Plattform: Der Dell PowerEdge R810 besitzt vier LGA1567-Steckplätze. Sind nur zwei CPUs verbaut, so kommt Dells FlexMem Bridge zum Einsatz. Damit wird der Zugriff auf die volle DIMM-Bestückung selbst mit nur zwei Prozessoren möglich.

AMDs Opteron 2384 „Shanghai“ und 2356 „Barcelona“ testen wir in einem 2-Sockel-Server Supermicro A+ 2021M-UR+B. Der Rack-Server nutzt als Mainboard das Supermicro H8DMU+ mit NVIDIA MCP55Pro-Chipsatz. Jedem Prozessor stehen vier gepufferte 2-GByte-DIMMs in einer Dual-Channel-Konfiguration zur Verfügung. Insgesamt verfügt der Opteron-Server somit über 16 GByte Arbeitsspeicher.

Intels Xeon L5520 und X5570 „Nehalem-EP“ sowie den Xeon X5670 und X5680 „Westmere-EP“ testen wir in einem 2-Sockel-Server Asus RS700-E6/RS4. Der 1U-Server mit der neuen Tylersburg-EP-Plattform besitzt als Mainboard ein Asus Z8PS-D12-1U mit Chipsatz Intel 5520 und ICH10R. Jedem Prozessor steht pro Speicher-Channel ein 4 GByte Registered DIMM vom Typ Qimonda IMHH4GP12A1F1C-13H mit 1333 MHz Taktfrequenz zur Verfügung. Beim Xeon L5520 arbeitet der Speicher mit 1066 MHz. Insgesamt besitzt das System damit 24 GByte Arbeitsspeicher – 12 GByte pro CPU mit drei Channels.

Opteron-6100-Plattform: Die AMD-Referenzplattform für G34-Prozessoren stellt jeder CPU bis zu acht DDR3-DIMMs zur Verfügung.

Um die Performance und die Energieeffizienz der Xeon-Nehalem/Westmere-CPUs bestmöglich mit den Xeon-5400- und Opteron-Prozessoren vergleichen zu können, verwenden wir möglichst bauähnliche Server. Die Xeon-5400-CPUs nehmen in einem SuperServer 6025W-NTR+B von Supermicro Platz. Als Mainboard verwendet der Server ein Supermicro X7DWN+ mit Seaburg-Chipsatz. Vier FB-DIMM-Channels steuern insgesamt acht 2-GByte-Module vom Typ Nanya NT2GT72U4NB1BD-2C an. Die FB-DIMMs arbeiten bei der FSB1600-CPU Xeon E5472 mit DDR2-800-SDRAMs mit einem 5-5-5-Timing. Bei den FSB1333-Xeons steuert der Chipsatz den Speicher automatisch mit einer Geschwindigkeit von 667 MHz bei CL5 an.

Um insbesondere für die Energiemessungen gleiche Vorraussetzungen für die AMD- und Intel-Server zu ermöglichen, arbeiten in den Systemen an der SAS/SATA-Backplane jeweils zwei SATA-RAID-Edition-Festplatten von Samsung. Somit lassen sich bestmögliche Vergleiche zwischen den Prozessoren ziehen. Jeder Server bezieht seine Energie aus zwei 700-Watt-Netzteilen (AMD-Shanghai/Barcelona-Server und Intel-Xeon-5400-System) beziehungsweise 770-Watt-Netzteilen (Intel Nehalem-EP- und Westmere-EP-System). Das Testsystem für den Opteron 2435 ist mit einem 1000-Watt-Netzteil ausgestattet, im Opteron-6174-System befindet sich ein 1200-Watt-Netzteil. Das Xeon-7500-System ist mit zwei 1100-Watt-Netzteilen ausgestattet. Bei den Energiemessungen achten wir darauf, möglichst die identische Anzahl von DIMMs zu verwenden.

Als Betriebssystem setzen wir Windows Server 2008 Enterprise x64 ein. Tests unter Linux erfolgen mit CentOS 5 in der 64-Bit-Version.