Hexa-Core & AES-Beschleunigung im Server

Intel Xeon X5670 & X5680 - Neue CPU-Generation im Test

16.03.2010 von Christian Vilsbeck
Intel stellt mit der Xeon-5600-Serie seine neue CPU-Generation für den Servermarkt der 2-Sockel-Systeme vor. Mit energieeffizienter 32-nm-Westmere-Architektur, sechs Kernen und neuem Befehlssatz entrücken die getesteten Xeon X5670 und X5680 der Konkurrenz noch mehr.

Seit März 2009 macht Intel mit der Xeon-5500-Serie AMDs Opteron das Leben schwer. Die Quad-Core-Prozessoren mit 45-nm-Nehalem-Architektur sind selbst für die Opteron-2400-Serie mit sechs Kernen kaum zu knacken. Jetzt, ein Jahr später, legt Intel mit seiner neuen Xeon-5600-Serie noch eine Schippe oben auf. Mit neuer 32-nm-Architektur „Westmere-EP“ und Hexa-Core-Technologie soll die Energieeffizienz und Performance deutlich gesteigert werden.

Die Plattform bleibt für die Xeon-5600-Serie unverändert. So fungiert weiterhin Intels 5500/5520-Chipsatz und der Sockel LGA1366 als Basis für die 32-nm-CPUs. Entsprechend lassen sich vorhandene 2-Sockel-Server durch ein BIOS-Update fit für den Betrieb der neuen Prozessoren machen. Bei den neuen Xeon-5600-CPUs müssen die Systeme auch nicht mehr Wärme als bisher abführen. Die zum Start vorgestellten Modelle Xeon E5620 bis X5680 sind mit den gewohnten TDP-Werten von 80 bis 130 Watt spezifiziert.

Bildergalerie: Alle Benchmarks des Xeon X5670 und X5680 im Überblick.
CPU2006 64 Bit - Multitasking - SPECint_rate_base2006
Die zwei Xeon X5670 (Hexa-Core / 2,93 GHz) arbeiten bei gleicher Taktfrequenz 35 Prozent schneller als die Vorgängermodelle Xeon X5570 (Quad-Core / 2,93 GHz). Neben dem größeren L3-Cache kommt den Xeon-5600-CPUs die Speichergeschwindigkeit von 1333 MHz zu Gute. Durch den hohen RAM-Bedarf von CPU2006 sind zwei DIMMs pro Channel verbaut, der Xeon X5570 schaltet hier auf 1066 MHz zurück.
CPU2006 64 Bit - Multitasking - SPECint_rate_base2006 - optimierte Herstellerangaben
Mit speziellen Compilern und Bibliotheken wird das Integer-Leistungsvermögen gegenüber unseren Standardeinstellungen um zirka 35 bis 45 Prozent gesteigert. Die prozentualen Abstände zwischen den Prozessoren bleiben allerdings relativ unverändert.
CPU2006 64 Bit - Multitasking - SPECfp_rate_base2006
Bei den sehr speicherintensiven Durchsatztests mit Floating-Point-Programmen setzt sich der neue Xeon X5670 mit Hexa-Core vom ebenfalls mit 2,93 GHz getakteten Xeon X5570 (Quad-Core) mit 29 Prozent höherer Geschwindigkeit ab. Diese Steigerung durch die zwei zusätzlichen Kerne ist angesichts der großen Abhängigkeit von der Speicherbandbreite ein sehr guter Wert. Den Xeon-5600-CPUs kommt hier auch die Speichergeschwindigkeit von 1333 MHz zu Gute. Durch den hohen RAM-Bedarf von CPU2006 sind zwei DIMMs pro Channel verbaut, der Xeon X5570 schaltet hier auf 1066 MHz zurück.
CPU2006 64 Bit - Multitasking - SPECfp_rate_base2006 - optimierte Herstellerangaben
Bei den sehr speicherintensiven und damit Speicherbandbreiten-abhängigen Fließkommaszenarios lässt sich die Performance durch spezielle Compiler und Bibliotheken gegenüber unseren Standardeinstellungen um zirka 11 bis 23 Prozent steigern. An der Reihenfolge der Prozessoren und somit am Kräfteverhältnis ändert sich allerdings nichts.
SPECjvm2008 - Base Run - Performance Java Runtime Environment
Die beiden Xeon-5600-Prozessoren setzen sich mit ihrer Hexa-Core-Technologie wieder deutlich vor dem Quad-Core-Vorgänger Xeon X5570. AMDs ebenfalls mit Hexa-Core arbeitende Opteron-2435-CPUs (2,6 GHz) erreichen trotz höherer Taktfrequenz nicht die Java-Performance der Stromspar-Xeons L5520 (Quad-Core / 2,26 GHz).
SPECpower_ssj2008 - Java-Performance - 100 Prozent Load
Der Workload ist speicherintensiver als bei SPECjvm2008. So arbeitet das Xeon-X5670-Päärchen hier 31 statt nur 21 Prozent flinker als die Xeon-X5570-CPUs (beide 2,93 GHz und DDR3-1333). Die neuen 32-nm-Xeons profitieren hier von ihrem größeren L3-Cache (12 statt 8 MByte).
SPECpower_ssj2008 - Performance/Watt - CPU-Powermanagement on
Werden die zwei Xeon X5570 durch zwei neue Xeon X5670 getauscht, so steigt die Energieeffizienz des Servers um 29 Prozent. Damit setzt sich das Intel-basierende System wieder deutlich vom Opteron-2435-Server ab. Mit den Xeon-X5670-CPUs ist die Energieeffizienz sogar noch minimal besser als mit noch schnelleren Xeon-X5680-Modellen, weil die 2,93-GHz-CPUs mit 95 Watt TDP weniger Energie als die 3,33-GHz-Xeons mit 130 Watt TDP benötigen.
SPECpower_ssj2008 - Performance/Watt - CPU-Powermanagment off
Mit inaktivem SpeedStep reduzieren die zwei Xeon X5670 und X5680 die Systemeffizienz um knapp ein Prozent. Bei den zwei Xeon-X5570-CPUs verschlechtert sich die Effizienz um zirka zwei Prozent. Beim Opteron-2435-System geht die Effizienz ohne PowerNow! um ein gutes Prozent zurück.
SPECpower_ssj2008 - Energieaufnahme Plattform unter Volllast
Der Xeon X5670 mit Hexa-Core besitzt mit 95 Watt die gleiche TDP-Einstufung wie das Quad-Core-Vorgängermodell Xeon X5570. Unter Volllast benötigt der verwendete Intel-Server mit beiden CPU-Varianten deshalb ähnlich viel Energie. Mit den 130-Watt-Modellen Xeon X5680 steigt die Leistungsaufnahme jedoch deutlich. Stecken in der gleichen Plattform zwei stromsparende Xeon L5520 (45-nm-Nehalem) mit 60 Watt TDP, so agiert der Server äußerst sparsam.
SPECpower_ssj2008 - Energieaufnahme Plattform im Leerlauf - Energiesparmodus an
Im Leerlauf mit SpeedStep arbeiten die Xeon-5500- sowie die neuen Xeon-5600-CPUs mit der identischen Taktfrequenz von 1,6 GHz. Durch die aktiven Stromsparmechanismen der LGA1366-Prozessoren ergeben sich im Idle-Modus somit kaum Unterschiede. Die Xeon-L5520-CPUs sparen zusätzlich Energie, weil sie den Speicher nur mit 1066 statt 1333 MHz ansteuern. Außerdem arbeitet das QuickPath-Interface mit einer geringeren Geschwindigkeit.
SPECpower_ssj2008 - Energieaufnahme Plattform im Leerlauf - Energiesparmodus aus
Im Leerlauf steigt bei den Xeon X5670 der Energiebedarf ohne SpeedStep lediglich um ein Watt. Beim Xeon X5680 erhöht sich der Konsum dagegen um sieben Watt. Die Opteron-2435-Modelle erhöhen ihren Energiebedarf im Leerlauf ohne Powermanagement sogar um 10 Watt.
SunGard ACR 4.0 64 Bit - Monte Carlo Simulation
Die 2,93-GHz-Hexa-Core-Xeons setzen ihre zusätzlichen Kerne in 33 Prozent höhere Rechengeschwindigkeit um – im Vergleich zum Xeon X5570 mit ebenfalls 2,93 GHz. Trotz Hexa-Core-Technologie und höherer Taktfrequenz müssen sich zwei Opteron 2435 den zwei Xeon L5520 geschlagen geben.
LINPACK 2.12 - 64 Bit - problem size = 27.000
Die SSE3-optimierten Matrixberechnungen bei Linpack zählen schon immer zu einer Paradedisziplin für Opteron-Prozessoren. AMDs Hexa-Core-Päärchen muss sich dennoch den neuen 6-Core-Xeons deutlich geschlagen geben. Die Xeon-X5670-CPUs arbeiten satte 42 Prozent schneller als die mit ebenfalls 2,93 GHz agierenden Quad-Core-Xeons.
openSSL 0.9.8b 64 Bit - Encryption RSA2048
Der Test läuft überwiegend im Cache ab. Die 6-Core-Opterons 2435 verschlüsseln 20 Prozent schneller als zwei Xeon X5570. Intels neue Xeon-X5670-Prozessoren erledigen die Verschlüsselung dagegen 47 Prozent schneller als die 5570er Xeons. Der AES-Befehlssatz der 32-nm-Xeons kommt hier noch nicht zum Einsatz. Die Performance-Steigerung erledigen die zwei zusätzlichen Kerne.
openSSL 0.9.8b 64 Bit - Decryption RSA2048
Auch das Entschlüsseln erledigen die 32-nm-Hexa-Core-Xeons bei gleicher Taktfrequenz 47 Prozent schneller als die 45-nm-Quad-Core-Xeons mit dem höchsten Durchsatz. Auch hier kommt noch kein AES-NI zum Einsatz.
CINEBENCH 11.5 64 Bit - Single-Thread-Rendering
Beim Rendering wird jetzt nur ein Prozessorkern verwendet – Multi-Core nutzt hier nichts. Durch die Turbo-Technologie arbeiten der Xeon X5570 und X5670 mit 3,33 GHz (plus drei „Speed Bins“), der Xeon X5680 erhöht auf 3,6 GHz Taktfrequenz um zwei „Speed Bins“. AMDs Opteron 2435 mit 2,6 GHz Taktfrequenz liegt abgeschlagen zurück.
CINEBENCH 11.5 64 Bit - Multi-Thread-Rendering
Jetzt nutzt CINEBENCH alle verfügbaren Prozessorkerne. Der Xeon X5670 nutzt seine zwei zusätzlichen Kerne mit 45 Prozent mehr Performance gegenüber dem Xeon X5570 (beide 2,93 GHz) fast ideal aus. Hyper-Threading erwirkt bei den Xeons ein Plus von zirka 24 Prozent. So erreicht beispielsweise der Xeon X5670 mit deaktiviertem HT 12,07 Punkte. AMDs Hexa-Core-Opteron-Päärchen liegt chancenlos zurück.

Einbußen bei der Taktfrequenz gibt es trotz Kernvermehrung nicht. Das Hexa-Core-Topmodell Xeon X5680 arbeitet mit einer Grundtaktfrequenz von 3,33 GHz. Durch den Turbo Mode können einzelne Kerne ihren Arbeitstakt sogar auf bis zu 3,6 GHz hochtreiben. Doch neben der geringen Strukturbreite und Hexa-Core-Architektur warten die neuen Xeon-5600-Prozessoren mit weiteren Features auf: Das Fassungsvermögen des L3-Cache ist gewachsen, die Befehlssatzerweiterung AES-NI soll Verschlüsselungsaufgaben beschleunigen, der Speicher-Support wurde verbessert.

Bildergalerie: Neue Xeon-5600-Serie Westmere-EP – Präsentation.
Intel Produktpräsentation zur Xeon-5600-Serie Westmere-EP
Intel Produktpräsentation zur Xeon-5600-Serie Westmere-EP
Intel Produktpräsentation zur Xeon-5600-Serie Westmere-EP
Intel Produktpräsentation zur Xeon-5600-Serie Westmere-EP
Intel Produktpräsentation zur Xeon-5600-Serie Westmere-EP
Intel Produktpräsentation zur Xeon-5600-Serie Westmere-EP
Intel Produktpräsentation zur Xeon-5600-Serie Westmere-EP
Intel Produktpräsentation zur Xeon-5600-Serie Westmere-EP
Intel Produktpräsentation zur Xeon-5600-Serie Westmere-EP
Intel Produktpräsentation zur Xeon-5600-Serie Westmere-EP
Intel Produktpräsentation zur Xeon-5600-Serie Westmere-EP
Intel Produktpräsentation zur Xeon-5600-Serie Westmere-EP
Intel Produktpräsentation zur Xeon-5600-Serie Westmere-EP
Intel Produktpräsentation zur Xeon-5600-Serie Westmere-EP
Intel Produktpräsentation zur Xeon-5600-Serie Westmere-EP
Intel Produktpräsentation zur Xeon-5600-Serie Westmere-EP
Intel Produktpräsentation zur Xeon-5600-Serie Westmere-EP
Intel Produktpräsentation zur Xeon-5600-Serie Westmere-EP
Intel Produktpräsentation zur Xeon-5600-Serie Westmere-EP
Intel Produktpräsentation zur Xeon-5600-Serie Westmere-EP
Intel Produktpräsentation zur Xeon-5600-Serie Westmere-EP
Intel Produktpräsentation zur Xeon-5600-Serie Westmere-EP
Intel Produktpräsentation zur Xeon-5600-Serie Westmere-EP

Im TecChannel-Testlabor überprüfen wir, welches Leistungsvermögen Intels neues Topmodell Xeon X5680 mit 3,33 GHz Taktfrequenz bietet. Zusätzlich testen wir den neuen Xeon X5670, der als idealer Vergleich zum Quad-Core-Vorgänger Xeon X5570 dient – beide arbeiten mit 2,93 GHz Taktfrequenz. Alle Xeon 5500 und Xeon 5600 arbeiten im identischen System. In möglichst identisch ausgestatteten 2-Sockel-Servern stellen wir zusätzlich die Xeon-5400-Serie sowie AMDs Opteron-Serien 2300 Shanghai und 2400 Istanbul gegenüber.

Wir überprüfen die Performance der CPUs bei Integer- und Floating-Point-Anwendungen sowie bei Verschlüsselung, Rendering und Simulation. Die Geschwindigkeit bei Java-Applikationen wird ebenso untersucht wie die Energieeffizienz der Zwei-Sockel-Systeme. Außerdem messen wir den Speicherdurchsatz der Server.

Verbesserte Speicherunterstützung

Intel stuft die Prozessoren seiner neuen Xeon-5600-Serie in die Modelle „Advanced2, „Standard“ und „Low Voltage“ ein. Zu den Advanced-Modellen zählen die neuen Hexa-Core-Prozessoren Xeon X5650, X5660, X5670 und X5680 mit Grundtaktfrequenzen von 2,66 bis 3,33 GHz. Zusätzlich gibt es die Quad-Core-Varianten Xeon X5667 mit 2,93 GHz und Xeon X5677 mit 3,46 GHz Grundtaktfrequenz. Bei den drei neuen Standard-Modellen Xeon E5620, E5630 und E5640 mit Quad-Core-Technologie reicht die Grundtaktfrequenz von 2,40 über 2,53 bis 2,66 GHz. Neue Low-Power-Varianten Xeon L5609 und L5630 mit vier Kernen sowie die Hexa-Core-CPU Xeon L5640 sind ebenfalls im Angebot.

Bildergalerie: Intel Xeon X5670 und X5680 „Westmer-EP“ mit Asus-2S-Server.
Xeon X5670
Der native Hexa-Core-Prozessor mit 32-nm-Westmere-Architektur arbeitet mit 2,93 GHz Grundtaktfrequenz. Duch sein zusätzliches Hyper-Threading beherrscht der LGA1366-Prozessor 12 Threads parallel. Intel spezifiert die CPU mit 95 Watt TDP.
Xeon X5680
Die sechs Kerne des 32-nm-Prozessors arbeiten mit einer Grundtaktfrequenz von 3,33 GHz. Durch den Turbo Mode können einzelne Kerne mit bis zu 3,6 GHz arbeiten. Der Hexa-Core-Prozessor arbeitet dabei immer innerhalb seiner spezifizierten TDP-Grenze von 130 Watt.
Xeon X5570
Der native Quad-Core-Prozessor mit 45-nm-Nehalem-Architektur arbeitet mit 2,93 GHz Grundtaktfrequenz. Über den integrierten Triple-Channel-Speicher-Controller steuert die CPU DDR3-1333-DIMMs an. Die CPU ist mit 95 Watt TDP spezifiziert.
Socket LGA1366
Die Xeon-5500- und Xeon-5600-Serie nimmt im Socket LGA1366 Platz.
2-Sockel-Konfiguration
In der 2-Sockel-Konfiguration steuert jeder Xeon seinen eigenen DDR3-Speicher an. Über die QuickPath-Verindung zwischen den CPUs können die Xeons auch auf den Speicher des benachbarten Prozessors zurückgreifen.
Kühlung
Für die Kühlung der Xeon-X5600-CPUs mit ihrem TDP-Wert von 95 und 130 Watt sorgen zahlreiche Lüfter.
DDR3-1333-DIMM
Bei der Xeon-5600-Serie setzt Intel auf DDR3-1333-DIMMs mit ECC. Die Prozessoren können pro Channel zwei DIMMs mit 1333 MHz ansteuern. Die Xeon-5500-Serie kann maximal ein DIMM pro Channel mit 1333 MHz betreiben.
Sicherheit
In der Xeon-5600-Testplattform sorgen zwei redundant ausgelegte 770-Watt-Netzteile für die notwendige Energie.
Boardlayout
Die Innenseite des Gehäusedeckels zeigt das Boardlayout des 2-Sockel-Testsystems Asus Z8PS-D12-1U mit Chipsatz Intel 5520 und ICH10R.
Asus 1U-Server
Der 1U-Server Asus RS700-E6/RS4 setzt auf die Intels Tylersburg-EP-Plattform für Xeon-5500- und Xeon-5600-Prozessoren.

Der im Prozessor integrierte Speicher-Controller des Xeon 5600 unterstützt unverändert zur 5500er Serie drei DDR3-Speicher-Channels. Pro Channel sind drei gepufferte oder ungepufferte DIMMs mit ECC möglich. Neu bei den Xeon-5600-CPUs ist, dass der Controller auch zwei DIMMs pro Channel mit 1333 MHz ansteuern kann. Erst beim dritteln Riegel pro Channel schaltet die Speichergeschwindigkeit auf 1066 MHz zurück. Beim Xeon 5500 wurde die Taktfrequenz bereits beim zweiten DIMM auf 1066 MHz und beim dritten Riegel auf 800 MHz reduziert.

In den Genuss von DDR3-1333-Geschwindigkeit kommen allerdings nur die Advanced-Modelle Xeon X56xx sowie die Low-Power-Variante Xeon L5640. Die Standard-CPUs Xeon E56xx sowie die Stromsparmodelle Xeon L5609/L5630 können die Speichermodule nur mit maximal 1066 MHz ansteuern. Neu für alle Xeon-5600-Modelle ist die Unterstützung von Low-Voltage-DDR3-DIMMs.

Mehr Cache, AES und TXT

Allen Xeon-5600-CPUs mit der 32-nm-Westmere-Architektur gemein sind die 256 KByte L2-Cache pro Kern sowie ein 12 MByte fassender gemeinsamer L3-Cache. Die 5500er Vorgängerserie auf 45-nm-Nehalem-Basis muss sich mit einer 8 MByte großen dritten Pufferstufe begnügen. Neu in der Westmere-Architektur und somit auch bei allen Xeon-5600-CPUs ist der neue AES-NI-Befehlssatz. Die Erweiterung soll das De- und Enkodieren erheblich beschleunigen. AES-NI ist bei Server-CPUs beispielsweise interessant für SSL-Transaktionen bei Webservern. Außerdem integriert Intel bei der Xeon-5600-Modellen erstmals seine TXT-Befehlssatzerweiterung für Trusted Computing. Damit soll die Sicherheit in virtuellen Maschinen erhöht werden.

Bildergalerie: Features der Tylersburg-EP-Plattform für Westmere-EP.
Intel-Plattform Tylersburg-EP für Xeon-5600-Prozessoren
Intel-Plattform Tylersburg-EP für Xeon-5600-Prozessoren
Intel-Plattform Tylersburg-EP für Xeon-5600-Prozessoren
Intel-Plattform Tylersburg-EP für Xeon-5600-Prozessoren
Intel-Plattform Tylersburg-EP für Xeon-5600-Prozessoren
Intel-Plattform Tylersburg-EP für Xeon-5600-Prozessoren
Intel-Plattform Tylersburg-EP für Xeon-5600-Prozessoren

Die Kommunikation zwischen den CPUs sowie zur Peripherie erfolgt wie bei allen Xeons der Serie 5500 und 5600 über QuickPath-Schnittstellen. Jeder Xeon besitzt zwei QuickPath-Interconnects: Ein Interface kommuniziert mit dem Chipsatz Intel 5520, das andere ist direkt mit der zweiten CPU verbunden. Bei den Advanced-Modellen arbeitet das Interface mit 6,4 GT/s, die Standard-Modelle sowie das stromsparende Hexa-Core-Modell Xeon L5640 müssen sich mit 5,86 GT/s begnügen. Die Low-Voltage-Varianten Xeon L5609 und L5630 dürfen nur mit 4,8 GT/s kommunizieren.

Bis auf den Xeon L5609 (1,86 GHz / Quad-Core / 40 Watt) beherrschen alle neuen 5600er CPUs Hyper-Threading. Die Hexa-Core-Modelle können somit 12 Threads parallel bearbeiten. In einer 2-Sockel-Konfiguration stehen dem Betriebssystem bereits 24 virtuelle Prozessoren zur Verfügung.

CPUs von 40 bis 130 Watt

Intels neue Topmodell Xeon X5680 mit Hexa-Core und 3,33 GHz Grundtaktfrequenz ist mit einem TDP-Wert von 130 Watt spezifiziert. Dies entspricht der Einstufung des schnellsten 45-nm-Quad-Core-Modells Xeon W5590 mit ebenfalls 3,33 GHz. Der Sechskerne Xeon X5670 mit 2,93 GHz bleibt wie der Quad-Core-Vorgänger Xeon X5570 (2,93 GHz) bei 95 Watt TDP.

Xeon X5680: Die sechs Kerne des 32-nm-Prozessors arbeiten mit einer Grundtaktfrequenz von 3,33 GHz. Durch den Turbo Mode können einzelne Kerne mit bis zu 3,6 GHz arbeiten. Der Hexa-Core-Prozessor arbeitet dabei immer innerhalb seiner spezifizierten TDP-Grenze von 130 Watt.

Durch die 32-nm-Technologie ermöglichen die Xeon-5600-CPUs somit bei unveränderter Taktfrequenz und zwei zusätzlichen Kernen identische TDP-Werte. Besonders sparsame 32-nm-Low-Voltage-Varianten bietet Intel ebenfalls an. Das Hexa-Core-Modell Xeon L5640 mit 2,26 GHz Grundtaktfrequenz ist mit 60 Watt TDP eingestuft. Die Vierkerner Xeon L5609 und L5630 begnügen sich bereits mit 40 Watt. Bei den Xeon-5500-Modellen sind die sparsamsten Modelle noch mit 60 Watt eingestuft.

Xeon X5670: Der native Hexa-Core-Prozessor mit 32-nm-Westmere-Architektur arbeitet mit 2,93 GHz Grundtaktfrequenz. Duch sein zusätzliches Hyper-Threading beherrscht der LGA1366-Prozessor 12 Threads parallel. Intel spezifiert die CPU mit 95 Watt TDP.

Bis auf den Xeon L5609 verfügen alle Quad-Core- und Hexa-Core-Modelle der Xeon-5600-Serie über Turbo Technologie. Die im BIOS ein- und ausschaltbare Technologie erlaubt ein automatisches Übertakten der Kerne, je nach den gerade laufenden Anwendungen. Lastet ein Programm beispielsweise nur einen oder zwei Prozessorkerne aus, so erhöht der Turbo Mode die Taktfrequenz – je nach Modell - um zwei bis vier „Speed Bins“.

Durch die von Intel definierten 133 MHz für einen Speed Bin bearbeitet beispielsweise der Xeon X5680 Single-Threads nun mit 3,6 GHz – bei 3,33 GHz Grundtaktfrequenz. Durch die Turbo Technologie reizt Intel die spezifizierten TDP-Werte der Prozessoren aus – überschritten wird die Spezifikation nicht.

Überblick: Xeon 5500 und Xeon 5600 im Vergleich

In der Tabelle finden Sie alle neuen Xeon-5600-Prozessoren mit 32-nm-Westmere-Architektur im Überblick. Zusätzlich führen wir die Vorgängermodelle der Xeon-5500-Serie auf:

Alle Xeon-5500- und Xeon-5600-Modelle im Überblick

Prozessor

Grundtaktfrequenz [GHz]

QPI [GT/s]

L3-Cache

Kerne

DIMM-Support

Turbo / HT

AES-NI / TXT

TDP [Watt]

Xeon X5680

3,33

6,4

12 MByte

6

DDR3-800/1066/1333

ja / ja

ja / ja

130

Xeon X5677

3,46

6,4

12 MByte

4

DDR3-800/1066/1333

ja / ja

ja / ja

130

Xeon X5670

2,93

6,4

12 MByte

6

DDR3-800/1066/1333

ja / ja

ja / ja

95

Xeon X5667

3,06

6,4

12 MByte

4

DDR3-800/1066/1333

ja / ja

ja / ja

95

Xeon X5660

2,80

6,4

12 MByte

6

DDR3-800/1066/1333

ja / ja

ja / ja

95

Xeon X5650

2,66

6,4

12 MByte

6

DDR3-800/1066/1333

ja / ja

ja / ja

95

Xeon E5640

2,66

5,86

12 MByte

4

DDR3-800/1066

ja / ja

ja / ja

80

Xeon E5630

2,53

5,86

12 MByte

4

DDR3-800/1066

ja / ja

ja / ja

80

Xeon E5620

2,40

5,86

12 MByte

4

DDR3-800/1066

ja / ja

ja / ja

80

Xeon L5640

2,26

5,86

12 MByte

6

DDR3-800/1066/1333

ja / ja

ja / ja

60

Xeon L5630

2,13

4,8

12 MByte

4

DDR3-800/1066

ja / ja

ja / ja

40

Xeon L5609

1,86

4,8

12 MByte

4

DDR3-800/1066

nein / nein

ja / ja

40

Xeon W5590

3,33

6,4

8 MByte

4

DDR3-800/1066/1333

ja / ja

nein / nein

130

Xeon W5580

3,20

6,4

8 MByte

4

DDR3-800/1066/1333

ja / ja

nein / nein

130

Xeon X5570

2,93

6,4

8 MByte

4

DDR3-800/1066/1333

ja / ja

nein / nein

95

Xeon X5560

2,80

6,4

8 MByte

4

DDR3-800/1066/1333

ja / ja

nein / nein

95

Xeon X5550

2,66

6,4

8 MByte

4

DDR3-800/1066/1333

ja / ja

nein / nein

95

Xeon E5540

2,53

5,86

8 MByte

4

DDR3-800/1066

ja / ja

nein / nein

80

Xeon E5530

2,40

5,86

8 MByte

4

DDR3-800/1066

ja / ja

nein / nein

80

Xeon E5520

2,26

5,86

8 MByte

4

DDR3-800/1066

ja / ja

nein / nein

80

Xeon E5506

2,13

4,8

4 MByte

4

DDR3-800

nein / nein

nein / nein

80

Xeon E5504

2,00

4,8

4 MByte

4

DDR3-800

nein / nein

nein / nein

80

Xeon E5502

1,86

4,8

4 MByte

2

DDR3-800

nein / nein

nein / nein

80

Xeon L5530

2,40

5,86

8 MByte

4

DDR3-800/1066

ja / ja

nein / nein

60

Xeon L5520

2,26

5,86

8 MByte

4

DDR3-800/1066

ja / ja

nein / nein

60

Xeon L5506

2,13

4,8

4 MByte

4

DDR3-800

nein / nein

nein / nein

60

Multitask Integer: SPECint_rate_base2006

Wir setzen die SPEC-Benchmarks unter Windows Server 2008 Enterprise x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 10.1 und Fortran 10.1 in der 64-Bit-Version sowie MS Visual Studio 2005 .NET für alle Integer-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz. Bei den Integer-Berechnungen von SPECint_rate_base2006 ermittelt die Benchmark-Suite CPU2006 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Integer-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standardsoftware.

Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECint_rate_base2006 der Anzahl der Prozessorkerne des Systems. Beispielsweise arbeiten beim Zwei-Sockel-Server mit Hexa-Core-Opterons zwölf Kopien parallel. Beim Westmere-EP-System mit Xeon X5670 und X5680 (Hexa-Core) sind durch das zusätzliche Hyper-Threading 24 virtuelle Kerne vorhanden. Entsprechend laufen 24 parallele Kopien mit einem Speicherbedarf von 2 GByte RAM pro Kopie.

SPECint_rate_base2006: Die zwei Xeon X5670 (Hexa-Core / 2,93 GHz) arbeiten bei gleicher Taktfrequenz 35 Prozent schneller als die Vorgängermodelle Xeon X5570 (Quad-Core / 2,93 GHz). Neben dem größeren L3-Cache kommt den Xeon-5600-CPUs die Speichergeschwindigkeit von 1333 MHz zu Gute. Durch den hohen RAM-Bedarf von CPU2006 sind zwei DIMMs pro Channel verbaut, der Xeon X5570 schaltet hier auf 1066 MHz zurück.

Intels 10.1-Compiler bieten mit dem Switch -QxO eine offizielle SSE3-Unterstützung für „Non-Intel-Processors“ (erstmals mit Version 10.0). Mit dieser Compiler-Option führten wir die CPU2006-Benchmarks für die Opteron-Prozessoren durch. Bei den Xeon-CPUs nutzten wir das Compiler-Flag -fast. Hier wählen die Intel-Compiler automatisch die optimale Befehlssatzunterstützung. Zusätzlich testen wir den Xeon L5520, X5570, X5670 und X5680 für eine optimale Vergleichbarkeit mit dem Opteron 2435 ebenfalls mit -QxO:

SPECint_rate_base2006

Compiler-Option

-fast (automatisch)

-QxO (SSE3)

Xeon L5520

146

133

Xeon X5570

176

165

Xeon X5670

237

220

Xeon X5680

257

235

Opteron 2435

--

112

Die Xeon-Prozessoren verlieren durch die Einstellung –QxO zirka sechs bis neun Prozent Performance. Trotzdem arbeiten die Xeon-5600-CPU noch etwas doppelt so schnell als der Opteron 2435 mit ebenfalls Hexa-Core-Technologie.

Multitask Integer: SPECint_rate_base2006 optimiert

Unter Einsatz optimierter Compiler und spezieller Mathematik-Bibliotheken lassen sich für die Prozessoren die besten Ganzzahlenwerte für CPU2006 erzielen. Hier holen die Hersteller das Optimum aus ihren Systemen heraus. Die folgenden Werte sind offizielle CPU2006-Resultate, die von Server-Herstellern auf SPEC.org gemeldet sind. Die Angaben für die neuen Xeon-5600-Prozessoren sind von Intel und als „estimated“ gekennzeichnet (noch nicht offiziell auf SPEC.org publiziert).

SPECint_rate_base2006 optimiert: Mit speziellen Compilern und Bibliotheken wird das Integer-Leistungsvermögen gegenüber unseren Standardeinstellungen um zirka 35 bis 45 Prozent gesteigert. Die prozentualen Abstände zwischen den Prozessoren bleiben allerdings relativ unverändert.

Multitask Floating Point: SPECfp_rate_base2006

Wir setzen die SPEC-Benchmarks unter Windows Server 2008 Enterprise x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 10.1 und Fortran 10.1 in der 64-Bit-Version sowie MS Visual Studio 2005 .NET für alle Floating-Point-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz. Bei den Floating-Point-Berechnungen von SPECfp_rate_base2006 ermittelt die Benchmark-Suite CPU2006 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Floating-Point-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standardsoftware.

Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECfp_rate_base2006 der Anzahl der Prozessorkerne des Systems. Beispielsweise arbeiten beim Zwei-Sockel-Server mit Hexa-Core-Opterons zwölf Kopien parallel. Beim Westmere-EP-System mit Xeon X5670 und X5680 ( beide Hexa-Core) sind durch das zusätzliche Hyper-Threading 24 virtuelle Kerne vorhanden. Entsprechend laufen 24 parallele Kopien mit einem Speicherbedarf von 2 GByte RAM pro Kopie.

SPECfp_rate_base2006: Bei den sehr speicherintensiven Durchsatztests mit Floating-Point-Programmen setzt sich der neue Xeon X5670 mit Hexa-Core vom ebenfalls mit 2,93 GHz getakteten Xeon X5570 (Quad-Core) mit 29 Prozent höherer Geschwindigkeit ab. Diese Steigerung durch die zwei zusätzlichen Kerne ist angesichts der großen Abhängigkeit von der Speicherbandbreite ein sehr guter Wert. Den Xeon-5600-CPUs kommt hier auch die Speichergeschwindigkeit von 1333 MHz zu Gute. Durch den hohen RAM-Bedarf von CPU2006 sind zwei DIMMs pro Channel verbaut, der Xeon X5570 schaltet hier auf 1066 MHz zurück.

Intels 10.1-Compiler bieten mit dem Switch -QxO eine offizielle SSE3-Unterstützung für „Non-Intel-Processors“ (erstmals mit Version 10.0). Mit dieser Compiler-Option führten wir die CPU2006-Benchmarks für die Opteron-Prozessoren durch. Bei den Xeon-CPUs nutzten wir das Compiler-Flag -fast. Hier wählen die Intel-Compiler automatisch die optimale Befehlssatzunterstützung. Zusätzlich testen wir den Xeon L5520, X5570, X5670 und X5680 für eine optimale Vergleichbarkeit mit dem Opteron 2435 ebenfalls mit -QxO:

SPECfp_rate_base2006

Compiler-Option

-fast (automatisch)

-QxO (SSE3)

Xeon L5520

135

131

Xeon X5570

160

154

Xeon X5670

207

171

Xeon X5680

219

176

Opteron 2435

--

108

Die Xeon-5600-Prozessoren verlieren durch die Einstellung –QxO mit zirka 17 bis 20 Prozent massiv Performance, wenn maximal SSE3 unterstützt wird. Bei den Xeon-5500-Modellen beträgt der Einbruch nur drei bis vier Prozent. AMDs Hexa-Core-CPU Opteron 2435 bleibt dennoch abgeschlagen zurück.

Multitask Floating Point: SPECfp_rate_base2006 optimiert

Unter Einsatz optimierter Compiler und spezieller Mathematik-Bibliotheken lassen sich für die Prozessoren die besten Fließkommawerte für CPU2006 erzielen. Hier holen die Hersteller das Optimum aus ihren Systemen heraus. Die folgenden Werte sind offizielle CPU2006-Resultate, die von Server-Herstellern auf SPEC.org gemeldet sind. Die Angaben für die neuen Xeon-5600-Prozessoren sind von Intel und als „estimated“ gekennzeichnet (noch nicht offiziell auf SPEC.org publiziert).

SPECfp_rate_base2006 optimiert: Bei den sehr speicherintensiven und damit Speicherbandbreiten-abhängigen Fließkommaszenarios lässt sich die Performance durch spezielle Compiler und Bibliotheken gegenüber unseren Standardeinstellungen um zirka 11 bis 23 Prozent steigern. An der Reihenfolge der Prozessoren und somit am Kräfteverhältnis ändert sich allerdings nichts.

Java Virtual Machine Performance

Mit SPECjvm2008 stellt die Standard Performance Evaluation Corporation (SPEC) einen Benchmark für die Performance von Systemen unter Java Runtime Environment (JRE) zur Verfügung. Die Evaluierungssoftware zur Ermittlung der Java-Performance wurde von SPEC in Zusammenarbeit mit AMD, Bea, Hewlett-Packard, IBM, Intel und Sun entwickelt.

Für die Performance des Systems in einer Java Virtual Machine zeigen sich neben der Wahl der Java-Engine die Prozessoren sowie die Speicherarchitektur verantwortlich. SPECjvm2008 startet eine JVM und führt einen Multithread-Workload durch. Alle Prozessorkerne eines Systems werden von SPECjvm2008 ausgenutzt.

SPECjvm2008 arbeitet mit einem Base-Run, bei dem keine speziellen Tuning-Maßnahmen durch Flags und Optimierungen erlaubt sind. Damit wird die Java-Performance der Systeme mit der installierten JVM ermittelt. Zehn verschiedene Tests wie Compilieren, Rendering, Verschlüsselung oder Komprimierung werden durchgeführt. Beim Peak-Run lassen sich für jeden Test Optimierungen für die JVM einstellen.

Wir führen SPECjvm2008 im Base-Run unter Windows Server 2008 Enterprise x64 mit der JRE Bea JRockit 6 R27 in der 64-Bit-Version durch:

Java Runtime: Die beiden Xeon-5600-Prozessoren setzen sich mit ihrer Hexa-Core-Technologie wieder deutlich vor dem Quad-Core-Vorgänger Xeon X5570. AMDs ebenfalls mit Hexa-Core arbeitende Opteron-2435-CPUs (2,6 GHz) erreichen trotz höherer Taktfrequenz nicht die Java-Performance der Stromspar-Xeons L5520 (Quad-Core / 2,26 GHz).

Maximale Java-Performance

SPECpower_ssj2008 ermittelt neben der Energieeffizienz bei 100 Prozent Prozessorauslastung auch die maximale Java-Performance des Systems. Als Java-Engine unter Windows Server 2008 Enterprise x64 dient Bea JRockit in der 64-Bit-Version 6 R27.

SPECpower_ssj2008 nutzt einen anderen Workload als SPECjvm2008. Außerdem arbeiten bei SPECpower_ssj2008 nicht nur eine JVM, sondern mehrere virtuelle Java-Instanzen. Bei den getesteten Vier-Sockel-Systemen sind zwei JVMs aktiv. Jede JVM agiert multithreaded mit der Anzahl der CPU-Kerne pro Sockel. Bei diesem konfigurierbaren Setup erzielt SPECpower_ssj2008 bei Zwei-Sockel-Systemen die besten Ergebnisse.

Bei diesem Test sind die Energiesparoptionen der Prozessoren aktiv, die erreichbare Performance wird durch die Vollauslastung der CPUs allerdings nicht beeinflusst.

Java-Performance: Der Workload ist speicherintensiver als bei SPECjvm2008. So arbeitet das Xeon-X5670-Päärchen hier 31 statt nur 21 Prozent flinker als die Xeon-X5570-CPUs (beide 2,93 GHz und DDR3-1333). Die neuen 32-nm-Xeons profitieren hier von ihrem größeren L3-Cache (12 statt 8 MByte).

Dass beim Java-Workload von SPECpower hohe Speicher- und Busbandbreiten von Vorteil sind, zeigen auch die Xeon E5472. Trotz nur 3,0 GHz Taktfrequenz überholen die Xeon E5472 hier die 3,33-GHz-Xeon-X5470-CPUs, weil sie mit DDR2-800-Speicher und FSB1600 arbeiten (statt DDR2-667 und FSB1333).

Energieeffizienz: Performance/Watt

Der Gesamtwert von SPECpower_ssj2008 steht für die Energieeffizienz des Systems. Der Benchmark gibt die gemittelte Performance pro Watt an, die über alle Lastzustände von zehn bis 100 Prozent gemessenen werden.

Um die Energiesparoptionen der Prozessoren zu nutzen, arbeitet Windows Server 2008 Enterprise x64 mit dem Energieschema „Ausbalanciert“. SpeedStep (Intel) und PowerNow! (AMD) zum dynamischen Regeln von Taktfrequenz und Core-Spannung je nach CPU-Auslastung sind bei dem SPECpower-Benchmark aktiv.

Mit Powermanagement: Werden die zwei Xeon X5570 durch zwei neue Xeon X5670 getauscht, so steigt die Energieeffizienz des Servers um 29 Prozent. Damit setzt sich das Intel-basierende System wieder deutlich vom Opteron-2435-Server ab. Mit den Xeon-X5670-CPUs ist die Energieeffizienz sogar noch minimal besser als mit noch schnelleren Xeon-X5680-Modellen, weil die 2,93-GHz-CPUs mit 95 Watt TDP weniger Energie als die 3,33-GHz-Xeons mit 130 Watt TDP benötigen.

Jetzt wird bei den Energieoptionen von Windows Server 2008 das Schemata „Höchstleistung“ ausgewählt. Die Prozessoren arbeiten immer mit voller Taktfrequenz und Core-Spannung. Die dynamischen Powermanagement-Funktionen SpeedStep (Intel) und PowerNow! (AMD) sind beim Schemata „Höchstleistung“ nicht aktiv.

Im zweiten Diagramm sehen Sie die Auswirkungen des deaktivierten CPU-Powermanagements auf die Energieeffizienz der Systeme.

Ohne Powermanagement: Mit inaktivem SpeedStep reduzieren die zwei Xeon X5670 und X5680 die Systemeffizienz um knapp ein Prozent. Bei den zwei Xeon-X5570-CPUs verschlechtert sich die Effizienz um zirka zwei Prozent. Beim Opteron-2435-System geht die Effizienz ohne PowerNow! um ein gutes Prozent zurück.

Maximaler Energieverbrauch

SPECpower_ssj2008 ringt dem Testsystem im Lastzustand 100 Prozent den maximalen Energieverbrauch ab. Alle Kerne der Prozessoren sind voll ausgelastet. Die aktiven JVMs fordern zusätzlich den Arbeitsspeicher der Systeme.

Kernig: Der Xeon X5670 mit Hexa-Core besitzt mit 95 Watt die gleiche TDP-Einstufung wie das Quad-Core-Vorgängermodell Xeon X5570. Unter Volllast benötigt der verwendete Intel-Server mit beiden CPU-Varianten deshalb ähnlich viel Energie. Mit den 130-Watt-Modellen Xeon X5680 steigt die Leistungsaufnahme jedoch deutlich. Stecken in der gleichen Plattform zwei stromsparende Xeon L5520 (45-nm-Nehalem) mit 60 Watt TDP, so agiert der Server äußerst sparsam.

Minimaler Energieverbrauch

SPECpower_ssj2008 führt neben den Lasttests zusätzlich Kalibrierungsmessungen über den Energieverbrauch bei Leerlauf durch. Dabei wird der minimale Energiebedarf des Systems ermittelt.

Im ersten Diagramm vergleichen wir den Systemverbrauch unter Windows Server 2008 Enterprise x64 mit dem Energie-Schemata „Ausbalanciert“. Die Prozessoren nutzen ihre Powermanagement-Features SpeedStep (Intel) und PowerNow! (AMD) aus.

Mit Powermanagement: Im Leerlauf mit SpeedStep arbeiten die Xeon-5500- sowie die neuen Xeon-5600-CPUs mit der identischen Taktfrequenz von 1,6 GHz. Durch die aktiven Stromsparmechanismen der LGA1366-Prozessoren ergeben sich im Idle-Modus somit kaum Unterschiede. Die Xeon-L5520-CPUs sparen zusätzlich Energie, weil sie den Speicher nur mit 1066 statt 1333 MHz ansteuern. Außerdem arbeitet das QuickPath-Interface mit einer geringeren Geschwindigkeit.

Dann wird bei den Energieoptionen von Windows Server 2008 das Schemata „Höchstleistung“ ausgewählt. Die dynamischen Powermanagement-Funktionen SpeedStep (Intel) und PowerNow! (AMD) sind beim Schemata „Höchstleistung“ nicht aktiv. Die Auswirkungen sehen Sie im zweiten Diagramm.

Ohne Powermanagement: Im Leerlauf steigt bei den Xeon X5670 der Energiebedarf ohne SpeedStep lediglich um ein Watt. Beim Xeon X5680 erhöht sich der Konsum dagegen um sieben Watt. Die Opteron-2435-Modelle erhöhen ihren Energiebedarf im Leerlauf ohne Powermanagement sogar um 10 Watt.

Analyse: SunGard ACR

SunGards Adaptiv Credit Risk 4.0 ist ein Analysetool für den Finanzbereich. Basierend auf modifizierten Monte-Carlo-Simulationen berechnet das Programm den künftigen Wert einer Anlage auf Basis vorhandener Marktdaten.

SunGards Adaptiv Credit Risk wurde in C# für Microsofts .NET-Umgebung programmiert. Spezielle Mathematik-Bibliotheken wie Intels MKL oder AMDs Core Math Library ACML verwendet Adaptiv Credit Risk nicht. Das Analysetool arbeitet multithreaded und unterstützt Multiprozessor-Systeme optimal. SunGard rechnet überwiegend mit Integer-Operationen. Speicherzugriffe halten sich bei Adaptiv Credit Risk in Grenzen.

Schnelle Vorhersagen: Die 2,93-GHz-Hexa-Core-Xeons setzen ihre zusätzlichen Kerne in 33 Prozent höhere Rechengeschwindigkeit um – im Vergleich zum Xeon X5570 mit ebenfalls 2,93 GHz. Trotz Hexa-Core-Technologie und höherer Taktfrequenz müssen sich zwei Opteron 2435 den zwei Xeon L5520 geschlagen geben.

Linpack 64 Bit

Linpack dient als verbreitetes Tool zum Ermitteln der Floating-Point-Performance von Highend-Computern. Das Ergebnis wird in Flops (Fließkomma-Operationen pro Sekunde) angegeben.

Linpack löst komplexe lineare Gleichungssysteme. Die Anzahl der Gleichungen lässt sich dabei stark erhöhen, um auch massiv parallel operierende Systeme unter Last zu setzen. Der Bedarf an Arbeitsspeicher wächst entsprechend mit. Die Speicherzuweisung erfolgt über eine Matrix-Berechnung. Size x LDA x 8 (Anzahl der Gleichungen x Input x 8 bit) ergibt den zu allokierenden Speicher.

Unter Linux 64 Bit setzen wir die 64-Bit-Version von Linpack 2.1.2 ein. Der SMP-fähige Benchmark setzt EMT64-Prozessoren mit SSE3-Unterstützung voraus. AMDs Opteron-Prozessoren mit SSE3 arbeiten unter Linux ebenfalls problemlos mit der von Intel-Compilern erstellten Linpack-Version zusammen.

Bei unseren Tests löst Linpack in verschiedenen Durchläufen 5000, 10.000, 15.000, 18.000, 22.000 und 27.000 Gleichungssysteme. Damit benötigt der Benchmark zwischen 190 MByte (5000 Gleichungssysteme) und zirka 5,4 GByte Arbeitsspeicher (27.000 Gleichungssysteme). Im Diagramm finden Sie die von den Prozessoren maximal erreichten GFlops.

Abgelöst: Die SSE3-optimierten Matrixberechnungen bei Linpack zählen schon immer zu einer Paradedisziplin für Opteron-Prozessoren. AMDs Hexa-Core-Päärchen muss sich dennoch den neuen 6-Core-Xeons deutlich geschlagen geben. Die Xeon-X5670-CPUs arbeiten satte 42 Prozent schneller als die mit ebenfalls 2,93 GHz agierenden Quad-Core-Xeons.

Encryption/Decryption: openSSL 64 Bit

Die Leistungsfähigkeit der Prozessoren beim Verschlüsseln und Entschlüsseln von Daten unter Linux 64 Bit ermittelt das Open-Source-Programm openSSL in der 64-Bit-Version 0.9.8b. Der Code von openSSL ist single threaded programmiert. Durch den Start von multiplen Kopien summiert openSSL die Performance beim Verschlüsseln und Entschlüsseln von Daten.

Wir testen die Prozessoren bei openSSL mit dem RSA-Schlüssel und einer Schlüssellänge von 2048 Bit. Der synthetische Benchmark gibt einen guten Anhaltspunkt für die Geschwindigkeit der Prozessoren beim Verschlüsseln und Entschlüsseln von Daten. Spezielle, für die CPU-Architekturen optimierte Mathematik-Bibliotheken kommen beim mit gcc kompilierten openSSL-Benchmark nicht zum Einsatz.

RSA-2048 Encryption: Der Test läuft überwiegend im Cache ab. Die 6-Core-Opterons 2435 verschlüsseln 20 Prozent schneller als zwei Xeon X5570. Intels neue Xeon-X5670-Prozessoren erledigen die Verschlüsselung dagegen 47 Prozent schneller als die 5570er Xeons. Der AES-Befehlssatz der 32-nm-Xeons kommt hier noch nicht zum Einsatz. Die Performance-Steigerung erledigen die zwei zusätzlichen Kerne.
RSA-2048 Decryption: Auch das Entschlüsseln erledigen die 32-nm-Hexa-Core-Xeons bei gleicher Taktfrequenz 47 Prozent schneller als die 45-nm-Quad-Core-Xeons mit dem höchsten Durchsatz. Auch hier kommt noch kein AES-NI zum Einsatz.

Encryption/Decryption: openSSL 64 Bit mit AES-NI

Den Source-Code der Verschlüsselungs-Software openSSL 0.9.8k kompilierten wir unter CentOS Linux mit 64-Bit-gcc in eine ausführbare Version ohne Veränderungen. Zusätzlich erstellten wir eine spezielle AES-NI-Version durch Einbindung eines Patches zur Nutzung der AES-Befehlssatzerweiterung.

Die Xeon-5600-Prozessoren mit AES-NI-Unterstützung testen wir mit beiden erstellten openSSL-Versionen. Damit lässt sich direkt der Vorteil von AES-NI bei Verschlüsselungsaufgaben messen. Zusätzlich lassen wir openSSL 0.9.8k zum Vergleich noch auf dem Xeon X5570 (45-nm-Nehalem, kein AES-NI) laufen.

Der Code von openSSL ist single threaded programmiert. Durch den Start von multiplen Kopien summiert openSSL die Performance beim Verschlüsseln von Daten. Alle Kerne der Prozessoren werden ausgenutzt. Den Encryption-Vorgang führen wir mit dem Schlüssel aes-128-cbc durch. Die Ergebnisse zeigen den Durchsatz der verschlüsselten Daten:

openSSL-Performance

Encryption aes-128-cbc 8192 Byte Block

Ohne AES-Patch

Mit AES-Patch

Xeon X5570

1772 MByte/s

1784 MByte/s

Xeon X5670

2568 MByte/s

16923 MByte/s

Xeon X5680

2957 MByte/s

19539 MByte/s

Beim Xeon X5570 ist das Ergebnis der beiden openSSL-Version mit und ohne AES-Patch erwartungsgemäß gleich. Die CPU unterstützt kein AES-NI. Der ebenfalls mit 2,93 GHz arbeitende Xeon X5670 arbeitet durch seine zwei zusätzlichen Kerne mit der ungepatchten openSSL-Version ebenfalls erwartungsgemäß 45 Prozent schneller als der Xeon X5570.

Bei den neuen Xeon-5600-Prozessoren arbeitet openSSL mit AES-Patch um den beeindruckenden Faktor 6,6 schneller als die normale Version. Damit zeigt AES-NI bei openSSL nochmals eine deutlich höhere Beschleunigung als bei WinZip 14. Die Zeit für das Entpacken eines verschlüsselten Archivs wird durch den AES-Befehlssatz halbiert, wie unsere Messungen ergaben.

Die Intel Compiler 11.0, GNU gcc v4.4.0, Microsoft Visual Studio 2008 SP1 unterstützen laut Intel bereits die AES-Befehlssatzerweiterung. Die auf dem Markt führenden Linux-Distributionen planen Intel zufolge im dritten Quartal 2010 die Unterstützung von AES-NI.

Rendering: CINEBENCH 11.5 64 Bit

Mit dem CINEBENCH 11.5 stellt Maxon die aktuelle Version des bekannten Benchmark-Tools bereit. CINEBENCH 11.5 basiert auf Cinema 4D Release 11.5 und führt Rendering-Tests durch. Maxon bietet CINEBENCH 11.5 als 32- und 64-Bit-Version zum Download an. Die Rendering-Engine von Cinemal 4D Release 11.5 unterstützt bis zu 64 Threads.

Beim Render-Test wird eine fotorealistische 3D-Szene mithilfe des Cinema-4D-Raytracers berechnet. Die Testszene enthält über 2000 Objekte mit mehr als 300.000 Polygonen, nutzt scharfe und weiche Spiegelungen, Flächenlichter und -schatten, prozedurale Shader, Kantenglättung und vieles mehr. Bei dem FPU-lastigen Test spielt die Leistungsfähigkeit der Grafikkarte keine Rolle. Auch höhere Speicher- und FSB-Bandbreiten nutzen beim Rendering von CINEBENCH 11.5 wenig – der Test läuft überwiegend in den Cache-Stufen ab.

1 Thread: Beim Rendering wird jetzt nur ein Prozessorkern verwendet – Multi-Core nutzt hier nichts. Durch die Turbo-Technologie arbeiten der Xeon X5570 und X5670 mit 3,33 GHz (plus drei „Speed Bins“), der Xeon X5680 erhöht auf 3,6 GHz Taktfrequenz um zwei „Speed Bins“. AMDs Opteron 2435 mit 2,6 GHz Taktfrequenz liegt abgeschlagen zurück.
Alle Threads: Jetzt nutzt CINEBENCH alle verfügbaren Prozessorkerne. Der Xeon X5670 nutzt seine zwei zusätzlichen Kerne mit 45 Prozent mehr Performance gegenüber dem Xeon X5570 (beide 2,93 GHz) fast ideal aus. Hyper-Threading erwirkt bei den Xeons ein Plus von zirka 24 Prozent. So erreicht beispielsweise der Xeon X5670 mit deaktiviertem HT 12,07 Punkte. AMDs Hexa-Core-Opteron-Päärchen liegt chancenlos zurück.

AMD & Intel: Listenpreise 2-Sockel-CPUs

In der Tabelle finden Sie die Preise der aktuellen Xeon-5500-Prozessoren im Vergleich zu AMDs Opteron-2400-Serie. Bei AMDs Preisliste gab es am 04. November 2009 die letzten Änderungen. Intels Preisliste wurde am 16. März 2010 aktualisiert.

OEM-Preise im Vergleich

Modell

Taktfrequenz [GHz]

Listenpreis [US-Dollar]

Intel Xeon-5600-Serie

Xeon X5680

3,33

1663

Xeon X5677

3,46

1663

Xeon X5670

2,93

1440

Xeon X5667

3,06

1440

Xeon X5660

2,80

1219

Xeon X5650

2,66

996

Xeon E5640

2,66

774

Xeon E5630

2,53

551

Xeon E5620

2,40

387

Xeon L5640

2,26

996

Xeon L5630

2,13

551

Xeon L5609

1,86

440

Intel Xeon-5500-Serie

Xeon W5590

3,33

1600

Xeon W5580

3,20

1600

Xeon X5570

2,93

1386

Xeon X5560

2,80

1172

Xeon X5550

2,66

958

Xeon E5540

2,53

744

Xeon E5530

2,40

530

Xeon E5520

2,26

373

Xeon E5506

2,13

266

Xeon E5504

2,00

224

Xeon E5502

1,86

188

Xeon L5530

2,40

744

Xeon L5520

2,26

530

Xeon L5506

2,13

423

AMD Opteron-2400-Serie

Opteron 2439 SE

2,8

1019

Opteron 2435

2,6

989

Opteron 2431

2,4

698

Opteron 2427

2,2

455

Opteron 2425 HE

2,1

523

Opteron 2423 HE

2,0

455

Opteron 2419 EE

1,8

989

Fazit

War schon Intels Xeon-5500-Serie bei x86-basierenden 2-Sockel-Servern das Maß der Dinge, so setzen sich die neuen Xeon-5600-Prozessoren nochmals deutlich vom Vorgänger ab. Der Schritt von vier auf sechs Kerne erwirkt bei unveränderter Taktfrequenz ein Plus von zirka 30 bis 45 Prozent in der Rechengeschwindigkeit. AMDs Opteron mit Hexa-Core hat nun in allen getesteten Szenarien deutlich das Nachsehen.

Erfreulicherweise geht die höhere Performance der 32-nm-Xeons nicht zu Lasten der Stromrechung. So arbeitet der neue Hexa-Core-Prozessor Xeon X5670 mit nahezu unveränderter Energieaufnahme in der identischen Plattform wie der bisherige Xeon X5570 (Quad-Core, ebenfalls 2,93 GHz). Durch den einfachen Austausch der LGA1366-Prozessoren steigt somit neben der Performance auch die Energieeffizienz des Systems um zirka 30 Prozent.

Sehr überzeugend ist bei den neuen Xeon-5600-Modellen mit Westmere-Architektur die Befehlssatzerweiterung AES-NI (New Instructions). SSL-Transaktionen, wie sie beispielsweise bei Webservern häufig benötigt werden, beschleunigen die neuen Xeons bei unseren Tests um mehr als das Sechsfache. Damit sind die Xeon-5600-CPUs für Verschlüsselungsaufgaben geradezu prädestiniert. Die Software-Infrastruktur wird laut Intel schnell Nutzen von der AES-Beschleunigung ziehen.

AMDs Hoffnung auf konkurrenzfähigere Produkte liegt nun auf dem 12-Core-Prozessor Opteron 6100 „Magny-Cours“, der noch im März 2010 debütieren soll. Die AES-Befehlssatzerweiterung wird es bei AMD allerdings erst 2011 mit dem neuen Bulldozer-Core geben. (cvi)

Testsysteme im Detail

Intels Xeon L5520 und X5570 „Nehalem-EP“ sowie den Xeon X5670 und X5680 „Westmere-EP“ testen wir in einem 2-Sockel-Server Asus RS700-E6/RS4. Der 1U-Server mit der neuen Tylersburg-EP-Plattform besitzt als Mainboard ein Asus Z8PS-D12-1U mit Chipsatz Intel 5520 und ICH10R. Jedem Prozessor steht pro Speicher-Channel ein 4 GByte Registered DIMM vom Typ Qimonda IMHH4GP12A1F1C-13H mit 1333 MHz Taktfrequenz zur Verfügung. Beim Xeon L5520 arbeitet der Speicher mit 1066 MHz. Insgesamt besitzt das System damit 24 GByte Arbeitsspeicher – 12 GByte pro CPU mit drei Channels.

Tylerburg-EP-Plattform: Der Zwei-Sockel-Server Asus RS700-E6/RS4 dient als Testplattform für die Xeon- Prozessoren L5520, X5570, X5670 und X5680.

Um die Performance und die Energieeffizienz der Xeon-Nehalem-CPUs bestmöglich mit den Xeon-5400- und Opteron-Prozessoren vergleichen zu können, verwenden wir möglichst bauähnliche Server. Die Xeon-5400-CPUs nehmen in einem SuperServer 6025W-NTR+B von Supermicro Platz. Als Mainboard verwendet der Server ein Supermicro X7DWN+ mit Seaburg-Chipsatz. Vier FB-DIMM-Channels steuern insgesamt acht 2-GByte-Module vom Typ Nanya NT2GT72U4NB1BD-2C an. Die FB-DIMMs arbeiten bei der FSB1600-CPU Xeon E5472 mit DDR2-800-SDRAMs mit einem 5-5-5-Timing. Bei den FSB1333-Xeons steuert der Chipsatz den Speicher automatisch mit einer Geschwindigkeit von 667 MHz bei CL5 an.

AMDs Opteron 2384 „Shanghai“ und 2356 „Barcelona“ testen wir in einem 2-Sockel-Server Supermicro A+ 2021M-UR+B. Der Rack-Server verwendet als Mainboard das Supermicro H8DMU+ mit NVIDIA MCP55Pro-Chipsatz. Jedem Prozessor stehen vier gepufferte 2-GByte-DIMMs in einer Dual-Channel-Konfiguration zur Verfügung. Insgesamt verfügt der Opteron-Server somit über 16 GByte Arbeitsspeicher.

AMDs Opteron 2435 testen wir in einem 4-Sockel-Server Tyan Transport GT26. Der 1U-Rack-Server verwendet als Mainboard ein Tyan S4987 mit NVIDIA MCP55-Chipsatz. Das System eignet sich für den Betrieb mit zwei oder vier Prozessoren. Jedem Prozessor stehen zwei gepufferte 4-GByte-DIMMs in einer Dual-Channel-Konfiguration zur Verfügung. Insgesamt verfügt der Tyan-Server in der 2-Sockel-Konfiguration über 16 GByte Arbeitsspeicher.

Um insbesondere für die Energiemessungen gleiche Vorraussetzungen für den AMD- und Intel-Server zu ermöglichen, arbeiten in den Systemen an der SAS/SATA-Backplane jeweils zwei SATA-RAID-Edition-Festplatten von Samsung. Somit lassen sich bestmögliche Vergleiche zwischen den Prozessoren ziehen. Jeder Server bezieht seine Energie aus zwei 700-Watt-Netzteilen (AMD-Server und Intel-Xeon-5400-System) beziehungsweise 770-Watt-Netzteilen (Intel Nehalem-EP-System). Das Testsystem für den Opteron 2435 ist mit einem 1000-Watt-Netzteil ausgestattet.

Als Betriebssystem setzen wir Windows Server 2008 Enterprise x64 ein. Tests unter Linux erfolgen mit CentOS 5 in der 64-Bit-Version.