4-Sockel-CPUs im Vergleich

Intel Xeon X7560 im Test - Neue Generation überflügelt Vorgänger

29.07.2010 von Christian Vilsbeck
Intel bietet mit der Xeon-7500-Serie 8-Core-CPUs für Systeme mit zwei, vier und mehr Sockeln an. In der 4-fach Konfiguration enteilt der getestete Xeon X7560 seinem Vorgänger Xeon X7460 in der Performance oft um den Faktor 3.

Intels Xeon-7500-Serie eignet sich für Server mit zwei, vier oder mehr Prozessoren. Die 8-Core-CPUs merzen die Schwachpunkte der Xeon-7400-Vorgängerserie mit langsamen FSB und Speicher-Controller im Chipsatz aus. Zwei pro Prozessor integrierte Speicher-Controller steuern jeweils acht DDR3-DIMM-Channels auf. Die Kommunikation zwischen den Xeon-7500-CPUs erfolgt über QuickPath-Schnittstellen. Bei Xeon-7400-Servern müssen die CPUs noch via FSB über den Chipsatz kommunizieren - ein Flaschenhals. Auch der Speicherzugriff über den Chipsatz ist im Vergleich zu modernen Architekturen "quälend" langsam.

Bildergalerie: Alle Benchmarks des Xeon X7560 im Überblick.
CPU2006 64 Bit - Multitasking - SPECint_rate_base2006
Die vier Xeon X7560 bieten einen 2,7-fachen Integer-Durchsatz im Vergleich zum Vorgängermodell Xeon X7460. Die neue Architektur mit integrierten Speicher-Controllern und QuickPath-Verbindungen macht den großen Performance-Gewinn möglich. Sehr gut ist auch die Skalierung der Rechenleistung gegen über der 2-Sockel-Konfiguration mit FlexMem (Ohne FlexMem = beide CPUs haben ihren eigenen Speicher. Mit FlexMem = In einem 4-Sockel-System, dass nur mit zwei CPUs bestückt ist, können auch die DIMM-Steckplätze der beiden leeren CPU-Sockel genutzt werden; die Speicherbandbreite steigt). In der 4-Sockel-Konfiguration profitieren die Xeon X7560 zusätzlich gegenseitig von der summierten Speicherbandbreite.
CPU2006 64 Bit - Multitasking - SPECint_rate_2006 - optimierte Herstellerangaben
Mit speziellen Compilern und Bibliotheken wird das Integer-Leistungsvermögen gegenüber unseren Standardeinstellungen um bis zu 50 Prozent erhöht. In das Diagramm haben wir auch einen offiziellen Wert von vier Opteron 6174 aufgenommen – trotz mehr physischer Kerne (4 x 12) führen aber die vier Xeon X7560 (4 x 8).
CPU2006 64 Bit - Multitasking - SPECfp_rate_base2006
Bei den sehr speicherintensiven Durchsatztests mit Floating-Point-Programmen setzen sich die vier Xeon X7560 sogar um den Faktor 3,4 von den X7460-Vorgängermodellen ab. Auch gegenüber den 2x Xeon X7560 Konfiguration skaliert die Performance sehr gut. Dem 4fach-System kommt zu Gute, dass jede CPU via QuickPath direkt mit den benachbarten verbunden ist und somit auch der Speicher zur Verfügung steht.
CPU2006 64 Bit - Multitasking - SPECfp_rate_2006 - optimierte Herstellerangaben
Bei den sehr speicherintensiven und damit Speicherbandbreiten-abhängigen Fließkommaszenarios lässt sich die Performance durch spezielle Compiler und Bibliotheken gegenüber unseren Standardeinstellungen um zirka bis zu 48 Prozent steigern (2x Opteorn 6174). In das Diagramm haben wir auch einen offiziellen Wert von vier Opteron 6174 aufgenommen. Im Gegensatz zu den Integer-Berechnungen müssen die vier Xeon X7560 jetzt die Opterons vorbei lassen. Bei den Opterons wirkt sich der schnellere Speicher positiv aus.
VMware VMmark - Konsolidierte Virtualisierungs-Performance - ESX-Server
Die vier Octa-Core-Xeons X7560 bieten die 3,7-fache Leistung als die Vorgängermodelle Xeon X7460 an. Durch den massiven möglichen Speicher von 384 GByte im Server (IBM System x3850 X5) sind 50 Tiles möglich (1 Tile = 6 VMs; benötigt zirka 6 GB RAM). Intels Xeons ermöglichen auch in der 2-Sockel-Konfiguration (X5680 und X7560) eine höhere Performance als zwei Opteron 6176SE.
VMware VMmark - Virtualisierungs-Performance 1 Tile (6 VMs) - ESX-Server
Obwohl der IBM-Server x3850 X5 mit den vier Xeon X7560 die sehr hohe Anzahl von 50 Tiles laufen lässt, ist die Performance in einer VM sogar noch über dem Niveau der anderen Systeme. Allerdings zeigt sich hier, dass alle Prozessoren innerhalb der virtuellen Maschine eine sehr ähnliche Leistung ermöglichen.
STREAM 5.8 OMP 64 Bit - Speicherbandbreite
Die vier Xeon X7560 erreichen knapp die Bandbreite der zwei Xeon X5680. Der etwas enttäuschende Durchsatz wird auch durch die Latenzzeiten der SMBs verursacht. Mit einer gcc-compilierten Linux-Variante von STREAM holen die Xeon X7560 etwas mehr aus dem Speicher. So erreichen damit zwei Xeon X7560 immerhin 28 statt nur 20 GByte/s. Deutlich langsamer sind dagegen die Vorgänger Xeon X7460 mit klassischer FSB/Chipsatz-Anbindung. Die beiden Opteron-6174-Prozessoren holen aus den insgesamt acht DDR3-1333-Channels dagegen einen Speicherdurchsatz von 51,8 GByte/s heraus.
SPECjvm2008 - Base Run - Performance Java Runtime Environment
Ihren Vorgängern ziehen die vier Xeon X7560 um einer 58 Prozent höhere Performance davon. Eine sehr gute Java-Leistung erzielen auch die zwei Xeon X5680 mit Hexa-Core-Technologie. In der 2-Sockel-Konfiguration streiten sich die Octa-Core-Xeon-X7560 mit den Zwölfkern-Opterons um die Plätze.
SPECpower_ssj2008 - Java-Performance - 100 Prozent Last
Der Workload ist speicherintensiver als bei SPECjvm2008 und skaliert besser mit der Anzahl der Prozessoren / Kerne. Hier zeigen die vier 8-Core-Prozessoren Xeon X7650 ihr volles Potenzial an Rechenleistung. Gegenüber der 2-fach-Konfiguration (mit FlexMem) wird eine 87 Prozent höhere Leistung erzielt. Den X7460-Vorgängern zieht das X7560-Quadrupel sogar um den Faktor 3,0 davon. Die klassische FSB-/Chipsatz-Architektur der Xeon-7400-Plattform wirkt stark bremsend.
SPECpower_ssj2008 - Performance/Watt - CPU-Powermanagement an
Der 4HE-Server QSSC-S4R mit vier Xeon X7560 bietet zwar die 2,2-fache Effizienz des Xeon-X7460-Systems, fällt aber gegenüber den 2-Sockel-Konfigurationen deutlich zurück. Allerdings ist der QSSC-S4R im Gegensatz zum Opteron- und Xeon-X5680-Server nicht auf geringe Energieaufnahme getrimmt. Eine hohe Betriebsicherheit mit vier 850-Watt-Netzteilen, redundanten Lüftern und massivem RAM-Ausbau stehen im Vordergrund.
SPECpower_ssj2008 - Performance/Watt - CPU-Powermanagement aus
Mit inaktivem SpeedStep reduzieren die zwei Xeon X7560 sowie die Xeon X5570 die Systemeffizienz um zwei Prozent (beide 45-nm-Nehalem). Beim Xeon X5670 und X5680 sinkt die Effizienz um knapp ein Prozent (32-nm-Westmere). Beim Opteron-6174-System sowie dem 4-fach Xeon-X7560-Server geht die Effizienz ohne Energiesparfunktion um ein knappes Prozent zurück.
SPECpower_ssj2008 - Energieaufnahme Plattform unter Volllast
Der Xeon X7560 ist mit 130 Watt TDP eingestuft. Das 4-fach-System QSSC-S4R nimmt mit 1113 Watt mehr als die doppelte Energie im Vergleich zum 2-Sockel-Server mit Xeon X7560 auf. Hier zeigt sich, dass der QSSC-S4R-Chassis mit vier 850-W-Netzteilen und seiner Vielzahl an redundanten Lüftern eine deutlich mehr Energie benötigt als der Dell PowerEdge R810 (2x Xeon X7560). Auch der 4-Sockel-Server mit X7460 (130 Watt TDP) mit zwei Netzteilen bietet weniger Redundanz und zeigt sich sparsamer.
SPECpower_ssj2008 - Energieaufnahme Plattform im Leerlauf - Energiesparmodus an
Das 4-Sockel-System Dell PowerEdge R810 – bestückt mit zwei Xeon X7560 – zeigt, wie sparsam die Xeon-7500-Plattform sein kann. Der QSSC-S4R mit vier Xeon X7560 zollt der Auslegung auf hohe Betriebssicherheit Tribut. Wie sparsam inzwischen 2-Sockel-Server sein können, zeigen die Systeme mit Xeon X5680 und Dopteron 6174.
SPECpower_ssj2008 - Energieaufnahme Plattform im Leerlauf - Energiesparmodus aus
Im Leerlauf steigt bei den vier Xeon X7560 der Energiebedarf ohne SpeedStep lediglich um zwei Watt. Die Opteron-6174-Modelle erhöhen ihren Energiebedarf im Leerlauf ohne PowerNow! dagegen um 14 Watt.
SunGard ACR 4.0 64 Bit - Monte Carlo Simulation
Trotz Octa-Core-Technologie müssen sich zwei Xeon X7560 den zwei Xeon X5680 (Hexa-Core) geschlagen geben - die Xeon-X5680-CPUs arbeiten mit einer deutlich höheren Taktfrequenz. Im Quartett liegen die Xeon X7560 dagegen sehr gut skalierend in Führung. Die Speicherbandbreite und -zugriffe halten sich hier stark in Grenzen, wie auch der kaum messbare Unterschied zwischen den Xeon-X7560-CPUs mit und ohne FlexMem zeigt.
openSSL 0.9.8b 64 Bit - Encryption RSA2048
Der Test läuft überwiegend im Cache ab. Die vier 8-Core-Xeons X7560 verschlüsseln 75 Prozent schneller als die mit 2,66 GHz Taktfrequenz agierenden 6-Core-Xeons X7460. Die AES-Beschleunigung der 32-nm-Xeon-5600-Serie kommt hier nicht zum Einsatz.
openSSL 0.9.8b 64 Bit - Decryption RSA2048
Auch das Entschlüsseln erledigen die vier Octa-Core-Xeons X7560 deutlich schneller als die Vorgängerserie. Der Speicherdurchsatz ist hier vernachlässibar – die zwei Xeon X7560 mit und ohne FlexMem unterscheiden sich kaum.
CINEBENCH 11.5 64 Bit - Single-Thread-Rendering
Beim Rendering wird jetzt nur ein Prozessorkern verwendet – Multi-Core nutzt hier nichts. Durch die Turbo-Technologie arbeitet der Xeon X7560 jetzt mit 2,66 statt 2,26 GHz Taktfrequenz. Deswegen überholt der Xeon X7560 auch den Xeon X7460, der mit 2,66 GHz arbeitet und auf der 45-nm-Penryn-Architektur basiert. Der Opteron 6174 liegt durch seine geringe Taktfrequenz von 2,2 GHz auf dem letzten Platz.
CINEBENCH 11.5 64 Bit - Multi-Thread-Rendering
Jetzt nutzt CINEBENCH alle verfügbaren Prozessorkerne. Die vier Xeon X7560 mit 8-Core-Architektur (plus Hyper-Threading) rendern in 64 Threads. Die Hexa-Core-Vorgänger Xeon X7460 beherrschen kein Hyper-Threading und liegen deutlich zurück.

In einem ersten Test mussten sich die Xeon-X7560-CPUs (2,26 GHz / 8 Core / 24 MByte L3-Cache) in der 2-Sockel-Konfiguration der Konkurrenz stellen. Obwohl die CPUs für Systeme mit vier oder mehr Prozessoren prädestiniert sind, positioniert Intel die 7500er Serie auch in diesem Segment. Allerdings sind in 2-Sockel-Systemen die konkurrierenden Xeon-5600-Modelle (6 Kerne) und AMDs Opteron-6100-Serie (12 Kerne) hinsichtlich Performance und Energieeffizienz den Xeon-7500-CPUs überlegen. Die Vorteile von Intels Xeon-7500-Plattform liegen abseits von Performance im massiven möglichen Speicherausbau sowie den RAS-Features.

Bildergalerie: Intel Xeon 7500 Serie - 4U-Server QSSC-S4R
Intel Xeon X7560 im 4-Sockel-Server QSSC-S4R
Die vier Xeon X7560 mit Octa-Core-Technologie besitzen insgesamt 32 Kerne. Durch das zusätzliche Hyper-Threading zeigt Windows Server 2008 R2 im Taskmanager 64 CPUs an.
Intel Xeon X7560 im 4-Sockel-Server QSSC-S4R
Auch im Gerätemanager von Windows Server 2008 R2 wird eine endlose Liste an CPUs angezeigt...
Intel Xeon X7560 im 4-Sockel-Server QSSC-S4R
Im Testsystem war zu wenig Arbeitsspeicher kein Thema. Die 64 verbauten 4-GByte-DIMMs ergeben den äußerst üppigen Arbeitsspeicher von 256 GByte.
Intel Xeon X7560 im 4-Sockel-Server QSSC-S4R
Als Testsystem für die vier Xeon X7560 steht uns ein von Intel und Quanta Computer zusammen entwickelter 4-Sockel-Server QSSC-S4R zur Verfügung.
Intel Xeon X7560 im 4-Sockel-Server QSSC-S4R
Der 4U-Server QSSC-S4R bietet Platz für vier Xeon X7560 und 64 DIMMs. Eine Vielzahl redundanter Lüfter sowie vier Netzteile sorgen für hohe Ausfallsicherheit.
Intel Xeon X7560 im 4-Sockel-Server QSSC-S4R
Das Storage-Subsystem des QSSC-S4R stellt acht 2,5-Zoll-Einschübe für SAS/SATA-Laufwerke zur Verfügung. Zusätzlich gibt es einen 5,25-Zoll-Einschub sowie ein verbautes DVD-ROM-Lauwerk.
Intel Xeon X7560 im 4-Sockel-Server QSSC-S4R
Insgesamt acht wechselbare und redundant ausgelegte Lüfter sorgen für Kühlung.
Intel Xeon X7560 im 4-Sockel-Server QSSC-S4R
Die 64 DIMMs realisiert der Server über acht DIMM-Raiser-Cards. Für jeder CPU stehen zwei Raiser-Cards zur Verfügung.
Intel Xeon X7560 im 4-Sockel-Server QSSC-S4R
Jeder Xeon 7500 besitzt zwei integrierte Speicher-Controller. Jeder Controller besitzt zwei sogenannte „Scalable Memory Interfaces“ SMI. Dabei handelt es sich um serielle Highspeed-Links. Die insgesamt vier SMI-Links eines Xeon 7500 steuern jeweils einen eigenen „Scalable Memory Interconnect with Buffers“ SMB an. Jeder SMB kann im Dual-Channel-Mode bis zu vier DIMMs ansprechen. Auf dem DIMM-Raiser sehen sie zwei SMBs. Pro Xeon X7560 sind somit zwei DIMM-Raiser-Cards notwendig.
Intel Xeon X7560 im 4-Sockel-Server QSSC-S4R
Der Xeon 7500 unterstützt Registered DDR3-DIMMs mit Geschwindigkeiten von 800 und 1066 MHz. Im Bild sehen Sie ein 4-GByte-DIMM mit DDR3-1066.
Intel Xeon X7560 im 4-Sockel-Server QSSC-S4R
Die vier verbauten Xeon X7560 werden im QSSC-S4R passiv gekühlt.
Intel Xeon X7560 im 4-Sockel-Server QSSC-S4R
Platz nehmen Intels Xeon-7500-Prozessoren in dem neuen Sockel LGA1567.
Intel Xeon X7560 im 4-Sockel-Server QSSC-S4R
Der Xeon X7560 mit Octa-Core arbeitet mit 2,26 GHz Grundtaktfrequenz. Per Turbo Mode können einzelne Kerne mit bis zu 2,66 GHz takten. Den acht Kernen steht ein 24 MByte großer gemeinsamer L3-Cache zur Verfügung.
Intel Xeon X7560 im 4-Sockel-Server QSSC-S4R
Das 4-Sockel-System QSSC-S4R ist auf eine hohe Erweiterbarkeit ausgelegt. Hierfür bietet der Server zehn PCI-Express-Steckplätze, von denen vier Hot-Swap-fähig sind.
Intel Xeon X7560 im 4-Sockel-Server QSSC-S4R
Der QSSC-S4R-Server ist mit vier redundant ausgelegten 850-Watt-Netzteilen auf eine hohe Ausfallsicherheit getrimmt.
Intel Xeon X7560 im 4-Sockel-Server QSSC-S4R
Auf der Innenseite des Gehäusedeckels ist praktischerweise gleich eine "Quick Reference" abgedruckt.
Intel Xeon X7560 im 4-Sockel-Server QSSC-S4R
Hier werden die Grundkomponenten des Server beschrieben.
Intel Xeon X7560 im 4-Sockel-Server QSSC-S4R
Das "Serverboard Configuration Diagram" erläutert die Jumper sowie die Funktion der einzelnen Steckplätze.
Intel Xeon X7560 im 4-Sockel-Server QSSC-S4R
Im "System Cabling Diagram" werden die Kabelanschlüsse beschrieben.

Jetzt testen wir die Xeon-X7560-Prozessoren in ihrem eigentlichen Metier - Servern mit vier Sockeln. Bei summierten 32 Kernen sowie durch das zusätzliche Hyper-Threading insgesamt 64 Threads ist von einer sehr hohen Rechenleistung auszugehen. Als Vergleich dient die Vorgängerplattform mit vier Xeon X7460 (Hexa-Core). So können wir Ihnen die zu erwartenden Vorteile beim Wechsel auf die neue Generation zeigen.

Wir überprüfen die Performance der CPUs bei Integer- und Floating-Point-Anwendungen sowie bei Verschlüsselung, Rendering und Simulation. Die Geschwindigkeit bei Java-Applikationen wird ebenso untersucht wie die Energieeffizienz der Systeme. Außerdem messen wir den Speicherdurchsatz der Server und zeigen die Virtualisierungsleistung auf.

Derzeit befindet sich ein Dell PowerEdge R815 auf dem Weg ins TecChannel-Testlabor. Der 4-Sockel-Server ist mit AMDs Opteron-6100-Prozessoren ausgestattet. Sobald wir das System mit den 12-Core-CPUs fertig gestestet haben, finden Sie die Ergebnisse im Vergleich zum 4-fach Xeon-X7560-Server auf TecChannel.

Xeon 7500 mit Turbo und 16 Threads

Intel vereint beim neuen Xeon 7500 "Nehalem-EX" alle acht Kerne sind auf einem Siliziumplättchen. Laut Intel benötigt die Octa-Core-CPU 2,3 Milliarden Transistoren. Das Vorgängermodell Xeon X7460 mit sechs Kernen und 25 MByte Cache (9M L2-Cache, 16M Shared L3-Cache) besteht aus 1,9 Milliarden Transistoren.

Intel fertigt den Nehalem EX weiterhin im 45-nm-Prozess. Jedem der acht Kerne steht ein dedizierter 256 KByte großer L2-Cache zur Verfügung. Für alle Cores gibt es einen gemeinsamen bis zu 24 MByte (je nach Modell) fassenden L3-Cache. Intel teilt die dritte Pufferstufe in acht 3-MByte-Segmente auf, um die Bandbreite beim Zugriff zu optimieren. Damit soll ein Transfer zu den Kernen mit zirka 200 GByte/s möglich sein. Die Latenzzeit beziffert Intel mit 21 ns.

Üppig: Intel spendiert seiner Octa-Core-CPU Xeon 7500 einen 24 MByte großen L3-Cache. (Quelle: Intel)

Intels 8-Core-Prozessor kann durch sein zusätzliches Hyper-Threading pro Kern insgesamt 16 Threads parallel abarbeiten. Neben den Octa-Core-Modellen gibt es die Xeon-7500-Serie auch in Varianten mit vier und sechs Kernen. So markiert der vierkernige Xeon E7520 mit 1,86 GHz Taktfrequenz den Einstieg der Serie. Am oberen Ende rangiert das Topmodell Xeon X7560 mit 2,26 GHz Taktfrequenz und Octa-Core.

Topmodell: Der Xeon X7560 mit acht Kernen und 24 MByte L3-Cache arbeitet mit 2,26 GHz Grundtaktfrequnenz. Per Turbo Mode können einzelne Kerne mit bis zu 2,66 GHz arbeiten.

Bis auf das Einstiegsmodell beherrschen die Xeon-7500-Modelle die Turbo-Technologie zum Steigern der Taktfrequenz einzelner Kerne. So kann der Xeon X7560 beispielsweise die Taktfrequenz eines Core um bis zu drei "Speed-Bins" erhöhen. Dies entspricht bei den festgelegten 133 MHz für einen Bin dann einer um 400 MHz erhöhten Taktfrequenz.

Intel stuft die Xeon-7500-Prozessoren mit TDP-Werten von 95, 105 und 130 Watt ein. Während das Topmodell Xeon X7560 mit 130 Watt spezifiziert ist, gibt es auch eine 8-Core-Low-Voltage-Variante mit 95 Watt TDP. Die Taktfrequenz dieses Xeon L7555 beträgt 1,86 GHz.

Hohe Skalierfähigkeit

Intel stattet den Xeon 7500 mit vier QuickPath-Interfaces aus. Damit lassen sich bis zu acht Xeons direkt und ohne zusätzliche Switch-Chips miteinander verbinden. Die QuickPath-Schnittstellen arbeiten pro Link mit einer Bandbreite von 4,8, 5,86 oder 6,4 GT/s (modellabhängig). Im Prozessor sind die vier QPI-Links über einen Crossbar-Router verbunden, der eine Bandbreite von 120 GByte/s erlaubt.

Als Chipsatz für die Xeon-7500-Plattform steht der neue Chipsatz Intel 7500 "Boxboro-EX" parat. Der Chipsatz ist ein I/O-Hub und ist nur noch als Brücke zwischen den QPI-Links der CPUs und den I/O-Schnittstellen zu sehen. Die Hauptfunktion von Boxboro-EX ist das Bereitstellen von PCI-Express-2.0-Schnittstellen.

FSB ade: Mit der Xeon-7500-Serie führt Intel die QuickPath-Architektur in Mehrwegesystemen ein. Jeder Xeon 7500 verfügt über vier QuickPath-Schnittstellen sowie integrierte Speicher-Channels. (Quelle: Intel)

Mit der Speicheransteuerung hat der Chipsatz bei der neuen Xeon-7500-Plattform nichts mehr zu tun. Jeder Xeon 7500 besitzt zwei integrierte Speicher-Controller. Jeder Controller besitzt zwei sogenannte "Scalable Memory Interfaces" SMI. Dabei handelt es sich um serielle Highspeed-Links. Die insgesamt vier SMI-Links eines Xeon 7500 steuern jeweils einen eigenen "Scalable Memory Interconnect with Buffers" SMB an. Jeder SMB kann im Dual-Channel-Mode bis zu vier Registered DDR3-DIMMs mit 800 oder 1066 MHz ansprechen. Die SMBs ersetzen bei der Xeon-7500-Plattform die FB-DIMM-Technologie der Vorgängerplattform mit Xeon-7400-CPUs. Das Memory-Subsystem eines Xeon 7500 kann somit 16 DIMMs via acht Channels ansteuern. In einer 4-Sockel-Konfiguration sind 64 Speicherriegel möglich.

Bildergalerie: Intel Xeon 7500 Serie - Produktpräsentation.
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)
Intel Xeon-7500-Serie "Nehalem-EX"
Xeon-Prozessoren für Systeme mit zwei, vier, acht oder mehr Sockeln. (Quelle: Intel)

RAS-Features auf RISC-Niveau

Mit der Xeon-7500-Serie bietet Intel eigenen Angaben zufolge erstmals die RAS-Features von RISC-Systemen bei x86-Servern an. Möglich machen soll dies das neue Feature "MCA Recovery" des Nehalem-EX. Mit der "Machine Check Architecture" (MCA) sollen Fehler bei CPU, Speicher und I/O entdeckt und korrigiert werden. Defekte bei diesen Komponenten sollen den Betrieb des Servers nicht stören.

RISC-Angriff: Mit dem neuem Feature "MCA Recovery" soll der Xeon 7500 im x86-Segment erstmals die RAS-Fähigkeit von RISC-Systemen bieten. (Quelle: Intel)

Das Feature "MCA Recovery" muss von den Betriebssystemen unterstützt werden. Eine Unterstützung wird von den Anbietern entsprechender Enterprise-Betriebssysteme bereits angekündigt. Microsoft unterstützt MCA Recovery mit Windows Server 2008 R2, VMware will künftige Versionen von vSphere anpassen, Novell bereitet sein SUSE Linux Enterprise auf MCA Recovery vor und Red Hat arbeitet ebenfalls an einer entsprechenden Unterstützung.

Alles sicher: Intel integriert in der neuen Xeon-7500-Plattform eigenen Angaben zufolge über 20 neue RAS-Features. (Quelle: Intel)

Mit den Hochverfügbarkeits-Features sowie der hohen Skalierfähigkeit des Nehalem EX macht sich Intel zusätzliche interne Konkurrenz zum Itanium. Hier pochte Intel bisher stets auf die speziellen RAS-Features für den sicheren Betrieb von Mission-Critical-Workloads. Der Itanium sei laut Intel aber weiterhin die "ideale Lösung" für System mit mehr als acht Prozessoren und höchstem Speicherbedarf.

Alle Xeon-7500-Modelle im Überblick

In der Tabelle finden Sie alle neuen Xeon-7500-Prozessoren mit ihren technischen Daten im Überblick:

Alle Xeon-7500-Modelle im Überblick

Prozessor

Grundtaktfrequenz [GHz]

QPI [GT/s]

Skalierfähigkeit (glueless)

L3-Cache

Kerne

DIMM-Support

Turbo [Speed Bins]

HT

TDP [Watt]

Xeon X7560

2,26

6,4

8 Sockets

24 MByte

8

DDR3-1066

+3

ja

130

Xeon X7550

2,0

6,4

8 Sockets

18 MByte

8

DDR3-1066

+3

ja

130

Xeon X7542

2,66

5,86

8 Sockets

18 MByte

6

DDR3-1066

+1

nein

130

Xeon E7540

2,0

6,4

8 Sockets

18 MByte

6

DDR3-1066

+2

ja

105

Xeon E7530

1,86

5,86

4 Sockets

12 MByte

6

DDR3-1066

+2

ja

105

Xeon E7520

1,86

4,8

4 Sockets

18 MByte

4

DDR3-800

nein

ja

95

Xeon L7555

1,86

5,86

8 Sockets

24 MByte

8

DDR3-1066

+5

ja

95

Xeon L7545

1,86

5,86

8 Sockets

18 MByte

6

DDR3-1066

+5

ja

95

4-Sockel-Testsystem Intel QSSC-S4R

Intel hat zusammen mit Quanta Computer für die Xeon-7500-Serie den 4-Sockel-Server QSSC-S4R entwickelt. Das 4U-System für vier Prozessoren erlaubt bis zu 512 GByte Arbeitspeicher über 64 DIMM-Slots. Die Registered DDR3-1066-Speicherriegel nehmen in acht Hot-Swap-fähigen Riser-Karten Platz. Die in unserem System verwendeten Samsung M393B5170FH0 mit 4 GByte ergeben durch die Vollbestückung 256 GByte RAM.

Das 4-Sockel-System QSSC-S4R ist auf eine hohe Erweiterbarkeit ausgelegt. Hierfür bietet der Server zehn PCI-Express-Steckplätze, von denen vier Hot-Swap-fähig sind. Außerdem befindet sich im System noch eine zusätzliche I/O-Riser-Karte mit Baseboard Management Controller (iBMC), vier Gigabit-Ethernet-Ports, Grafik und Intel Remote Mangaement Module 3. Das Storage-Subsystem besteht aus einem LSI Logic SAS-6G-RAID-Controller sowie acht 2,5-Zoll-Einbauschächte. Ein Wunder an Energieeffizienz darf beim verwendeten Testsystem nicht erwartet werden. Der QSSC-S4R-Server ist mit vier redundant ausgelegten 850-Watt-Netzteilen auf eine hohe Ausfallsicherheit getrimmt.

Der Intel/Quanta-Server QSSC-S4R dient in der Leistungsfähigkeit auch als guter Anhaltspunkt zahlreicher darauf basierender Systeme. Beispielsweise verwendet auch Fujitsus RX600 S5 den QSSC-S4R als Basis.

Volle Packung: Der QSSC-S4R bietet Platz für vier Xeon X7560 und 64 DIMMs. Eine Vielzahl redundanter Lüfter sowie vier Netzteile sorgen für hohe Ausfallsicherheit.

Multitask Integer: SPECint_rate_base2006

Wir setzen die SPEC-Benchmarks unter Windows Server 2008/R2 Enterprise x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 10.1 und Fortran 10.1 in der 64-Bit-Version sowie MS Visual Studio 2005 .NET für alle Integer-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz. Bei den Integer-Berechnungen von SPECint_rate_base2006 ermittelt die Benchmark-Suite CPU2006 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Integer-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standardsoftware.

Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECint_rate_base2006 der Anzahl der Prozessorkerne des Systems. Im 4-Sockel-Xeon-X7560-Server arbeiten beispielsweise durch die insgesamt 32 Kerne sowie das zusätzliche Hyper-Threading 64 Kopien parallel. Pro Kopie ist ein Speicherbedarf von 2 GByte RAM notwendig.

SPECint_rate_base2006: Die vier Xeon X7560 bieten einen 2,7-fachen Integer-Durchsatz im Vergleich zum Vorgängermodell Xeon X7460. Die neue Architektur mit integrierten Speicher-Controllern und QuickPath-Verbindungen macht den großen Performance-Gewinn möglich. Sehr gut ist auch die Skalierung der Rechenleistung gegen über der 2-Sockel-Konfiguration mit FlexMem (Ohne FlexMem = beide CPUs haben ihren eigenen Speicher. Mit FlexMem = In einem 4-Sockel-System, dass nur mit zwei CPUs bestückt ist, können auch die DIMM-Steckplätze der beiden leeren CPU-Sockel genutzt werden; die Speicherbandbreite steigt). In der 4-Sockel-Konfiguration profitieren die Xeon X7560 zusätzlich gegenseitig von der summierten Speicherbandbreite.

Intels 10.1-Compiler bieten mit dem Switch -QxO eine offizielle SSE3-Unterstützung für "Non-Intel-Processors" (erstmals mit Version 10.0). Mit dieser Compiler-Option führten wir die CPU2006-Benchmarks für die Opteron-Prozessoren durch. Bei den Xeon-CPUs nutzten wir das Compiler-Flag -fast. Hier wählen die Intel-Compiler automatisch die optimale Befehlssatzunterstützung. Zusätzlich testen wir den Xeon X5680 und X7560 für eine optimale Vergleichbarkeit mit dem Opteron 6174 ebenfalls mit -QxO:

SPECint_rate_base2006

Compiler-Option

-fast (automatisch)

-QxO (SSE3)

4x Xeon X7560

473

440

2x Xeon X7560 FlexMem

242

224

2x Xeon X5680

257

235

2x Opteron 6174

--

193

Die Xeon-Prozessoren verlieren durch die Einstellung -QxO zirka sieben bis neun Prozent Performance.

Multitask Integer: SPECint_rate_base2006 optimiert

Unter Einsatz optimierter Compiler und spezieller Mathematik-Bibliotheken lassen sich für die Prozessoren die besten Ganzzahlenwerte für CPU2006 erzielen. Hier holen die Hersteller das Optimum aus ihren Systemen heraus. Die folgenden Werte sind offizielle CPU2006-Resultate, die von Server-Herstellern auf SPEC.org gemeldet sind.

SPECint_rate_base2006 optimiert: Mit speziellen Compilern und Bibliotheken wird das Integer-Leistungsvermögen gegenüber unseren Standardeinstellungen um bis zu 50 Prozent erhöht. In das Diagramm haben wir auch einen offiziellen Wert von vier Opteron 6174 aufgenommen - trotz mehr physischer Kerne (4 x 12) führen aber die vier Xeon X7560 (4 x 8).

Multitask Floating Point: SPECfp_rate_base2006

Wir setzen die SPEC-Benchmarks unter Windows Server 2008/R2 Enterprise x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 10.1 und Fortran 10.1 in der 64-Bit-Version sowie MS Visual Studio 2005 .NET für alle Floating-Point-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz. Bei den Floating-Point-Berechnungen von SPECfp_rate_base2006 ermittelt die Benchmark-Suite CPU2006 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Floating-Point-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standardsoftware.

Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECfp_rate_base2006 der Anzahl der Prozessorkerne des Systems. Im 4-Sockel-Xeon-X7560-Server arbeiten beispielsweise durch die insgesamt 32 Kerne sowie das zusätzliche Hyper-Threading 64 Kopien parallel. Pro Kopie ist ein Speicherbedarf von 2 GByte RAM notwendig.

SPECfp_rate_base2006: Bei den sehr speicherintensiven Durchsatztests mit Floating-Point-Programmen setzen sich die vier Xeon X7560 sogar um den Faktor 3,4 von den X7460-Vorgängermodellen ab. Auch gegenüber den 2x Xeon X7560 Konfiguration skaliert die Performance sehr gut. Dem 4fach-System kommt zu Gute, dass jede CPU via QuickPath direkt mit den benachbarten verbunden ist und somit auch der Speicher zur Verfügung steht.

Intels 10.1-Compiler bieten mit dem Switch -QxO eine offizielle SSE3-Unterstützung für "Non-Intel-Processors" (erstmals mit Version 10.0). Mit dieser Compiler-Option führten wir die CPU2006-Benchmarks für die Opteron-Prozessoren durch. Bei den Xeon-CPUs nutzten wir das Compiler-Flag -fast. Hier wählen die Intel-Compiler automatisch die optimale Befehlssatzunterstützung. Zusätzlich testen wir den Xeon X5680 und X7560 für eine optimale Vergleichbarkeit mit dem Opteron 6174 ebenfalls mit -QxO:

SPECfp_rate_base2006

Compiler-Option

-fast (automatisch)

-QxO (SSE3)

4x Xeon X7560

414

386

2x Xeon X7560 FlexMem

213

207

2x Xeon X5680

219

176

2x Opteron 6174

--

196

Die Xeon-X5680-Prozessoren (32-nm-Westmere-Architektur) verlieren durch die Einstellung -QxO mit 20 Prozent massiv Performance, wenn maximal SSE3 unterstützt wird. Beim Xeon X7560 mit 45-nm-Nehalem-Architektur beträgt der Einbruch nur drei bis sieben Prozent.

Multitask Floating Point: SPECfp_rate_base2006 optimiert

Unter Einsatz optimierter Compiler und spezieller Mathematik-Bibliotheken lassen sich für die Prozessoren die besten Fließkommawerte für CPU2006 erzielen. Hier holen die Hersteller das Optimum aus ihren Systemen heraus. Die folgenden Werte sind offizielle CPU2006-Resultate, die von Server-Herstellern auf SPEC.org gemeldet sind.

SPECfp_rate_base2006 optimiert: Bei den sehr speicherintensiven und damit Speicherbandbreiten-abhängigen Fließkommaszenarios lässt sich die Performance durch spezielle Compiler und Bibliotheken gegenüber unseren Standardeinstellungen um zirka bis zu 48 Prozent steigern (2x Opteorn 6174). In das Diagramm haben wir auch einen offiziellen Wert von vier Opteron 6174 aufgenommen. Im Gegensatz zu den Integer-Berechnungen müssen die vier Xeon X7560 jetzt die Opterons vorbei lassen. Bei den Opterons wirkt sich der schnellere Speicher positiv aus.

VMmark: Performance Virtualisierung

VMware bietet mit VMmark einen standardisierten Vergleich der Virtualisierungs-Performance von Plattformen. VMmark besteht aus sechs typischen Server-Workloads, die mit gängigen Tools zur Lastgenerierung erzeugt werden.

Als Ergebnis gibt VMmark einen normierten Gesamtwert aus. Je höher der VMmark-Score ist, desto besser eignet sich ein Server für die Virtualisierung. Es gilt jedoch darauf zu achten, mit wie vielen Tiles (1 Tile = 6 virtuelle Maschinen) der Wert erreicht wurde. Besitzen beispielsweise zwei Server den gleichen VMmark-Score von 40, so bietet derjenige Server mehr Virtualisierungs-Performance, der diesen Wert mit weniger Tiles erreicht. Der VMmark-Score ist deshalb immer in Verbindung mit der Tile-Anzahl angegeben.

Während der Gesamtwert somit ein Maß für die Virtualisierungs-Performance in Verbindung mit der Konsolidierungsfähigkeit eines Servers (Anzahl der Tiles) darstellt, zeigt der Vergleich der Tile-Werte die tatsächliche Performance der Applikationen.

Die folgenden Werte basieren auf offiziellen bei VMware publizierten Ergebnissen der Server-Hersteller:

Konsolidierte Virtualisierungs-Performance: Die vier Octa-Core-Xeons X7560 bieten die 3,7-fache Leistung als die Vorgängermodelle Xeon X7460 an. Durch den massiven möglichen Speicher von 384 GByte im Server (IBM System x3850 X5) sind 50 Tiles möglich (1 Tile = 6 VMs; benötigt zirka 6 GB RAM). Intels Xeons ermöglichen auch in der 2-Sockel-Konfiguration (X5680 und X7560) eine höhere Performance als zwei Opteron 6176SE.
Virtualisierungs-Performance 1 Tile (6VMs): Obwohl der IBM-Server x3850 X5 mit den vier Xeon X7560 die sehr hohe Anzahl von 50 Tiles laufen lässt, ist die Performance in einer VM sogar noch über dem Niveau der anderen Systeme. Allerdings zeigt sich hier, dass alle Prozessoren innerhalb der virtuellen Maschine eine sehr ähnliche Leistung ermöglichen.

Ausführliche Informationen über den Virtualisierungs-Benchmark VMware VMmark finden Sie bei TecChannel in unserem Artikel Virtualisierung: Die schnellsten Server.

STREAM: Speicherbandbreite

Der quelloffene STREAM-Benchmark ist ein weit verbreiteter Industriestandardtest zum Messen der möglichen Speicherbandbreite in einem System. Wir verwenden die 64-Bit-Windows-Binary von der University of Virginia. Die OMP-fähige STREAM-Version nutzt möglichst alle Kerne der Prozessoren aus, um den höchsten Speicherdurchsatz zu generieren.

Maximum: Die vier Xeon X7560 erreichen knapp die Bandbreite der zwei Xeon X5680. Der etwas enttäuschende Durchsatz wird auch durch die Latenzzeiten der SMBs verursacht. Mit einer gcc-compilierten Linux-Variante von STREAM holen die Xeon X7560 etwas mehr aus dem Speicher. So erreichen damit zwei Xeon X7560 immerhin 28 statt nur 20 GByte/s. Deutlich langsamer sind dagegen die Vorgänger Xeon X7460 mit klassischer FSB/Chipsatz-Anbindung. Die beiden Opteron-6174-Prozessoren holen aus den insgesamt acht DDR3-1333-Channels dagegen einen Speicherdurchsatz von 51,8 GByte/s heraus.

Java Virtual Machine Performance

Mit SPECjvm2008 stellt die Standard Performance Evaluation Corporation (SPEC) einen Benchmark für die Performance von Systemen unter Java Runtime Environment (JRE) zur Verfügung. Die Evaluierungssoftware zur Ermittlung der Java-Performance wurde von SPEC in Zusammenarbeit mit AMD, Bea, Hewlett-Packard, IBM, Intel und Sun entwickelt.

Für die Performance des Systems in einer Java Virtual Machine zeigen sich neben der Wahl der Java-Engine die Prozessoren sowie die Speicherarchitektur verantwortlich. SPECjvm2008 startet eine JVM und führt einen Multithread-Workload durch. Alle Prozessorkerne eines Systems werden von SPECjvm2008 ausgenutzt.

SPECjvm2008 arbeitet mit einem Base-Run, bei dem keine speziellen Tuning-Maßnahmen durch Flags und Optimierungen erlaubt sind. Damit wird die Java-Performance der Systeme mit der installierten JVM ermittelt. Zehn verschiedene Tests wie Compilieren, Rendering, Verschlüsselung oder Komprimierung werden durchgeführt. Beim Peak-Run lassen sich für jeden Test Optimierungen für die JVM einstellen.

Wir führen SPECjvm2008 im Base-Run unter Windows Server 2008/R2 Enterprise x64 mit der JRE Bea JRockit 6 R27 in der 64-Bit-Version durch:

Java Runtime: Ihren Vorgängern ziehen die vier Xeon X7560 um einer 58 Prozent höhere Performance davon. Eine sehr gute Java-Leistung erzielen auch die zwei Xeon X5680 mit Hexa-Core-Technologie. In der 2-Sockel-Konfiguration streiten sich die Octa-Core-Xeon-X7560 mit den Zwölfkern-Opterons um die Plätze.

Maximale Java-Performance

SPECpower_ssj2008 ermittelt neben der Energieeffizienz bei 100 Prozent Prozessorauslastung auch die maximale Java-Performance des Systems. Als Java-Engine unter Windows Server 2008/R2 Enterprise x64 dient Bea JRockit in der 64-Bit-Version 6 R27.

SPECpower_ssj2008 nutzt einen anderen Workload als SPECjvm2008. Außerdem arbeiten bei SPECpower_ssj2008 nicht nur eine JVM, sondern mehrere virtuelle Java-Instanzen. Bei den getesteten Vier-Sockel-Systemen sind zwei JVMs aktiv. Jede JVM agiert multithreaded mit der Anzahl der CPU-Kerne pro Sockel. Bei diesem konfigurierbaren Setup erzielt SPECpower_ssj2008 bei Zwei-Sockel-Systemen die besten Ergebnisse.

Bei diesem Test sind die Energiesparoptionen der Prozessoren aktiv, die erreichbare Performance wird durch die Vollauslastung der CPUs allerdings nicht beeinflusst.

Java-Performance: Der Workload ist speicherintensiver als bei SPECjvm2008 und skaliert besser mit der Anzahl der Prozessoren / Kerne. Hier zeigen die vier 8-Core-Prozessoren Xeon X7650 ihr volles Potenzial an Rechenleistung. Gegenüber der 2-fach-Konfiguration (mit FlexMem) wird eine 87 Prozent höhere Leistung erzielt. Den X7460-Vorgängern zieht das X7560-Quadrupel sogar um den Faktor 3,0 davon. Die klassische FSB-/Chipsatz-Architektur der Xeon-7400-Plattform wirkt stark bremsend.

Energieeffizienz: Performance/Watt

Der Gesamtwert von SPECpower_ssj2008 steht für die Energieeffizienz des Systems. Der Benchmark gibt die gemittelte Performance pro Watt an, die über alle Lastzustände von zehn bis 100 Prozent gemessenen werden.

Um die Energiesparoptionen der Prozessoren zu nutzen, arbeitet Windows Server 2008/R2 Enterprise x64 mit dem Energieschema "Ausbalanciert". SpeedStep (Intel) und PowerNow! (AMD) zum dynamischen Regeln von Taktfrequenz und Core-Spannung je nach CPU-Auslastung sind bei dem SPECpower-Benchmark aktiv.

Mit Powermanagement: Der 4HE-Server QSSC-S4R mit vier Xeon X7560 bietet zwar die 2,2-fache Effizienz des Xeon-X7460-Systems, fällt aber gegenüber den 2-Sockel-Konfigurationen deutlich zurück. Allerdings ist der QSSC-S4R im Gegensatz zum Opteron- und Xeon-X5680-Server nicht auf geringe Energieaufnahme getrimmt. Eine hohe Betriebsicherheit mit vier 850-Watt-Netzteilen, redundanten Lüftern und massivem RAM-Ausbau stehen im Vordergrund.

Jetzt wird bei den Energieoptionen von Windows Server 2008/R2 das Schemata "Höchstleistung" ausgewählt. Die Prozessoren arbeiten immer mit voller Taktfrequenz und Core-Spannung. Die dynamischen Powermanagement-Funktionen SpeedStep (Intel) und PowerNow! (AMD) sind beim Schemata "Höchstleistung" nicht aktiv.

Im zweiten Diagramm sehen Sie die Auswirkungen des deaktivierten CPU-Powermanagements auf die Energieeffizienz der Systeme.

Ohne Powermanagement: Mit inaktivem SpeedStep reduzieren die zwei Xeon X7560 sowie die Xeon X5570 die Systemeffizienz um zwei Prozent (beide 45-nm-Nehalem). Beim Xeon X5670 und X5680 sinkt die Effizienz um knapp ein Prozent (32-nm-Westmere). Beim Opteron-6174-System sowie dem 4-fach Xeon-X7560-Server geht die Effizienz ohne Energiesparfunktion um ein knappes Prozent zurück.

Maximaler Energieverbrauch

SPECpower_ssj2008 ringt dem Testsystem im Lastzustand 100 Prozent den maximalen Energieverbrauch ab. Alle Kerne der Prozessoren sind voll ausgelastet. Die aktiven JVMs fordern zusätzlich den Arbeitsspeicher der Systeme.

Kernig: Der Xeon X7560 ist mit 130 Watt TDP eingestuft. Das 4-fach-System QSSC-S4R nimmt mit 1113 Watt mehr als die doppelte Energie im Vergleich zum 2-Sockel-Server mit Xeon X7560 auf. Hier zeigt sich, dass der QSSC-S4R-Chassis mit vier 850-W-Netzteilen und seiner Vielzahl an redundanten Lüftern eine deutlich mehr Energie benötigt als der Dell PowerEdge R810 (2x Xeon X7560). Auch der 4-Sockel-Server mit X7460 (130 Watt TDP) mit zwei Netzteilen bietet weniger Redundanz und zeigt sich sparsamer.

Minimaler Energieverbrauch

SPECpower_ssj2008 führt neben den Lasttests zusätzlich Kalibrierungsmessungen über den Energieverbrauch bei Leerlauf durch. Dabei wird der minimale Energiebedarf des Systems ermittelt.

Im ersten Diagramm vergleichen wir den Systemverbrauch unter Windows Server 2008 Enterprise x64 mit dem Energie-Schemata "Ausbalanciert". Die Prozessoren nutzen ihre Powermanagement-Features SpeedStep (Intel) und PowerNow! (AMD) aus.

Mit Powermanagement: Das 4-Sockel-System Dell PowerEdge R810 - bestückt mit zwei Xeon X7560 - zeigt, wie sparsam die Xeon-7500-Plattform sein kann. Der QSSC-S4R mit vier Xeon X7560 zollt der Auslegung auf hohe Betriebssicherheit Tribut. Wie sparsam inzwischen 2-Sockel-Server sein können, zeigen die Systeme mit Xeon X5680 und Dopteron 6174.

Dann wird bei den Energieoptionen von Windows Server 2008/R2 das Schemata "Höchstleistung" ausgewählt. Die dynamischen Powermanagement-Funktionen SpeedStep (Intel) und PowerNow! (AMD) sind beim Schemata "Höchstleistung" nicht aktiv. Die Auswirkungen sehen Sie im zweiten Diagramm.

Ohne Powermanagement: Im Leerlauf steigt bei den vier Xeon X7560 der Energiebedarf ohne SpeedStep lediglich um zwei Watt. Die Opteron-6174-Modelle erhöhen ihren Energiebedarf im Leerlauf ohne PowerNow! dagegen um 14 Watt.

Analyse: SunGard ACR

SunGards Adaptiv Credit Risk 4.0 ist ein Analysetool für den Finanzbereich. Basierend auf modifizierten Monte-Carlo-Simulationen berechnet das Programm den künftigen Wert einer Anlage auf Basis vorhandener Marktdaten.

SunGards Adaptiv Credit Risk wurde in C# für Microsofts .NET-Umgebung programmiert. Spezielle Mathematik-Bibliotheken wie Intels MKL oder AMDs Core Math Library ACML verwendet Adaptiv Credit Risk nicht. Das Analysetool arbeitet multithreaded und unterstützt Multiprozessor-Systeme optimal. SunGard rechnet überwiegend mit Integer-Operationen. Speicherzugriffe halten sich bei Adaptiv Credit Risk in Grenzen.

Schnelle Vorhersagen: Trotz Octa-Core-Technologie müssen sich zwei Xeon X7560 den zwei Xeon X5680 (Hexa-Core) geschlagen geben - die Xeon-X5680-CPUs arbeiten mit einer deutlich höheren Taktfrequenz. Im Quartett liegen die Xeon X7560 dagegen sehr gut skalierend in Führung. Die Speicherbandbreite und -zugriffe halten sich hier stark in Grenzen, wie auch der kaum messbare Unterschied zwischen den Xeon-X7560-CPUs mit und ohne FlexMem zeigt.

Encryption/Decryption: openSSL 64 Bit

Die Leistungsfähigkeit der Prozessoren beim Verschlüsseln und Entschlüsseln von Daten unter Linux 64 Bit ermittelt das Open-Source-Programm openSSL in der 64-Bit-Version 0.9.8b. Der Code von openSSL ist single threaded programmiert. Durch den Start von multiplen Kopien summiert openSSL die Performance beim Verschlüsseln und Entschlüsseln von Daten.

Wir testen die Prozessoren bei openSSL mit dem RSA-Schlüssel und einer Schlüssellänge von 2048 Bit. Der synthetische Benchmark gibt einen guten Anhaltspunkt für die Geschwindigkeit der Prozessoren beim Verschlüsseln und Entschlüsseln von Daten. Spezielle, für die CPU-Architekturen optimierte Mathematik-Bibliotheken kommen beim mit gcc kompilierten openSSL-Benchmark nicht zum Einsatz.

RSA-2048 Encryption: Der Test läuft überwiegend im Cache ab. Die vier 8-Core-Xeons X7560 verschlüsseln 75 Prozent schneller als die mit 2,66 GHz Taktfrequenz agierenden 6-Core-Xeons X7460. Die AES-Beschleunigung der 32-nm-Xeon-5600-Serie kommt hier nicht zum Einsatz.
RSA-2048 Decryption: Auch das Entschlüsseln erledigen die vier Octa-Core-Xeons X7560 deutlich schneller als die Vorgängerserie. Der Speicherdurchsatz ist hier vernachlässibar - die zwei Xeon X7560 mit und ohne FlexMem unterscheiden sich kaum.

Rendering: CINEBENCH 11.5 64 Bit

Mit dem CINEBENCH 11.5 stellt Maxon die aktuelle Version des bekannten Benchmark-Tools bereit. CINEBENCH 11.5 basiert auf Cinema 4D Release 11.5 und führt Rendering-Tests durch. Maxon bietet CINEBENCH 11.5 als 32- und 64-Bit-Version zum Download an. Die Rendering-Engine von Cinemal 4D Release 11.5 unterstützt bis zu 64 Threads.

Beim Render-Test wird eine fotorealistische 3D-Szene mithilfe des Cinema-4D-Raytracers berechnet. Die Testszene enthält über 2000 Objekte mit mehr als 300.000 Polygonen, nutzt scharfe und weiche Spiegelungen, Flächenlichter und -schatten, prozedurale Shader, Kantenglättung und vieles mehr. Bei dem FPU-lastigen Test spielt die Leistungsfähigkeit der Grafikkarte keine Rolle. Auch höhere Speicher- und FSB-Bandbreiten nutzen beim Rendering von CINEBENCH 11.5 wenig - der Test läuft überwiegend in den Cache-Stufen ab.

1 Thread: Beim Rendering wird jetzt nur ein Prozessorkern verwendet - Multi-Core nutzt hier nichts. Durch die Turbo-Technologie arbeitet der Xeon X7560 jetzt mit 2,66 statt 2,26 GHz Taktfrequenz. Deswegen überholt der Xeon X7560 auch den Xeon X7460, der mit 2,66 GHz arbeitet und auf der 45-nm-Penryn-Architektur basiert. Der Opteron 6174 liegt durch seine geringe Taktfrequenz von 2,2 GHz auf dem letzten Platz.
Alle Threads: Jetzt nutzt CINEBENCH alle verfügbaren Prozessorkerne. Die vier Xeon X7560 mit 8-Core-Architektur (plus Hyper-Threading) rendern in 64 Threads. Die Hexa-Core-Vorgänger Xeon X7460 beherrschen kein Hyper-Threading und liegen deutlich zurück.

AMD & Intel: Listenpreise Server-CPUs

In der Tabelle finden Sie die Preise der aktuellen Server-Prozessoren von AMD und Intel. Bei AMDs Preisliste gab es am 23. Juni 2010 die letzten Änderungen. Intels Preisliste wurde am 18. Juli 2010 aktualisiert.

OEM-Preise im Vergleich

Modell

Taktfrequenz [GHz]

Listenpreis [US-Dollar]

Intel Xeon-7500-Serie

Xeon X7560

2,26

3692

Xeon X7550

2,0

2729

Xeon X7542

2,66

1980

Xeon E7540

2,0

1980

Xeon E7530

1,86

1391

Xeon E7520

1,86

856

Xeon L7555

1,86

3157

Xeon L7545

1,86

2087

Intel Xeon-7400-Serie

X7460

2,66

2729

E7450

2,4

2301

E7440

2,4

1980

E7430

2,13

1391

E7420

2,13

1177

L7455

2,13

2729

L7445

2,13

1980

Intel Xeon-5600-Serie

Xeon X5680

3,33

1663

Xeon X5677

3,46

1663

Xeon X5670

2,93

1440

Xeon X5667

3,06

1440

Xeon X5660

2,80

1219

Xeon X5650

2,66

996

Xeon E5640

2,66

774

Xeon E5630

2,53

551

Xeon E5620

2,40

387

Xeon L5640

2,26

996

Xeon L5630

2,13

551

Xeon L5609

1,86

440

AMD Opteron-6100-Serie

Opteron 6176 SE

2,3

1386

Opteron 6174

2,2

1165

Opteron 6172

2,1

989

Opteron 6168

1,9

744

Opteron 6164 HE

1,7

744

Opteron 6136

2,4

744

Opteron 6134

2,3

523

Opteron 6128

2,0

266

Opteron 6128 HE

2,0

523

Opteron 6124 HE

1,8

455

AMD Opteron-4100-Serie

Opteron 4184

2,8

316

Opteron 4180

2,6

188

Opteron 4176 HE

2,4

377

Opteron 4174 HE

2,3

255

Opteron 4170 HE

2,1

174

Opteron 4164 EE

1,8

698

Opteron 4162 EE

1,8

316

Opteron 4130

2,6

125

Opteron 4122

2,2

99

Fazit

Mit vier Prozessoren im Verbund bietet Intels Xeon X7560 in allen Bereichen eine beeindruckende Performance. Trotz der insgesamt 32 Kerne und via Hyper-Threading 64 Threads skaliert die Rechenleistung beim Sprung von zwei auf vier CPUs sehr gut. Oft wird fast die doppelte Performance durch die CPU-Verdoppelung erreicht. Einbrüche etwaige Flaschenhälse in der Systemarchitektur sind nicht festzustellen.

Verantwortlich zeigen hierfür die vier QuickPath-Schnittstellen pro Prozessor. Damit kann jeder Xeon X7560 direkt mit den Nachbar-CPUs ohne Umwege kommunizieren. Zusätzlich wächst auch die Speicherbandbreite des Systems, weil jede CPU seinen eigenen Speicher-Controller besitzt. Das Erfolgskonzept von AMDs Opteron zeigt auch bei Intels neuem 4-Wege-System sehr positive Auswirkungen.

Gerade im Vergleich zur vorherigen Xeon-7400-Plattform erreicht das neue 4-Sockel-System in sehr speicherintensiven Szenarien eine mehr als dreifache Performance. Im primären Einsatzgebiet der Virtualisierungsszenarien ermöglicht der Wechsel auf die neue 4-Sockel-Generation so ebenfalls mehr als die dreifache Konsolidierungsfähigkeit im Vergleich zu Xeon-7400-Servern. Hier macht sich auch der massiv mögliche Speicherausbau der neuen Xeon-7500-Plattform mit 64 DIMMs auf 256, 512 oder gar 1024 GByte positiv bemerkbar. Vier Opteron-6100-CPUs können maximal 48 Speichermodule ansprechen.

Ein entscheidenderes Alleinstellungsmerkmal der Xeon-7500-Plattform im x86-Segment sind seine RAS-Features. Insbesondere die MCA-Technologie zum Abfangen von Hardwarefehlern besitzt RISC-Niveau. Wer auf hohe Betriebsicherheit Wert legt, für den sind Xeon-7500-Systeme auch eine deutlich günstigere Wahl als RISC-Maschinen. Ein Wunder an Energieeffizienz ist das verwendete Testsystem QSSC-S4R mit vier redundant ausgelegten 850-Watt-Netzteilen. Der Server ist auf eine hohe Ausfallsicherheit getrimmt.

Allerdings zeigen die Xeon-X7560-CPUs gegenüber den Xeon-X7460-Vorgängermodellen auch in der Performance pro Watt eine Steigerung um den Faktor zwei bis drei. Natürlich sind die 2-Sockel-Systeme mit Xeon X5680 oder Opteron 6174 nochmals deutlich effizienter, allerdings liegt der Fokus der "schlanken" Server auch nicht auf erhöhter Ausfallsicherheit. (cvi)

Testsysteme im Detail

Intels Xeon X7560 in der 2S-Konfiguration testen wir in dem 4-Sockel-Server Dell PowerEdge R810. Der 2U-Server verwendet den Intel-7500-Chipsatz und bietet insgesamt 32 DIMM-Steckplätze. Pro CPU stehen somit acht Registered DDR3-1066-DIMMs zur Verfügung. Das System kann in der Vollbestückung mit 4-GByte-Modulen auf 128 GByte RAM zurückgreifen.

AMDs Opteron 6174 "Magny-Cours" testen wir in einem 2-Sockel-Referenzsystem von AMD. Das Tower-System verwendet das AMD-Referenz-Mainboard Dinar2 mit AMD SR5690-Chipsatz. Jeder Socket-G34-CPU stehen acht DIMM-Steckplätze zur Verfügung (zwei Speicherriegel pro Channel). Beide Opteron 6174 können im Testsystem auf jeweils vier 4-GByte-Registered-DIMMs zurückgreifen. Dem System stehen somit insgesamt 32 GByte RAM zur Verfügung.

Xeon-7500-Plattform: Der Dell PowerEdge R810 besitzt vier LGA1567-Steckplätze. Sind nur zwei CPUs verbaut, so kommt Dells FlexMem Bridge zum Einsatz. Damit wird der Zugriff auf die volle DIMM-Bestückung selbst mit nur zwei Prozessoren möglich.

Intels Xeon X5680 "Westmere-EP" testen wir in einem 2-Sockel-Server Asus RS700-E6/RS4. Der 1U-Server mit der neuen Tylersburg-EP-Plattform besitzt als Mainboard ein Asus Z8PS-D12-1U mit Chipsatz Intel 5520 und ICH10R. Jedem Prozessor steht pro Speicher-Channel ein 4 GByte Registered DIMM vom Typ Qimonda IMHH4GP12A1F1C-13H mit 1333 MHz Taktfrequenz zur Verfügung. Insgesamt besitzt das System damit 24 GByte Arbeitsspeicher - 12 GByte pro CPU mit drei Channels.

Opteron-6100-Plattform: Die AMD-Referenzplattform für G34-Prozessoren stellt jeder CPU bis zu acht DDR3-DIMMs zur Verfügung.

Um insbesondere für die Energiemessungen möglichst gleiche Vorraussetzungen für die AMD- und Intel-Server zu ermöglichen, arbeiten in den Systemen an der SAS/SATA-Backplane jeweils zwei SATA-RAID-Edition-Festplatten. Bei den Energiemessungen achten wir darauf, die minimale Anzahl von DIMMs zu verwenden, bei der noch alle Speicher-Channels belegt sind. Unterschiede gibt es bei den Netzteilen. Der Xeon-X5680-Server bezieht seine Energie aus zwei 770-Watt-Netzteilen. Im Opteron-6174-System befindet sich ein 1200-Watt-Netzteil. Das Xeon-7500-System Dell PowerEdge R810 ist mit zwei 1100-Watt-Netzteilen ausgestattet. Der 4-Sockel-Server QSSC-S4R arbeitet dagegen mit vier 850-Watt-Netzteilen.

Als Betriebssystem setzen wir Windows Server 2008/R2 Enterprise x64 ein. Tests unter Linux erfolgen mit CentOS 5.4 in der 64-Bit-Version.