Mit der Xeon-7500-Serie - Codename „Nehalem-EX“ - bietet Intel seine neue CPU-Generation für Server mit zwei, vier und mehr Sockeln an. Die Prozessoren treten die Nachfolge der Xeon-7400-Serie an. Mit 45-nm-Core-Architektur und sechs Kernen setzen die 7400er CPUs noch auf die klassisch ausgelegte Xeon-MP-Plattform Caneland mit „klassischen“ FSBs zum Chipsatz, der wiederum den Speicher ansteuert.
Bei seiner neuen Xeon-7500-Generation krempelt Intel die CPU nebst zugehöriger Plattform komplett um. Die aus den Core-2-Desktop-CPUs bekannte Prozessorarchitekur muss dem 45-nm-Nehalem-Design weichen - allerdings kräftig aufgewertet. So produziert Intel mit dem Xeon 7500 erstmals einen 8-Core-Prozessor. Zusätzlich integriert der Hersteller auf dem Siliziumplättchen einen L3-Cache von sehr üppigen 24 MByte.
Vorbei sind auch die Zeiten des Speicher-Controllers im Chipsatz – dem größten Schwachpunkt der Xeon-7400-Server. Bei der neuen Xeon-7500-Serie warten die CPUs mit zwei integrierten Speicher-Controllern für acht DDR3-DIMM-Channels auf. Die Kommunikation zwischen den Prozessoren erfolgt über QuickPath-Schnittstellen. Mit diesem Konzept ist AMD in 4-Wege-Servern durch die höheren Bandbreiten seit Jahren Intel überlegen.
Intel will mit seiner neuen Xeon-7500-Plattform aber nicht nur in der Performance einen großen Schritt machen, sondern auch die Betriebssicherheit erhöhen. Für diesen Zweck unterstützt der Xeon 7500 die neue MCA-Technologie, die Hardware-Fehler im Prozessor und Speicher im laufenden Betrieb abfängt. Damit wildert Intel klar im Revier der RISC-Maschinen sowie des eigenen Itaniums.
Mit dem Xeon 7500 will Intel vor allem hohe Bandbreiten, große Mengen an Arbeitsspeicher und Durchsatz bieten. Ähnlich wie AMD mit seiner neuen Opteron-6100-Serie positioniert Intel neue Xeon-7500-Modelle auch in einer „neuen Kategorie“ von 2-Sockel-Systemen. Gerade bei Konsolidierungszwecken kann ein Server oft nicht mit genug Arbeitsspeicher ausgerüstet sein. DIMM-Module mit der höchsten Kapazität sind oft sehr teuer, mit Standardriegel lässt sich der Arbeitsspeicher günstiger ausbauen – wenn entsprechend viele DIMM-Slots zur Verfügung stehen.
Im TecChannel-Testlabor überprüfen wir die Leistungsfähigkeit des neuen Topmodells Xeon X7560 in dem ebenfalls neuen Dell PowerEdge R810. Der Server besitzt vier CPU-Steckplätze, ist aber nur mit zwei Xeon X7560 ausgerüstet. Somit ergibt sich ein idealer Vergleich zu den konkurrierenden 2-Sockel-Konfigurationen mit AMDs 12-Core-CPU Opteron 6174 und den Opteron-Serien 2300/2400 und Intels Xeon-5500/5600-Serie. Außerdem nehmen wir einen 4-Sockel-Server mit vier 6-Core-CPUs Xeon X7460 Dunnington zur Leistungseinordnung des Vorgängermodells des neuen Xeon X7560 in den Vergleich mit auf.
Wir überprüfen die Performance der CPUs bei Integer- und Floating-Point-Anwendungen sowie bei Verschlüsselung, Rendering und Simulation. Die Geschwindigkeit bei Java-Applikationen wird ebenso untersucht wie die Energieeffizienz der Zwei-Sockel-Systeme. Außerdem messen wir den Speicherdurchsatz der Server.
Xeon 7500 mit Turbo und 16 Threads
Intel vereint beim neuen Xeon 7500 „Nehalem-EX“ alle acht Kerne sind auf einem Siliziumplättchen. Laut Intel benötigt die Octa-Core-CPU 2,3 Milliarden Transistoren. Das Vorgängermodell Xeon X7460 mit sechs Kernen und 25 MByte Cache (9M L2-Cache, 16M Shared L3-Cache) besteht aus 1,9 Milliarden Transistoren.
Intel fertigt den Nehalem EX weiterhin im 45-nm-Prozess. Jedem der acht Kerne steht ein dedizierter 256 KByte großer L2-Cache zur Verfügung. Für alle Cores gibt es einen gemeinsamen bis zu 24 MByte (je nach Modell) fassenden L3-Cache. Intel teilt die dritte Pufferstufe in acht 3-MByte-Segmente auf, um die Bandbreite beim Zugriff zu optimieren. Damit soll ein Transfer zu den Kernen mit zirka 200 GByte/s möglich sein. Die Latenzzeit beziffert Intel mit 21 ns.
Intels 8-Core-Prozessor kann durch sein zusätzliches Hyper-Threading pro Kern insgesamt 16 Threads parallel abarbeiten. Neben den Octa-Core-Modellen gibt es die Xeon-7500-Serie auch in Varianten mit vier und sechs Kernen. So markiert der vierkernige Xeon E7520 mit 1,86 GHz Taktfrequenz den Einstieg der Serie. Am oberen Ende rangiert das Topmodell Xeon X7560 mit 2,26 GHz Taktfrequenz und Octa-Core.
Bis auf das Einstiegsmodell beherrschen die Xeon-7500-Modelle die Turbo-Technologie zum Steigern der Taktfrequenz einzelner Kerne. So kann der Xeon X7560 beispielsweise die Taktfrequenz eines Core um bis zu drei „Speed-Bins“ erhöhen. Dies entspricht bei den festgelegten 133 MHz für einen Bin dann einer um 400 MHz erhöhten Taktfrequenz.
Intel stuft die Xeon-7500-Prozessoren mit TDP-Werten von 95, 105 und 130 Watt ein. Während das Topmodell Xeon X7560 mit 130 Watt spezifiziert ist, gibt es auch eine 8-Core-Low-Voltage-Variante mit 95 Watt TDP. Die Taktfrequenz dieses Xeon L7555 beträgt 1,86 GHz.
Hohe Skalierfähigkeit
Intel stattet den Xeon 7500 mit vier QuickPath-Interfaces aus. Damit lassen sich bis zu acht Xeons direkt und ohne zusätzliche Switch-Chips miteinander verbinden. Die QuickPath-Schnittstellen arbeiten pro Link mit einer Bandbreite von 4,8, 5,86 oder 6,4 GT/s (modellabhängig). Im Prozessor sind die vier QPI-Links über einen Crossbar-Router verbunden, der eine Bandbreite von 120 GByte/s erlaubt.
Als Chipsatz für die Xeon-7500-Plattform steht der neue Chipsatz Intel 7500 „Boxboro-EX“ parat. Der Chipsatz ist ein I/O-Hub und ist nur noch als Brücke zwischen den QPI-Links der CPUs und den I/O-Schnittstellen zu sehen. Die Hauptfunktion von Boxboro-EX ist das Bereitstellen von PCI-Express-2.0-Schnittstellen.
Mit der Speicheransteuerung hat der Chipsatz bei der neuen Xeon-7500-Plattform nichts mehr zu tun. Jeder Xeon 7500 besitzt zwei integrierte Speicher-Controller. Jeder Controller besitzt zwei sogenannte „Scalable Memory Interfaces“ SMI. Dabei handelt es sich um serielle Highspeed-Links. Die insgesamt vier SMI-Links eines Xeon 7500 steuern jeweils einen eigenen „Scalable Memory Interconnect with Buffers“ SMB an. Jeder SMB kann im Dual-Channel-Mode bis zu vier Registered DDR3-DIMMs mit 800 oder 1066 MHz ansprechen. Die SMBs ersetzen bei der Xeon-7500-Plattform die FB-DIMM-Technologie der Vorgängerplattform mit Xeon-7400-CPUs. Das Memory-Subsystem eines Xeon 7500 kann somit 16 DIMMs via acht Channels ansteuern. In einer 4-Sockel-Konfiguration sind 64 Speicherriegel möglich.
RAS-Features auf RISC-Niveau
Mit der Xeon-7500-Serie bietet Intel eigenen Angaben zufolge erstmals die RAS-Features von RISC-Systemen bei x86-Servern an. Möglich machen soll dies das neue Feature „MCA Recovery“ des Nehalem-EX. Mit der „Machine Check Architecture“ (MCA) sollen Fehler bei CPU, Speicher und I/O entdeckt und korrigiert werden. Defekte bei diesen Komponenten sollen den Betrieb des Servers nicht stören.
Das Feature „MCA Recovery“ muss von den Betriebssystemen unterstützt werden. Eine Unterstützung wird von den Anbietern entsprechender Enterprise-Betriebssysteme bereits angekündigt. Microsoft unterstützt MCA Recovery mit Windows Server 2008 R2, VMware will künftige Versionen von vSphere anpassen, Novell bereitet sein SUSE Linux Enterprise auf MCA Recovery vor und Red Hat arbeitet ebenfalls an einer entsprechenden Unterstützung.
Mit den Hochverfügbarkeits-Features sowie der hohen Skalierfähigkeit des Nehalem EX macht sich Intel zusätzliche interne Konkurrenz zum Itanium. Hier pochte Intel bisher stets auf die speziellen RAS-Features für den sicheren Betrieb von Mission-Critical-Workloads. Der Itanium sei laut Intel aber weiterhin die „ideale Lösung“ für System mit mehr als acht Prozessoren und höchstem Speicherbedarf.
Alle Xeon-7500-Modelle im Überblick
In der Tabelle finden Sie alle neuen Xeon-7500-Prozessoren mit ihren technischen Daten im Überblick:
Prozessor |
Grundtaktfrequenz [GHz] |
QPI [GT/s] |
Skalierfähigkeit (glueless) |
L3-Cache |
Kerne |
DIMM-Support |
Turbo [Speed Bins] |
HT |
TDP [Watt] |
---|---|---|---|---|---|---|---|---|---|
Xeon X7560 |
2,26 |
6,4 |
8 Sockets |
24 MByte |
8 |
DDR3-1066 |
+3 |
ja |
130 |
Xeon X7550 |
2,0 |
6,4 |
8 Sockets |
18 MByte |
8 |
DDR3-1066 |
+3 |
ja |
130 |
Xeon X7542 |
2,66 |
5,86 |
8 Sockets |
18 MByte |
6 |
DDR3-1066 |
+1 |
nein |
130 |
Xeon E7540 |
2,0 |
6,4 |
8 Sockets |
18 MByte |
6 |
DDR3-1066 |
+2 |
ja |
105 |
Xeon E7530 |
1,86 |
5,86 |
4 Sockets |
12 MByte |
6 |
DDR3-1066 |
+2 |
ja |
105 |
Xeon E7520 |
1,86 |
4,8 |
4 Sockets |
18 MByte |
4 |
DDR3-800 |
nein |
ja |
95 |
Xeon L7555 |
1,86 |
5,86 |
8 Sockets |
24 MByte |
8 |
DDR3-1066 |
+5 |
ja |
95 |
Xeon L7545 |
1,86 |
5,86 |
8 Sockets |
18 MByte |
6 |
DDR3-1066 |
+5 |
ja |
95 |
Mehr Speicher mit FlexMem-Bridge
In der Xeon-7500-Plattform kann jede CPU über die QuickPath-Schnittstellen auch auf den Speicher der benachbarten Prozessoren zugreifen. Dadurch erhöht sich die verfügbare Speicherbandbreite eines Xeon 7500. In einer 2-Sockel-Konfiguration steht somit jedem Xeon 7500 auch der Speicher des anderen Prozessors zur Verfügung. Der Zugriff auf den Nachbarspeicher ist zwar deutlich langsamer als auf den eigenen, die Bandbreite wird jedoch erhöht. In einer 4-Sockel-Konfiguration gilt das gleiche Prinzip.
Dell entwickelte für die Xeon-7500-Plattform eine eigene Technologie mit der Bezeichnung FlexMem-Bridge. Durch FlexMem können in einem 4-Sockel-System, dass nur mit zwei CPUs bestückt ist, auch die DIMM-Steckplätze der beiden leeren CPU-Sockel bestückt werden. Den beiden verbauten Prozessoren steht somit neben dem eigenen Speicher zusätzlich noch die DIMMs zur Verfügung, die den leeren CPU-Sockeln zugeordnet sind. Da der Zugriff auf den Nachbarspeicher auch über den in der Nachbar-CPU integrierten Router erfolgen muss, funktioniert dieses Prinzip nur bei bestückten Sockeln.
Damit es trotzdem funktioniert, hat Dell die FlexMem Bridge konzipiert. Die Bridge wird in den CPU-Sockel geklemmt und leitet vereinfacht ausgedrückt die Speicheranfragen der benachbarten CPU einfach zu den „Scalable Memory Interconnect with Buffers“ SMB durch. Wer sein System somit aus Kostengründen oder ausreichender Performance nur mit zwei Xeon-7500-Prozessoren ausstatten will, dem steht durch FlexMem dennoch der Speicherausbau eines voll bestückten 4-Sockel-Servers zur Verfügung.
Unser Testsystem Dell PowerEdge R810 mit vier CPU-Sockeln ist mit zwei Xeon X7560 bestückt. Unsere Benchmarks führen wir jeweils mit und ohne FlexMem-Technologie durch. Die Speicherbandbreite erhöht sich, wenn beide CPUs jeweils noch auf den Speicher der leeren CPU-Sockel zurückgreifen können.
Multitask Integer: SPECint_rate_base2006
Wir setzen die SPEC-Benchmarks unter Windows Server 2008 Enterprise x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 10.1 und Fortran 10.1 in der 64-Bit-Version sowie MS Visual Studio 2005 .NET für alle Integer-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz. Bei den Integer-Berechnungen von SPECint_rate_base2006 ermittelt die Benchmark-Suite CPU2006 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Integer-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standardsoftware.
Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECint_rate_base2006 der Anzahl der Prozessorkerne des Systems. Beispielsweise arbeiten beim Zwei-Sockel-Server mit Opteron-6174-CPUs 24 Kopien parallel. Beim Westmere-EP-System mit Xeon X5670 und X5680 (Hexa-Core) sind durch das zusätzliche Hyper-Threading 24 virtuelle Kerne vorhanden. Entsprechend laufen auch hier 24 parallele Kopien mit einem Speicherbedarf von 2 GByte RAM pro Kopie. Das Xeon-X7560-System mit den zwei 8-Core-CPUs verlangt durch das zusätzliche Hyper-Threading nach 32 Kopien.
Intels 10.1-Compiler bieten mit dem Switch -QxO eine offizielle SSE3-Unterstützung für „Non-Intel-Processors“ (erstmals mit Version 10.0). Mit dieser Compiler-Option führten wir die CPU2006-Benchmarks für die Opteron-Prozessoren durch. Bei den Xeon-CPUs nutzten wir das Compiler-Flag -fast. Hier wählen die Intel-Compiler automatisch die optimale Befehlssatzunterstützung. Zusätzlich testen wir den Xeon X5570, X5670, X5680 und X7560 für eine optimale Vergleichbarkeit mit dem Opteron 2435 und 6174 ebenfalls mit -QxO:
Compiler-Option |
-fast (automatisch) |
-QxO (SSE3) |
---|---|---|
Xeon X7560 FlexMem |
242 |
224 |
Xeon X5570 |
176 |
165 |
Xeon X5670 |
237 |
220 |
Xeon X5680 |
257 |
235 |
Opteron 2435 |
-- |
112 |
Opteron 6174 |
-- |
193 |
Die Xeon-Prozessoren verlieren durch die Einstellung –QxO zirka sechs bis neun Prozent Performance.
Multitask Integer: SPECint_rate_base2006 optimiert
Unter Einsatz optimierter Compiler und spezieller Mathematik-Bibliotheken lassen sich für die Prozessoren die besten Ganzzahlenwerte für CPU2006 erzielen. Hier holen die Hersteller das Optimum aus ihren Systemen heraus. Die folgenden Werte sind offizielle CPU2006-Resultate, die von Server-Herstellern auf SPEC.org gemeldet sind.
Offiziell gemeldete Werte für den Xeon X7560 liegen uns noch nicht vor. Sobald wir diese erhalten, ergänzen wir das Diagramm. Uns vorliegende inoffizielle Werte des Xeon X7560 liegen auf dem Niveau des Opteron 6174.
Multitask Floating Point: SPECfp_rate_base2006
Wir setzen die SPEC-Benchmarks unter Windows Server 2008 Enterprise x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 10.1 und Fortran 10.1 in der 64-Bit-Version sowie MS Visual Studio 2005 .NET für alle Floating-Point-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz. Bei den Floating-Point-Berechnungen von SPECfp_rate_base2006 ermittelt die Benchmark-Suite CPU2006 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Floating-Point-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standardsoftware.
Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECfp_rate_base2006 der Anzahl der Prozessorkerne des Systems. Beispielsweise arbeiten beim Zwei-Sockel-Server mit Opteron-6174-CPUs 24 Kopien parallel. Beim Westmere-EP-System mit Xeon X5670 und X5680 (Hexa-Core) sind durch das zusätzliche Hyper-Threading 24 virtuelle Kerne vorhanden. Entsprechend laufen auch hier 24 parallele Kopien mit einem Speicherbedarf von 2 GByte RAM pro Kopie. Das Xeon-X7560-System mit den zwei 8-Core-CPUs verlangt durch das zusätzliche Hyper-Threading nach 32 Kopien.
Intels 10.1-Compiler bieten mit dem Switch -QxO eine offizielle SSE3-Unterstützung für „Non-Intel-Processors“ (erstmals mit Version 10.0). Mit dieser Compiler-Option führten wir die CPU2006-Benchmarks für die Opteron-Prozessoren durch. Bei den Xeon-CPUs nutzten wir das Compiler-Flag -fast. Hier wählen die Intel-Compiler automatisch die optimale Befehlssatzunterstützung. Zusätzlich testen wir den Xeon L5520, X5570, X5670, X5680 und X7560 für eine optimale Vergleichbarkeit mit dem Opteron 2435 und 6174 ebenfalls mit -QxO:
Compiler-Option |
-fast (automatisch) |
-QxO (SSE3) |
---|---|---|
Xeon X7560 FlexMem |
213 |
207 |
Xeon X5570 |
160 |
154 |
Xeon X5670 |
207 |
171 |
Xeon X5680 |
219 |
176 |
Opteron 2435 |
-- |
108 |
Opteron 6174 |
-- |
196 |
Die Xeon-5600-Prozessoren (32-nm-Westmere-Architektur) verlieren durch die Einstellung –QxO mit zirka 17 bis 20 Prozent massiv Performance, wenn maximal SSE3 unterstützt wird. Beim Xeon X7560 und den Xeon-5500-Modellen (alle 45-nm-Nehalem-Architektur) beträgt der Einbruch nur drei bis vier Prozent.
Multitask Floating Point: SPECfp_rate_base2006 optimiert
Unter Einsatz optimierter Compiler und spezieller Mathematik-Bibliotheken lassen sich für die Prozessoren die besten Fließkommawerte für CPU2006 erzielen. Hier holen die Hersteller das Optimum aus ihren Systemen heraus. Die folgenden Werte sind offizielle CPU2006-Resultate, die von Server-Herstellern auf SPEC.org gemeldet sind.
Offiziell gemeldete Werte für den Xeon X7560 liegen uns noch nicht vor. Sobald wir diese erhalten, ergänzen wir das Diagramm. Uns vorliegende inoffizielle Werte des Xeon X7560 liegen in etwa zwischen dem Xeon X5680 und Opteron 6174.
STREAM: Speicherbandbreite
Der quelloffene STREAM-Benchmark ist ein weit verbreiteter Industriestandardtest zum Messen der möglichen Speicherbandbreite in einem System. Wir verwenden die 64-Bit-Windows-Binary von der University of Virginia. Die OMP-fähige STREAM-Version nutzt möglichst alle Kerne der Prozessoren aus, um den höchsten Speicherdurchsatz zu generieren.
Java Virtual Machine Performance
Mit SPECjvm2008 stellt die Standard Performance Evaluation Corporation (SPEC) einen Benchmark für die Performance von Systemen unter Java Runtime Environment (JRE) zur Verfügung. Die Evaluierungssoftware zur Ermittlung der Java-Performance wurde von SPEC in Zusammenarbeit mit AMD, Bea, Hewlett-Packard, IBM, Intel und Sun entwickelt.
Für die Performance des Systems in einer Java Virtual Machine zeigen sich neben der Wahl der Java-Engine die Prozessoren sowie die Speicherarchitektur verantwortlich. SPECjvm2008 startet eine JVM und führt einen Multithread-Workload durch. Alle Prozessorkerne eines Systems werden von SPECjvm2008 ausgenutzt.
SPECjvm2008 arbeitet mit einem Base-Run, bei dem keine speziellen Tuning-Maßnahmen durch Flags und Optimierungen erlaubt sind. Damit wird die Java-Performance der Systeme mit der installierten JVM ermittelt. Zehn verschiedene Tests wie Compilieren, Rendering, Verschlüsselung oder Komprimierung werden durchgeführt. Beim Peak-Run lassen sich für jeden Test Optimierungen für die JVM einstellen.
Wir führen SPECjvm2008 im Base-Run unter Windows Server 2008 Enterprise x64 mit der JRE Bea JRockit 6 R27 in der 64-Bit-Version durch:
Maximale Java-Performance
SPECpower_ssj2008 ermittelt neben der Energieeffizienz bei 100 Prozent Prozessorauslastung auch die maximale Java-Performance des Systems. Als Java-Engine unter Windows Server 2008 Enterprise x64 dient Bea JRockit in der 64-Bit-Version 6 R27.
SPECpower_ssj2008 nutzt einen anderen Workload als SPECjvm2008. Außerdem arbeiten bei SPECpower_ssj2008 nicht nur eine JVM, sondern mehrere virtuelle Java-Instanzen. Bei den getesteten Vier-Sockel-Systemen sind zwei JVMs aktiv. Jede JVM agiert multithreaded mit der Anzahl der CPU-Kerne pro Sockel. Bei diesem konfigurierbaren Setup erzielt SPECpower_ssj2008 bei Zwei-Sockel-Systemen die besten Ergebnisse.
Bei diesem Test sind die Energiesparoptionen der Prozessoren aktiv, die erreichbare Performance wird durch die Vollauslastung der CPUs allerdings nicht beeinflusst.
Dass beim Java-Workload von SPECpower hohe Speicher- und Busbandbreiten von Vorteil sind, zeigen auch die Xeon E5472. Trotz nur 3,0 GHz Taktfrequenz überholen die Xeon E5472 hier die 3,33-GHz-Xeon-X5470-CPUs, weil sie mit DDR2-800-Speicher und FSB1600 arbeiten (statt DDR2-667 und FSB1333).
Energieeffizienz: Performance/Watt
Der Gesamtwert von SPECpower_ssj2008 steht für die Energieeffizienz des Systems. Der Benchmark gibt die gemittelte Performance pro Watt an, die über alle Lastzustände von zehn bis 100 Prozent gemessenen werden.
Um die Energiesparoptionen der Prozessoren zu nutzen, arbeitet Windows Server 2008 Enterprise x64 mit dem Energieschema „Ausbalanciert“. SpeedStep (Intel) und PowerNow! (AMD) zum dynamischen Regeln von Taktfrequenz und Core-Spannung je nach CPU-Auslastung sind bei dem SPECpower-Benchmark aktiv.
Jetzt wird bei den Energieoptionen von Windows Server 2008 das Schemata „Höchstleistung“ ausgewählt. Die Prozessoren arbeiten immer mit voller Taktfrequenz und Core-Spannung. Die dynamischen Powermanagement-Funktionen SpeedStep (Intel) und PowerNow! (AMD) sind beim Schemata „Höchstleistung“ nicht aktiv.
Im zweiten Diagramm sehen Sie die Auswirkungen des deaktivierten CPU-Powermanagements auf die Energieeffizienz der Systeme.
Maximaler Energieverbrauch
SPECpower_ssj2008 ringt dem Testsystem im Lastzustand 100 Prozent den maximalen Energieverbrauch ab. Alle Kerne der Prozessoren sind voll ausgelastet. Die aktiven JVMs fordern zusätzlich den Arbeitsspeicher der Systeme.
Minimaler Energieverbrauch
SPECpower_ssj2008 führt neben den Lasttests zusätzlich Kalibrierungsmessungen über den Energieverbrauch bei Leerlauf durch. Dabei wird der minimale Energiebedarf des Systems ermittelt.
Im ersten Diagramm vergleichen wir den Systemverbrauch unter Windows Server 2008 Enterprise x64 mit dem Energie-Schemata „Ausbalanciert“. Die Prozessoren nutzen ihre Powermanagement-Features SpeedStep (Intel) und PowerNow! (AMD) aus.
Dann wird bei den Energieoptionen von Windows Server 2008 das Schemata „Höchstleistung“ ausgewählt. Die dynamischen Powermanagement-Funktionen SpeedStep (Intel) und PowerNow! (AMD) sind beim Schemata „Höchstleistung“ nicht aktiv. Die Auswirkungen sehen Sie im zweiten Diagramm.
Analyse: SunGard ACR
SunGards Adaptiv Credit Risk 4.0 ist ein Analysetool für den Finanzbereich. Basierend auf modifizierten Monte-Carlo-Simulationen berechnet das Programm den künftigen Wert einer Anlage auf Basis vorhandener Marktdaten.
SunGards Adaptiv Credit Risk wurde in C# für Microsofts .NET-Umgebung programmiert. Spezielle Mathematik-Bibliotheken wie Intels MKL oder AMDs Core Math Library ACML verwendet Adaptiv Credit Risk nicht. Das Analysetool arbeitet multithreaded und unterstützt Multiprozessor-Systeme optimal. SunGard rechnet überwiegend mit Integer-Operationen. Speicherzugriffe halten sich bei Adaptiv Credit Risk in Grenzen.
Encryption/Decryption: openSSL 64 Bit
Die Leistungsfähigkeit der Prozessoren beim Verschlüsseln und Entschlüsseln von Daten unter Linux 64 Bit ermittelt das Open-Source-Programm openSSL in der 64-Bit-Version 0.9.8b. Der Code von openSSL ist single threaded programmiert. Durch den Start von multiplen Kopien summiert openSSL die Performance beim Verschlüsseln und Entschlüsseln von Daten.
Wir testen die Prozessoren bei openSSL mit dem RSA-Schlüssel und einer Schlüssellänge von 2048 Bit. Der synthetische Benchmark gibt einen guten Anhaltspunkt für die Geschwindigkeit der Prozessoren beim Verschlüsseln und Entschlüsseln von Daten. Spezielle, für die CPU-Architekturen optimierte Mathematik-Bibliotheken kommen beim mit gcc kompilierten openSSL-Benchmark nicht zum Einsatz.
Rendering: CINEBENCH 11.5 64 Bit
Mit dem CINEBENCH 11.5 stellt Maxon die aktuelle Version des bekannten Benchmark-Tools bereit. CINEBENCH 11.5 basiert auf Cinema 4D Release 11.5 und führt Rendering-Tests durch. Maxon bietet CINEBENCH 11.5 als 32- und 64-Bit-Version zum Download an. Die Rendering-Engine von Cinemal 4D Release 11.5 unterstützt bis zu 64 Threads.
Beim Render-Test wird eine fotorealistische 3D-Szene mithilfe des Cinema-4D-Raytracers berechnet. Die Testszene enthält über 2000 Objekte mit mehr als 300.000 Polygonen, nutzt scharfe und weiche Spiegelungen, Flächenlichter und -schatten, prozedurale Shader, Kantenglättung und vieles mehr. Bei dem FPU-lastigen Test spielt die Leistungsfähigkeit der Grafikkarte keine Rolle. Auch höhere Speicher- und FSB-Bandbreiten nutzen beim Rendering von CINEBENCH 11.5 wenig – der Test läuft überwiegend in den Cache-Stufen ab.
AMD & Intel: Listenpreise 2-Sockel-CPUs
In der Tabelle finden Sie die Preise der aktuellen Xeon-5500-Prozessoren im Vergleich zu AMDs Opteron-2400-Serie. Bei AMDs Preisliste gab es am 29. März 2010 die letzten Änderungen. Intels Preisliste wurde am 28. März 2010 aktualisiert.
Modell |
Taktfrequenz [GHz] |
Listenpreis [US-Dollar] |
---|---|---|
Intel Xeon-7500-Serie |
||
Xeon X7560 |
2,26 |
3692 |
Xeon X7550 |
2,0 |
2729 |
Xeon X7542 |
2,66 |
1980 |
Xeon E7540 |
2,0 |
1980 |
Xeon E7530 |
1,86 |
1391 |
Xeon E7520 |
1,86 |
856 |
Xeon L7555 |
1,86 |
3157 |
Xeon L7545 |
1,86 |
2087 |
Intel Xeon-7400-Serie |
||
X7460 |
2,66 |
2729 |
E7450 |
2,4 |
2301 |
E7440 |
2,4 |
1980 |
E7430 |
2,13 |
1391 |
E7420 |
2,13 |
1177 |
L7455 |
2,13 |
2729 |
L7445 |
2,13 |
1980 |
Intel Xeon-5600-Serie |
||
Xeon X5680 |
3,33 |
1663 |
Xeon X5677 |
3,46 |
1663 |
Xeon X5670 |
2,93 |
1440 |
Xeon X5667 |
3,06 |
1440 |
Xeon X5660 |
2,80 |
1219 |
Xeon X5650 |
2,66 |
996 |
Xeon E5640 |
2,66 |
774 |
Xeon E5630 |
2,53 |
551 |
Xeon E5620 |
2,40 |
387 |
Xeon L5640 |
2,26 |
996 |
Xeon L5630 |
2,13 |
551 |
Xeon L5609 |
1,86 |
440 |
Intel Xeon-5500-Serie |
||
Xeon W5590 |
3,33 |
1600 |
Xeon W5580 |
3,20 |
1600 |
Xeon X5570 |
2,93 |
1386 |
Xeon X5560 |
2,80 |
1172 |
Xeon X5550 |
2,66 |
958 |
Xeon E5540 |
2,53 |
744 |
Xeon E5530 |
2,40 |
530 |
Xeon E5520 |
2,26 |
373 |
Xeon E5506 |
2,13 |
219 |
Xeon E5504 |
2,00 |
224 |
Xeon E5502 |
1,86 |
188 |
Xeon L5530 |
2,40 |
744 |
Xeon L5520 |
2,26 |
530 |
Xeon L5506 |
2,13 |
423 |
AMD Opteron-6100-Serie |
||
Opteron 6176 SE |
2,3 |
1386 |
Opteron 6174 |
2,2 |
1165 |
Opteron 6172 |
2,1 |
989 |
Opteron 6168 |
1,9 |
744 |
Opteron 6164 HE |
1,7 |
744 |
Opteron 6136 |
2,4 |
744 |
Opteron 6134 |
2,3 |
523 |
Opteron 6128 |
2,0 |
266 |
Opteron 6128 HE |
2,0 |
523 |
Opteron 6124 HE |
1,8 |
455 |
AMD Opteron-4100-Serie |
||
Opteron 4186 |
2,9 |
455 |
Opteron 4184 |
2,8 |
316 |
Opteron 4180 |
2,6 |
188 |
Opteron 4176 HE |
2,4 |
377 |
Opteron 4174 HE |
2,3 |
255 |
Opteron 4170 HE |
2,1 |
174 |
Opteron 4164 EE |
1,8 |
698 |
Opteron 4162 EE |
1,8 |
316 |
Opteron 4130 |
2,6 |
125 |
Opteron 4122 |
2,2 |
99 |
AMD Opteron-2400-Serie |
||
Opteron 2439 SE |
2,8 |
1019 |
Opteron 2435 |
2,6 |
989 |
Opteron 2431 |
2,4 |
698 |
Opteron 2427 |
2,2 |
455 |
Opteron 2425 HE |
2,1 |
523 |
Opteron 2423 HE |
2,0 |
455 |
Opteron 2419 EE |
1,8 |
989 |
Fazit
Nur auf die Performance fokussiert, wird der Intel Xeon X7560 in der 2-Sockel-Konfiguration seinen Erwartungen nicht gerecht. In fast allen Szenarien arbeiten die Xeon-X5680-Prozessoren schneller als die für 2-, 4- und 8-Sockel-Systeme ausgelegten neuen Octa-Core-Xeons. Zwar arbeiteten die Xeon-X7560-CPUs mit acht statt nur sechs Kernen, allerdings bei deutlich geringerer Taktfrequenz. Zudem liefert das Speicher-Subsystem der Xeon-7500-Plattform mit den Scalable Memory Buffers geringere Bandbreiten als die Triple-Channel-Speicher-Controller der Xeon-5600-Serie. Immerhin sorgt Dells eigene FlexMem-Technologie, mit der selbst bei zwei CPUs der Speicher von vier Sockeln zur Verfügung steht, in sehr speicherintensiven Szenarios für 30 bis 40 Prozent mehr Performance.
Das Einsatzgebiet der Xeon-7500-Serie im 2-Sockel-Segment bleibt somit bereits aus Sicht der Performance eingeschränkt. Bei diesen Systemen wird primär auf geringe Kosten und hohe Energieeffizienz Wert gelegt. Beide Punkte sind nicht die Paradedisziplin der Xeon-7500-Prozessoren. Die Xeon-5600-Serie sowie AMDs Opteron-6100-Modelle sind Intels Octa-Core-Modellen hier weit überlegen.
Die Stärken der Xeon-7500-Plattform liegen abseits von Performance und Energieeffizienz aus Seiten der Skalierfähigkeit und Betriebssicherheit. Hier sind die neuen Xeon-7500-CPUs der x86-Konkurrenz weit vorraus. So erlauben die CPUs Systeme mit bis zu acht Prozessoren, die direkt miteinander verbunden sind. AMD schränkt seine Opteron-6100-Modelle auf maximal vier Sockeln ein – nachvollziehbar, der 8-Sockel-x86-Markt ist verschwindend gering. Wichtiger bei der Xeon-7500-Plattform ist der sehr hohe mögliche Speicherausbau. In einer 4-Sockel-Konfiguration erlauben Xeon-7500-Systeme bis zu 64 DIMMs für einen Arbeitsspeicher von 1 TByte. Vier Opteron-6100-CPUs können maximal 48 Speichermodule ansprechen.
Ein entscheidenderes Alleinstellungsmerkmal der Xeon-7500-Plattform im x86-Segment sind seine RAS-Features. Insbesondere die MCA-Technologie zum Abfangen von Hardwarefehlern besitzt RISC-Niveau. Wer auf hohe Betriebsicherheit Wert legt, für den sind Xeon-7500-Systeme auch eine deutlich günstigere Wahl als RISC-Maschinen.
Zu guter Letzt machen Intels neue Xeon-7500-Prozessoren auch aus Sicht der Performance einen großen Sprung; im Vergleich zu den Vorgängermodellen der Xeon-7400-Serie. So sind bereits zwei Xeon X7560 (2,26 GHz / 8 Core) meist schneller als vier Xeon X7460 (2,66 GHz / 6 Core). Auch die Energieeffizienz betreffend liegen Faktoren zwischen der alten und neuen Generation. (cvi)
Testsysteme im Detail
Intels Xeon X7560 testen wir in dem 4-Sockel-Server Dell PowerEdge R810. Der 2U-Server verwendet den Intel-7500-Chipsatz und bietet insgesamt 32 DIMM-Steckplätze. Pro CPU stehen somit acht Registered DDR3-1066-DIMMs zur Verfügung. Das System kann in der Vollbestückung mit 4-GByte-Modulen auf 128 GByte RAM zurückgreifen.
AMDs Opteron 6174 „Magny-Cours“ testen wir in einem 2-Sockel-Referenzsystem von AMD. Das Tower-System verwendet das AMD-Referenz-Mainboard Dinar2 mit AMD SR5690-Chipsatz. Jeder Socket-G34-CPU stehen acht DIMM-Steckplätze zur Verfügung (zwei Speicherriegel pro Channel). Jedem Opteron 6174 stehen vier 4-GByte-Registered-DIMMs zur Verfügung. Das System kann somit auf insgesamt 32 GByte RAM zurückgreifen.
Der Opteron 2435 nimmt in einem 4-Sockel-Server Tyan Transport GT26 Platz. Der 1U-Rack-Server verwendet als Mainboard ein Tyan S4987 mit NVIDIA MCP55-Chipsatz. Das System eignet sich für den Betrieb mit zwei oder vier Prozessoren. Jedem Prozessor stehen zwei gepufferte 4-GByte-DIMMs in einer Dual-Channel-Konfiguration zur Verfügung. Insgesamt verfügt der Tyan-Server in der 2-Sockel-Konfiguration über 16 GByte Arbeitsspeicher.
AMDs Opteron 2384 „Shanghai“ und 2356 „Barcelona“ testen wir in einem 2-Sockel-Server Supermicro A+ 2021M-UR+B. Der Rack-Server nutzt als Mainboard das Supermicro H8DMU+ mit NVIDIA MCP55Pro-Chipsatz. Jedem Prozessor stehen vier gepufferte 2-GByte-DIMMs in einer Dual-Channel-Konfiguration zur Verfügung. Insgesamt verfügt der Opteron-Server somit über 16 GByte Arbeitsspeicher.
Intels Xeon L5520 und X5570 „Nehalem-EP“ sowie den Xeon X5670 und X5680 „Westmere-EP“ testen wir in einem 2-Sockel-Server Asus RS700-E6/RS4. Der 1U-Server mit der neuen Tylersburg-EP-Plattform besitzt als Mainboard ein Asus Z8PS-D12-1U mit Chipsatz Intel 5520 und ICH10R. Jedem Prozessor steht pro Speicher-Channel ein 4 GByte Registered DIMM vom Typ Qimonda IMHH4GP12A1F1C-13H mit 1333 MHz Taktfrequenz zur Verfügung. Beim Xeon L5520 arbeitet der Speicher mit 1066 MHz. Insgesamt besitzt das System damit 24 GByte Arbeitsspeicher – 12 GByte pro CPU mit drei Channels.
Um die Performance und die Energieeffizienz der Xeon-Nehalem/Westmere-CPUs bestmöglich mit den Xeon-5400- und Opteron-Prozessoren vergleichen zu können, verwenden wir möglichst bauähnliche Server. Die Xeon-5400-CPUs nehmen in einem SuperServer 6025W-NTR+B von Supermicro Platz. Als Mainboard verwendet der Server ein Supermicro X7DWN+ mit Seaburg-Chipsatz. Vier FB-DIMM-Channels steuern insgesamt acht 2-GByte-Module vom Typ Nanya NT2GT72U4NB1BD-2C an. Die FB-DIMMs arbeiten bei der FSB1600-CPU Xeon E5472 mit DDR2-800-SDRAMs mit einem 5-5-5-Timing. Bei den FSB1333-Xeons steuert der Chipsatz den Speicher automatisch mit einer Geschwindigkeit von 667 MHz bei CL5 an.
Um insbesondere für die Energiemessungen gleiche Vorraussetzungen für die AMD- und Intel-Server zu ermöglichen, arbeiten in den Systemen an der SAS/SATA-Backplane jeweils zwei SATA-RAID-Edition-Festplatten von Samsung. Somit lassen sich bestmögliche Vergleiche zwischen den Prozessoren ziehen. Jeder Server bezieht seine Energie aus zwei 700-Watt-Netzteilen (AMD-Shanghai/Barcelona-Server und Intel-Xeon-5400-System) beziehungsweise 770-Watt-Netzteilen (Intel Nehalem-EP- und Westmere-EP-System). Das Testsystem für den Opteron 2435 ist mit einem 1000-Watt-Netzteil ausgestattet, im Opteron-6174-System befindet sich ein 1200-Watt-Netzteil. Das Xeon-7500-System ist mit zwei 1100-Watt-Netzteilen ausgestattet. Bei den Energiemessungen achten wir darauf, möglichst die identische Anzahl von DIMMs zu verwenden.
Als Betriebssystem setzen wir Windows Server 2008 Enterprise x64 ein. Tests unter Linux erfolgen mit CentOS 5 in der 64-Bit-Version.