Performance und Effizienz verdoppelt

Test: Intel Xeon X5570 Nehalem-EP

30.03.2009 von Christian Vilsbeck
Mit der Xeon-5500-Generation führt Intel den Nehalem für 2-Sockel-Server ein. Die neuen Prozessoren bieten die doppelte Performance sowie eine deutlich bessere Energieeffizienz als AMDs Opteron „Shanghai“. Mit ihren acht Cores übertrumpfen Nehalem-DP-Server sogar aktuelle 4-Sockel-Xeon-Server mit 24 Cores.

Intels Nehalem-Architektur ist angelangt, wo sie hingehört – in Servern mit mehreren CPUs. Mit der neuen Xeon-5500-Serie „Nehalem-EP“ vollziehen Intel-basierende 2-Sockel-Server einen kompletten Wechsel in der Systemarchitektur. Der x86-basierende Servermarkt wird laut IDC zu 70 Prozent von 2-Sockel-Systemen beherrscht.

Bereits bei den Desktop-Prozessoren - hier wurde die Nehalem-Architektur im November 2008 eingeführt - spielt der Core i7 in einer eigenen Liga. Dabei wirken sich die entscheidenden Vorteile, wie der integrierte Speicher-Controller und das serielle QuickPath-Interface, bei einer alleine arbeitenden CPU noch wenig aus.

Nicht umsonst agiert AMDs Opteron in der Domäne von Systemen mit zwei und mehr x86-Prozessoren äußerst konkurrenzfähig gegen Intel. Das Konzept mit den flexiblen HyperTransport-Schnittstellen sowie den Speicher-Controllern in der CPU erwirkt in Mehrwegesystemen besonders bei speicherintensiven Szenarios entscheidende Vorteile.

Bildergalerie: Intel Xeon X5570 „Nehalem-EP“ mit Tylersburg-EP-Plattform.
Xeon L5520: Die Stromspar-CPU mit Nehalem-Architektur arbeitet mit 2,26 GHz Taktfrequenz. Der Quad-Core-Xeon verfügt über Hyper-Threading und die Turbo-Technologie und ist mit 60 Watt TDP spezifiziert. Über den integrierten Triple-Channel-Speicher-Controller steuert die CPU DDR3-1066-DIMMs an.
Xeon X5570: Der native Quad-Core-Prozessor mit Nehalem-Architektur arbeitet mit 2,93 GHz Grundtaktfrequenz. Über den integrierten Triple-Channel-Speicher-Controller steuert die CPU DDR3-1333-DIMMs an.
Die Xeon-5500-Serie nimmt im neuen Socket LGA1366 Platz.
In der 2-Sockel-Konfiguration steuert jeder Xeon seinen eigenen DDR3-Speicher an. Über die QuickPath-Verindung zwischen den CPUs können die Xeons auch auf den Speicher des benachbarten Prozessors zurückgreifen.
Für die Kühlung der Xeon-X5570-CPUs mit ihrem TDP-Wert von 95 Watt und den Xeon-L5520-Modellen mit 60 Watt TDP sorgen zahlreiche Lüfter.
Bei der Xeon-5500-Serie setzt Intel auf DDR3-DIMMs mit ECC. Die Prozessoren können gepufferte und ungepufferte DIMMs ansteuern.
In der Xeon-5500-Testplattform sorgen zwei redundant ausgelegte 770-Watt-Netzteile für die notwendige Energie.
Die Innenseite des Gehäusedeckels zeigt das Boardlayout des Asus Z8PS-D12-1U mit Chipsatz Intel 5520 und ICH10R.
Der 1U-Server Asus RS700-E6/RS4 setzt auf die Intels neue Tylersburg-EP-Plattform für Xeon-5500-Prozessoren.

Bisher müssen sich Intels Quad-Core-Xeons bis hin zur Serie 5400 mit einem „klassischen“ FSB begnügen. Die Kommunikation zwischen den CPUs und zum Speicher erfolgt immer über den Chipsatz - Latenzzeiten sind hoch, Bandbreiten bleiben beschränkt. Beim Xeon 5500 „Nehalem-EP“ ist Schluss damit: Jede CPU besitzt einen integrierten Speicher-Controller für drei DDR3-1333-Channels. In der neuen zugehörigen 2-Sockel-Plattform „Tylersburg-EP“ kommunizieren die zwei Xeon 5500 untereinander und zum Peripherie-Chipsatz 5520„Tylersburg-36D“ mit jeweils eigenen QuickPath-Schnittstellen. AMDs Direct Connect Architecture lässt grüßen…

Bildergalerie: Alle Benchmarks des Xeon X5570 im Überblick.
CPU2006 64 Bit - Singlethread - SPECint_base2006 - Windows Server 2008 Enterprise x64
CPU2006 64 Bit - Multitasking - SPECint_rate_base2006 - Windows Server 2008 Enterprise x64
CPU2006 64 Bit - Singlethread - SPECfp_base2006 - Windows Server 2008 Enterprise x64
CPU2006 64 Bit - Multitasking - SPECfp_rate_base2006 - Windows Server 2008 Enterprise x64
SPECjvm2008 - Base Run - Performance Java Runtime Environment - Windows Server 2008 Enterprise x64
SPECpower_ssj2008 - Java-Performance - 100 Prozent Load - SpeedStep / PowerNow! on - Windows Server 2008 Enterprise x64
SPECpower_ssj2008 - Performance/Watt Overall - CPU-Powermanagment on - Windows Server 2008 Enterprise x64
SPECpower_ssj2008 - Performance/Watt Overall - CPU-Powermanagement off - Windows Server 2008 Enterprise x64
SPECpower_ssj2008 - Energieverbrauch - Plattform Leerlauf - Energiesparmodus an - Windows Server 2008 Enterprise x64
SPECpower_ssj2008 - Energieverbrauch Plattform Leerlauf - Energiesparmodus aus Windows Server 2008 Enterprise x64
SPECpower_ssj2008 - Energieverbrauch - Plattform unter Volllast - Windows Server 2008 Enterprise x64
SunGard ACR 4.0 64 Bit - Monte Carlo - Calculation Time - Windows Server 2008 Enterprise x64
LINPACK 2.12 64 Bit - problem size = 27.000 - CentOS Linux 5.0 64 Bit
openSSL 0.9.8b 64 Bit - Encryption RSA2048 - CentOS Linux 5.0 64 Bit
openSSL 0.9.8b 64 Bit - Decryption RSA2048 - CentOS Linux 5.0 64 Bit
3ds Max 2009 x64 - SPECapc for 3ds Max - Rendering Scene Space_Flyby - Windows Server 2008 Enterprise x64
3ds Max 2009 x64 - SPECapc for 3ds Max - Rendering Scene Underwater_Escape - Windows Server 2008 Enterprise x64
CINEBENCH 10 64 Bit - Rendering one CPU - Windows Server 2008 Enterprise x64
CINEBENCH 10 64 Bit - Rendering multiple CPU - Windows Server 2008 Enterprise x64

Auch die nicht gerade sparsam mit Energie hantierenden FB-DIMM-Speicher wirft Intel über Bord. Jetzt kommen DDR3-Speichermodule in gepufferter Ausführung zum Einsatz. Schon deshalb sollte die Energieeffizienz der Nehalem-EP-Server steigen. AMDs 2-Sockel-Server mit Opteron-Shanghai-CPUs sind in der Performance pro Watt den bisherigen Xeon-5400-basierenden Systemen überlegen.

Mit seiner neuen 2-Sockel-Serverplattform „Tylersburg-EP“ will Intel sich keine Schwächen mehr leisten. Im TecChannel-Testlabor untersuchen die neue Plattform mit den Topmodellen Xeon X5570. Die 45-nm-Quad-Core-CPUs mit Hyper-Threading arbeiten mit 2,93 GHz Taktfrequenz. Durch die Turbo-Technologie agieren einzelne Kerne mit bis zu 3,33 GHz. Der TDP-Wert bleibt auf 95 Watt beschränkt.

Als Vergleich für den Xeon X5570 dienen in möglichst identisch ausgestatteten 2-Sockel-Servern die Vorgänger der Xeon-5400-Serie sowie AMDs Opteron-Modelle „Barcelona“ und „Shanghai“. Wir überprüfen die Performance der CPUs bei Integer- und Floating-Point-Anwendungen sowie bei Verschlüsselung, Rendering und Simulation. Die Geschwindigkeit bei Java-Applikationen wird ebenso untersucht wie die Energieeffizienz der Zwei-Sockel-Systeme.

Außerdem nehmen wir einen 4-Sockel-Server mit vier 6-Core-CPUs Xeon X7460 Dunnington zur Leistungseinordnung in den Vergleich mit auf. Die Ergebnisse der neuen Xeon X5570 „Nehalem-EP“ düpieren nicht nur die konkurrierenden Prozessoren für 2-Sockel-Systeme.

Details zum Xeon 5500 „Nehalem-EP“

Intels neue Xeon-5500-Serie mit Nehalem-Architektur arbeitet mit vier Kernen. Die Quad-Core-Technologie wird durch zusätzliches Hyper-Threading pro Kern ergänzt. In der 2-Sockel-Konfiguration stehen dem Betriebssystem somit 16 virtuelle Kerne zur Verfügung. Hyper-Threading lässt sich bei den NetBurst-basierenden Xeons im BIOS der Server deaktivieren.

Beim Xeon 5500 besitzt jeder Core neben dem 32 KByte fassenden L1-Cache für Daten und Befehle einen dedizierten L2-Cache mit 256 KByte Puffergröße. Der 8 MByte große L3-Cache steht allen vier Kernen gemeinsam zu Verfügung. Somit besitzt der Xeon 5500 die gleiche Cache-Konfiguration wie die Desktop-Variante Core i7.

Der im Prozessor integrierte Speicher-Controller des Xeon 5500 unterstützt drei DDR3-Speicher-Channels. Pro Channel sind drei gepufferte oder ungepufferte DIMMs mit ECC möglich, die Speicherriegel arbeiten dann mit 800 MHz Speichertakt. Bei zwei DIMMs pro Channel sind 1066 MHz möglich. Ist pro Channel nur ein DIMM eingesetzt, so erlaubt der Speicher-Controller den Betrieb mit 1333 MHz Taktfrequenz.

Bildergalerie: Features von Nehalem-EP und Tylersburg-EP.
Xeon Nehalem-EP mit Plattform Tylersbur-EP
Codenamen der neuen Nehalem-Prozessoren, Chipsaetze und Plattform
Systemarchitektur der bisherigen Xeon-5400-Plattform
Neue Xeon-5500-Architektur mit QuickPath und integrierten Speicher-Controllern
Features der Tylersburg-EP-Plattform fuer zwei Xeon-5500-CPUs
Werden mehr PCI-Express-Schnittstellen benoetigt, lassen sich zwei Tylersburg-36D verwenden
Der Tylersburg-Chipsatz besitzt zwei QuickPath-Links
Die neue QuickPath-Schnittstelle erlaubt 6,4 Gigatransfers pro Sekunde
QuickPath ist auch fuer die Verbindung von vier und mehr Prozessoren vorgesehen
Beim Nehalem-EP sorgen die Turbo-Technologie und Hyper-Threading fuer zusaetzliche Performance

Das Topmodell Xeon X5570 der neuen 5500er Serie arbeitet mit einer Grundtaktfrequenz von 2,93 GHz. Wie bei den Core-i7-Prozessoren verfügt der Nehalem-Xeon ebenfalls über den Turbo Mode. Die im BIOS ein- und ausschaltbare Technologie erlaubt ein automatisches Übertakten der Kerne, je nach den gerade laufenden Anwendungen. Lastet ein Programm beispielsweise nur einen oder zwei Prozessorkerne aus, so erhöht der Turbo Mode die Taktfrequenz um drei „Speed Bins“. Durch die von Intel definierten 133 MHz für einen Speed Bin bearbeitet der Xeon X5570 Single- und Dual-Threads mit 3,33 GHz. Sind drei oder vier Kerne aktiv am Arbeiten, so dürfen diese um bis zu zwei Speed Bins höher takten.

Durch die Turbo Technologie reizt Intel den spezifizierten TDP-Wert des Xeon X5570 von 95 Watt aus – überschritten wird die Spezifikation nicht. Platz nimmt der Xeon 5500 im neuen Socket LGA1366. Die Kommunikation mit der zweiten CPU und mit dem Chipsatz 5500 übernimmt bei den Nehalem-Xeons das serielle QuickPath-Interface. Jeder Xeon besitzt zwei QuickPath-Interconnects: Ein Interface kommuniziert mit dem Chipsatz Intel 5520, das andere ist direkt mit der zweiten CPU verbunden. Jedes QuickPath-Interface erlaubt 6,4 GT/s beziehungsweise 12,8 GByte/s pro Richtung.

Testsysteme: Neue Tylersburg-EP-Plattform

Intels Xeon X5570 „Nehalem-EP“ testen wir in einem 2-Sockel-Server Asus RS700-E6/RS4. Der 1U-Server mit der neuen Tylersburg-EP-Plattform besitzt als Mainboard ein Asus Z8PS-D12-1U mit Chipsatz Intel 5520 und ICH10R. Jedem Prozessor steht pro Speicher-Channel ein 4 GByte Registered DIMM vom Typ Qimonda IMHH4GP12A1F1C-13H mit 1333 MHz Taktfrequenz zur Verfügung. Insgesamt besitzt das System damit 24 GByte Arbeitsspeicher – 12 GByte pro CPU mit drei Channels.

Tylerburg-EP-Plattform: Der Zwei-Sockel-Server Asus RS700-E6/RS4 dient als Testplattform für die Xeon-X5570-Prozessoren.

Um die Performance und die Energieeffizienz der Xeon-Nehalem-CPUs bestmöglich mit den Xeon-5400- und Opteron-Prozessoren vergleichen zu können, verwenden wir möglichst bauähnliche Server. Die Xeon-5400-CPUs nehmen in einem SuperServer 6025W-NTR+B von Supermicro Platz. Als Mainboard verwendet der Server ein Supermicro X7DWN+ mit Seaburg-Chipsatz. Vier FB-DIMM-Channels steuern insgesamt acht 2-GByte-Module vom Typ Nanya NT2GT72U4NB1BD-2C an. Die FB-DIMMs arbeiten bei der FSB1600-CPU Xeon E5472 mit DDR2-800-SDRAMs mit einem 5-5-5-Timing. Bei den FSB1333-Xeons steuert der Chipsatz den Speicher automatisch mit einer Geschwindigkeit von 667 MHz bei CL5 an.

AMDs Opteron 2384 „Shanghai“ und 2356 „Barcelona“ testen wir in einem 2-Sockel-Server Supermicro A+ 2021M-UR+B. Der Rack-Server verwendet als Mainboard das Supermicro H8DMU+ mit NVIDIA MCP55Pro-Chipsatz. Jedem Prozessor stehen vier gepufferte 2-GByte-DIMMs in einer Dual-Channel-Konfiguration zur Verfügung. Insgesamt verfügt der Opteron-Server somit über 16 GByte Arbeitsspeicher.

Um insbesondere für die Energiemessungen gleiche Vorraussetzungen für den AMD- und Intel-Server zu ermöglichen, arbeiten in den Systemen an der SAS/SATA-Backplane jeweils zwei SATA-RAID-Edition-Festplatten von Samsung. Somit lassen sich bestmögliche Vergleiche zwischen den Prozessoren ziehen. Jeder Server bezieht seine Energie aus zwei 700-Watt-Netzteilen (AMD-Server und Intel-Xeon-5400-System) beziehungsweise 770-Watt-Netzteilen (Intel Nehalem-EP-System).

Als Betriebssystem setzen wir Windows Server 2008 Enterprise x64 ein. Tests unter Linux erfolgen mit CentOS 5 in der 64-Bit-Version.

„Außer Konkurrenz“ führen wir bei den SPEC-Benchmarks, Finanzanalyse und Verschlüsselung noch Intels 4-Sockel-System S7000FCUR mit auf. Der Server arbeitet mit vier Xeon X7460 mit Hexa-Core-Technologie. Details zum Testsystem finden Sie in unserem Artikel Test: Erste 6-Core-CPU von Intel.

Singlethread Integer: SPECint_base2006

Wir setzen die SPEC-Benchmarks unter Windows Server 2008 Enterprise x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 10.1 und Fortran 10.1 in der 64-Bit-Version und MS Visual Studio 2005 .NET für alle Integer-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz.

Bei den Integer-Berechnungen von SPECint_base2006 arbeitet die Benchmark-Suite CPU2006 singlethreaded und nutzt die Vorteile mehrerer Kerne oder CPUs nicht aus. Die ermittelten Werte gelten als Indiz für die Performance der Prozessoren bei Ganzzahlenberechnungen.

SPECint_base2006: Bei der Single-Thread-Anwendung arbeitet der Xeon X5570 durch die Turbo-Technologie mit 3,33 GHz. Bei identischer Taktfrequenz erreicht die Nehalem-CPU eine 55 Prozent höhere Integer-Leistung als der Xeon X5470. Neben dem flinkeren Speicher und mehr Cache bei einem aktiven Core zeichnet überwiegend der Architekturfeinschliff, wie die 4fach- statt nur 3-fach superskalare Auslegung, verantwortlich.

Multitask Integer: SPECint_rate_base2006

Wir setzen die SPEC-Benchmarks unter Windows Server 2008 Enterprise x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 10.1 und Fortran 10.1 in der 64-Bit-Version sowie MS Visual Studio 2005 .NET für alle Integer-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz.

Bei den Integer-Berechnungen von SPECint_rate_base2006 ermittelt die Benchmark-Suite CPU2006 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Integer-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standardsoftware.

Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECint_rate_base2006 der Anzahl der Prozessorkerne des Systems. Bei den Zwei-Sockel-Servern mit Quad-Core-Prozessoren arbeiten acht Kopien parallel. Beim Nehalem-EP-System sind durch das zusätzliche Hyper-Threading 16 virtuelle Kerne vorhanden. Entsprechend arbeitet bei den Xeon-X5570-CPUs 16 parallele Kopien. Durch den CPU2006-Speicherbedarf von bis zu 2 GByte RAM pro Kopie erhöhen wir beim Nehalem-EP-System den Arbeitsspeicher von 24 auf 48 GByte. Durch die damit verbundenen zwei DIMMs pro Channel arbeitet der DDR3-Speicher mit 1066 statt 1333 MHz.

SPECint_rate_base2006: Sind alle Kerne der Prozessorpärchen im Einsatz, so arbeiten zwei Xeon X5570 (aktives Hyper-Threading) um 75 Prozent schneller als die 3,33-GHz-Vorgänger-Xeons - im Single-Thread-Test sind es „nur“ 55 Prozent. Mit deaktiviertem Hyper-Threading sind die Nehalem-EPs noch immer 56 flinker als die Xeon-X5470-CPUs. Die neue Systemarchitektur mit integrierten Speicher-Controllern und QuickPath skaliert sehr gut.

Beim Vorgänger Xeon 5400 mit klassischer FSB-/Chipsatz-Architektur sieht es mit der Skalierung noch deutlich schlechter aus. Arbeitet beispielsweise der Xeon X5470 im Single-Thread-Test noch 30 Prozent schneller als der Opteron 2384, bleiben im Multi-Task-Test nur noch 17 Prozent übrig. Das AMD-System ist durch die in den CPUs integrierten Speicher-Controllern und den HyperTransport-Schnittstellen bei Multi-Task/Multi-Thread-Anwendungen mit vielen Speicherzugriffen deutlich im Vorteil.

Wie sehr das Nehalem-EP-System von seiner neuen Architektur mit integrierten Speicher-Controllern und dem QuickPath-Interface profitiert, zeigt auch der Vergleich zum 4-Sockel-Server mit vier 6-Core-Xeons sehr deutlich. Trotz insgesamt 24 Kerne erreichen die vier Xeon-X7460-CPUs nur die Integer-Performance der zwei Quad-Core-Nehalems. Gerade bei massiv parallel arbeitenden Anwendungen mit Speicherbedarf skaliert die bisherige klassische Intel-Architektur mit FSBs und Speicherverkehr über den Chipsatz deutlich schlechter.

Singlethread Floating Point: SPECfp_base2006

Wir setzen die SPEC-Benchmarks unter Windows Server 2008 Enterprise x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 10.1 und Fortran 10.1 in der 64-Bit-Version sowie MS Visual Studio 2005 .NET für alle Floating-Point-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz.

Intels 10.1-Compiler bieten mit dem Switch –QxO eine offizielle SSE3-Unterstützung für „Non-Intel-Processors“ (erstmals mit Version 10.0). Mit dieser Compiler-Option führten wir die CPU2006-Benchmarks für die Opteron-Prozessoren durch. Bei den Xeon-CPUs nutzten wir das Compiler-Flag –fast. Hier wählen die Intel-Compiler automatisch die optimale Befehlssatzunterstützung.

Bei den Floating-Point-Berechnungen von SPECfp_base2006 arbeitet die Benchmark-Suite CPU2006 singlethreaded und nutzt die Vorteile mehrerer Kerne oder CPUs nicht aus. Die ermittelten Werte gelten als Indiz für die Performance der Prozessoren bei Fließkommaberechnungen.

SPECfp_base2006: Der Xeon X5570 arbeitet durch die Turbo-Technologie bei diesem Single-Thread-Test mit 3,33 GHz Taktfrequenz. Die neue Nehalem-CPU erledigt die Fließkommaberechnungen bei gleicher Taktfrequenz wie der Xeon X5470 um 97 Prozent schneller. Im Vergleich zum Integertest – hier ist der X5570 um 55 Prozent flinker – finden hier verstärkt Speicherzugriffe statt.

Beim Xeon X5570 stehen einem Kern bei dem Single-Thread-Test neben 256 KByte L2-Cache der volle 8 MByte L3-Cache zur Verfügung. Beim Vorgänger Xeon X5470 (sowie die restlichen 5400er Xeons) sind für einen Kern im Singlethread-Test nur 6 MByte Shared-L2-Cache nutzbar. Die Quad-Core-Xeons bestehen aus zwei Dual-Core-Siliziumplättchen (je 6 MByte L2-Cache) in einem Gehäuse. Ein Kern beim Nehalem-Xeon kann bei dem speicherintensiven Single-Thread-Test somit auf mehr schnellen Cache zurückgreifen. Zusätzlich besitzt der Xeon X5570 mit dem integrierten Triple-Channel-DDR3-1333-Speicher-Controller eine deutlich höhere Bandbreite und geringere Latenzzeiten als der Xeon X5470 mit über den Chipsatz angesteuerten FB-DIMMs (DDR2-667).

AMDs Opteron 2384 „Shanghai“ bietet im Vergleich zur Xeon-5400-Serie „Harpertown“ eine sehr gute Floating-Point-Performance. Dem neuen Nehalem-basierenden Xeon X5570 ist der 45-nm-Opteron jedoch ebenfalls hoffnungslos unterlegen. Hier kann die Floating-Point-Performance des K10-Cores nicht mit der Nehalem-Architektur mithalten. An der Cache-Größe (512 KByte L2-Cache pro Core, 6 MByte Shared L3-Cache) und Speicheranbindung liegt es beim Opteron-System nicht.

Multitask Floating Point: SPECfp_rate_base2006

Wir setzen die SPEC-Benchmarks unter Windows Server 2008 Enterprise x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 10.1 und Fortran 10.1 in der 64-Bit-Version sowie MS Visual Studio 2005 .NET für alle Floating-Point-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz.

Bei den Floating-Point-Berechnungen von SPECfp_rate_base2006 ermittelt die Benchmark-Suite CPU2006 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Floating-Point-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standardsoftware.

Intels 10.1-Compiler bieten mit dem Switch –QxO eine offizielle SSE3-Unterstützung für „Non-Intel-Processors“ (erstmals mit Verion 10.0). Mit dieser Compiler-Option führten wir die CPU2006-Benchmarks für die Opteron-Prozessoren durch. Bei den Xeon-CPUs nutzten wir das Compiler-Flag –fast. Hier wählen die Intel-Compiler automatisch die optimale Befehlssatzunterstützung.

Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECfp_rate_base2006 der Anzahl der Prozessorkerne des Systems. Bei den Zwei-Sockel-Servern mit Quad-Core-Prozessoren arbeiten acht Kopien parallel. Beim Nehalem-EP-System sind durch das zusätzliche Hyper-Threading 16 virtuelle Kerne vorhanden. Entsprechend arbeitet bei den Xeon-X5570-CPUs 16 parallele Kopien. Durch den CPU2006-Speicherbedarf von bis zu 2 GByte RAM pro Kopie erhöhen wir beim Nehalem-EP-System den Arbeitsspeicher von 24 auf 48 GByte. Durch die damit verbundenen zwei DIMMs pro Channel arbeitet der DDR3-Speicher mit 1066 statt 1333 MHz.

SPECfp_rate_base2006: Bei den sehr speicherintensiven Durchsatztests mit Floating-Point-Programmen enteilen die neuen Xeon X5570 den X5470er Vorgänger-CPUs um eine 123 Prozent höhere Performance. Die neue Systemarchitektur mit QuickPath-Verbindungen und integrierten Speicher-Controllern zeigt hier ihr volles Potenzial gegenüber der Vorgängerarchitektur. Im Single-Thread-FP-Test ist der Xeon X5570 „nur“ um 97 Prozent schneller.

Bereits AMDs Konzept der integrierten Speicher-Controller in Verbindung mit den HyperTransport-Schnittstellen ist gegenüber den Xeon-X5470-CPUs ebenfalls im Vorteil. Während der Xeon X5470 im Singlethread-FP-Test nur um fünf Prozent langsamer ist, liegt das Doppelpack hier aber um 18 Prozent hinter den Opteron-2384-CPUs zurück.

Wie sehr Intels klassische Systemarchitektur mit FSBs zu den CPUs und Speicher-Controller im Chipsatz im Multi-Prozessor-Systemen ist, zeigt der Vergleich mit dem Intel-4-Sockel-System. So arbeiten zwei Xeon X5570 Quad-Core-Nehalems (8 physikalische Kerne) 30 Prozent schneller als vier Xeon X7460 mit 6-Core-Architektur (24 physikalische Kerne). Beim 4-Sockel-System müssen alle Xeon X7460 über den Chipsatz kommunizieren, der Speicherzugriff zu den vier FB-DIMM-Channels erfolgt ebenfalls über den Chipsatz. Gerade bei sehr speicherintensiven Multi-Task/Thread-Szenarien wird die FSB-/Chipsatz-Architektur bei Mehrsockelsystemen zum Flaschenhals.

Um bremsende Speicherzugriffe möglichst gering zu halten, besitzt ein Xeon X7450 bereits 25 MByte Cache – trotzdem skaliert die Performance bei weitem schlechter als bei der neuen Nehalem-basierenden Systemarchitektur.

SPECjvm2008: Java Virtual Machine Performance

Mit SPECjvm2008 stellt die Standard Performance Evaluation Corporation (SPEC) einen Benchmark für die Performance von Systemen unter Java Runtime Environment (JRE) zur Verfügung. Die Evaluierungssoftware zur Ermittlung der Java-Performance wurde von SPEC in Zusammenarbeit mit AMD, Bea, Hewlett-Packard, IBM, Intel und Sun entwickelt.

Für die Performance des Systems in einer Java Virtual Machine zeigen sich neben der Wahl der Java-Engine die Prozessoren sowie die Speicherarchitektur verantwortlich. SPECjvm2008 startet eine JVM und führt einen Multithread-Workload durch. Alle Prozessorkerne eines Systems werden von SPECjvm2008 ausgenutzt.

SPECjvm2008 arbeitet mit einem Base-Run, bei dem keine speziellen Tuning-Maßnahmen durch Flags und Optimierungen erlaubt sind. Damit wird die Java-Performance der Systeme mit der installierten JVM ermittelt. Zehn verschiedene Tests wie Compilieren, Rendering, Verschlüsselung oder Komprimierung werden durchgeführt. Beim Peak-Run lassen sich für jeden Test Optimierungen für die JVM einstellen.

Wir führen SPECjvm2008 im Base-Run unter Windows Server 2008 Enterprise x64 mit der JRE Bea JRockit 6 R27 in der 64-Bit-Version durch:

Java Runtime: Die zwei Xeon X5570 liefern eine 46 Prozent höhere Java-Performance als die 3,33-GHz-Xeon-X5470-CPUs. Selbst vier Hexa-Core-Xeons setzen sich nur wenig von den neuen Nehalem-Prozessoren ab.

SPECpower: Maximale Java-Performance

SPECpower_ssj2008 ermittelt neben der Energieeffizienz bei 100 Prozent Prozessorauslastung auch die maximale Java-Performance des Systems. Als Java-Engine unter Windows Server 2008 Enterprise x64 dient Bea JRockit in der 64-Bit-Version 6 R27.

SPECpower_ssj2008 nutzt einen anderen Workload als SPECjvm2008. Außerdem arbeiten bei SPECpower_ssj2008 nicht nur eine JVM, sondern mehrere virtuelle Java-Instanzen. Bei den getesteten Vier-Sockel-Systemen sind zwei JVMs aktiv. Jede JVM agiert multithreaded mit der Anzahl der CPU-Kerne pro Sockel. Bei diesem konfigurierbaren Setup erzielt SPECpower_ssj2008 bei Zwei-Sockel-Systemen die besten Ergebnisse.

Bei diesem Test sind die Energiesparoptionen der Prozessoren aktiv, die erreichbare Performance wird durch die Vollauslastung der CPUs allerdings nicht beeinflusst.

Java-Performance: Der Workload ist speicherintensiver als bei SPECjvm2008. Das Xeon-X5570-Päärchen spielt die hohen möglichen Bandbreiten durch die QuickPath-Schnittstellen und die insgesamt sechs DDR3-Speicher-Channel noch besser gegenüber Intels klassischer Architektur aus. Entsprechend arbeiten die Xeon X5570 64 Prozent schneller als die 3,33-GHz-Xeon-X5470-CPUs.

Dass beim Java-Workload von SPECpower hohe Speicher- und Busbandbreiten von Vorteil sind, zeigen auch die Xeon E5472. Trotz nur 3,0 GHz Taktfrequenz überholen die Xeon E5472 hier die 3,33-GHz-Xeon-X5470-CPUs, weil sie mit DDR2-800-Speicher und FSB1600 arbeiten (statt DDR2-667 und FSB1333).

Die neuen Nehalem-CPUs Xeon X5570 arbeiten beim speicherintensiveren SPECpower-Workload – im Vergleich zu SPECjvm2008 – auch schneller als das 4-Sockel-System mit den Hexa-Core-Xeons. Hier zeigt sich wie bei CPU2006 eindrucksvoll, wie sehr die Intel-Prozessoren von QuickPath und den integrierten Speicher-Controllern profitieren. Mit nur acht Kernen überholt der Nehalem-Server das Xeon-X7460-System mit seinen insgesamt 24 Kernen.

SPECpower: Energieeffizienz Performance/Watt

Der Gesamtwert von SPECpower_ssj2008 steht für die Energieeffizienz des Systems. Der Benchmark gibt die gemittelte Performance pro Watt an, die über alle Lastzustände von zehn bis 100 Prozent gemessenen werden.

Um die Energiesparoptionen der Prozessoren zu nutzen, arbeitet Windows Server 2008 Enterprise x64 mit dem Energieschema „Ausbalanciert“. SpeedStep (Intel) und PowerNow! (AMD) zum dynamischen Regeln von Taktfrequenz und Core-Spannung je nach CPU-Auslastung sind bei dem SPECpower-Benchmark aktiv:

Mit Powermanagement: Der Nehalem-Server bietet mit den zwei Xeon X5570 eine um 57 Prozent höhere Energieeffizienz als das Opteron-2384-System. Gegenüber dem Vorgängersystem mit zwei Xeon X5470 bietet der Nehalem-Server sogar 100 Prozent mehr Effizienz. Wird bei den Xeon-X5570-CPUs der Turbo-Mode deaktiviert, so sinkt die Performance auf 479500 um zirka vier Prozent. Weil die CPUs ohne Turbo den TDP-Wert von 95 Watt weniger ausreizen, wird auch weniger Energie benötigt. Dadurch erhöht sich die Performance/Watt auf 983 ssj_ops/watt um zirka fünf Prozent.

Jetzt wird bei den Energieoptionen von Windows Server 2008 das Schemata „Höchstleistung“ ausgewählt. Die Prozessoren arbeiten immer mit voller Taktfrequenz und Core-Spannung. Die dynamischen Powermanagement-Funktionen SpeedStep (Intel) und PowerNow! (AMD) sind beim Schemata „Höchstleistung“ nicht aktiv.

Im folgenden Diagramm sehen Sie die Auswirkungen des deaktivierten CPU-Powermanagements auf die Energieeffizienz der Systeme:

Ohne Powermanagement: Mit inaktivem SpeedStep reduzieren die zwei Xeon X5570 die Systemeffizienz um knapp zwei Prozent. Beim Opteron-2384-System verschlechtert sich ohne PowerNow! die Effizienz um knapp drei Prozent.

SPECpower: Kurven Energieeffizienz

Der Energieeffizienz-Benchmark SPECpower_ssj2008 ermittelt für jeden Lastzustand von zehn bis 100 Prozent die Performance/Watt-Werte der Systeme. Hier zeigt sich: Je höher die Prozessorauslastung, desto besser die Energieeffizienz des gesamten Systems.

In den Diagrammen wird die Performance pro Watt von zehn bis 100 Prozent in den roten Balken dargestellt. Die blaue Kurve zeigt zusätzlich den Energieverbrauch des Systems bei der entsprechenden Prozessorauslastung an. Links in den Bildern sehen Sie jeweils die Ergebnisse mit aktivem Prozessor-Powermanagement, rechts bei inaktivem SpeedStep (Intel) oder PowerNow! (AMD):

Xeon X5570 / 2,93 GHz / DDR3-1333 / 95 Watt: Bei 20 bis 30 Prozent Prozessorlast arbeitet SpeedStep beim Nehalem-Xeon mit effizientesten. Der CPU-Energiesparmodus erhöht in diesem Lastbereich die Energieeffizienz des Systems um fünf bis sechs Prozent.
Xeon X5470 / 3,33 GHz / 120 Watt: Besonders im Teillastbereich von 20 bis 50 Prozent Prozessorauslastung steigert SpeedStep die Energieeffizienz des Servers um bis zu zehn Prozent. Unter sehr hoher Last (ab 70 Prozent) bewirkt SpeedStep nur noch sehr wenig.
Xeon E5472 3,0 GHz 80 Watt TDP: Die Energieeinsparungen im Teillastbereich sind bei dem FSB1600-Modell mit SpeedStep ein wenig geringer als beim Xeon X5470, der das neuere E-Stepping besitzt.
Xeon L5430 / 2,66 GHz / 50 Watt: Die blau gekennzeichnete Energiekurve zeigt beim Low-Voltage-Xeon fast einen identischen Verlauf. Entsprechend sind die Performance/Watt-Werte mit und ohne SpeedStep hier sehr ähnlich. Durch geringe Unterschiede in der Core-Spannung und Taktfrequenz (zwischen 2,0 und 2,66 GHz) bewirkt SpeedStep beim Low-Voltage-Xeon wenig.
Opteron 2384 / 2,7 GHz / DDR2-667 / 75 Watt: Liegen nur zehn Prozent Last an, so erhöht PowerNow! die Energieeffizienz des Systems um acht Prozent. Bis hoch zu 70 Prozent erwirkt PowerNow! noch zwei Prozent mehr Effizienz.
Opteron 2356 / 2,3 GHz / DDR2-667 / 75 Watt: AMDs PowerNow!-Technologie sorgt bei dem 65-nm-Opteron bis hoch zu 70 Prozent Auslastung für eine Effizienzsteigerung. Darüber bricht die Performance mit PowerNow! leicht ein. Insgesamt sorgt die Stromspartechnologie aber für zwei Prozent mehr Effizienz.

SPECpower: Maximaler Energieverbrauch

SPECpower_ssj2008 ringt dem Testsystem im Lastzustand 100 Prozent den maximalen Energieverbrauch ab. Alle Kerne der Prozessoren sind voll ausgelastet. Die aktiven JVMs fordern zusätzlich den Arbeitsspeicher der Systeme.

Verbrauchsarm: Unter Volllast liegt der Energiebedarf des Nehalem-Servers auf dem Niveau der Xeon-5400-Systeme. Die Xeon X5570 reizen durch den Turbo-Mode ihren TDP-Wert von 95 Watt aus. Wird der Turbo-Mode deaktiviert, so benötigt der Nehalem-Server nur noch 325 statt 361 Watt. Damit liegt das System unterhalb dem Wert des Servers mit den zwei Xeon L5430 mit 50 Watt TDP. Beim Nehalem-Server macht sich der Verzicht auf stromhungrige FB-DIMM-Technologie positiv bemerkbar. Am sparsamsten mit der Energie hantieren immer noch die Opteron-Server.

Intels 4-Sockel-Server mit Xeon-X7460-CPUs benötigt unter Volllast mit 786 Watt bis zu doppelt soviel Energie wie die 2-Sockel-Server. Im Vergleich zum Nehalem-2-Sockel-Server erreicht das 24-Kerne-System aber keine höhere Performance beim hier agierenden Java-Workload. Entsprechend fällt das 4-Sockel-System in der Energieeffizienz weit zurück.

SPECpower: Minimaler Energieverbrauch

SPECpower_ssj2008 führt neben den Lasttests zusätzlich Kalibrierungsmessungen über den Energieverbrauch bei Leerlauf durch. Dabei wird der minimale Energiebedarf des Systems ermittelt.

Im folgenden Diagramm vergleichen wir den Systemverbrauch unter Windows Server 2008 Enterprise x64 mit dem Energie-Schemata „Ausbalanciert“. Die Prozessoren nutzen ihre Powermanagement-Features SpeedStep (Intel) und PowerNow! (AMD) aus:

Mit Powermanagement: Liegt unter Volllast der Energiebedarf des Xeon-X5570-Server noch über dem des Opteron-2384-Systems, zeigt es sich im Leerlauf genügsamer. Bemerkenswert ist auch der deutlich geringere Energiebedarf des Nehalem-Servers im Vergleich zum Vorgängersystem mit Xeon-5400-CPUs. Unter Last liegen die 2-Sockel-Intel-Systeme noch auf einem ähnlichem Niveau.

Jetzt wird bei den Energieoptionen von Windows Server 2008 das Schemata „Höchstleistung“ ausgewählt. Die dynamischen Powermanagement-Funktionen SpeedStep (Intel) und PowerNow! (AMD) sind beim Schemata „Höchstleistung“ nicht aktiv:

Ohne Powermanagement: Im Leerlauf steigt bei den Nehalem-Xeons der Energiebedarf ohne SpeedStep lediglich um 2 Watt. Bei den Xeon-X5470-CPUs sowie den Opterons-2384-Modellen erhöht sich der Energiebedarf im Leerlauf ohne Powermanagement um 14 beziehungsweise 15 Watt.

1 vs. 2 Netzteile: Effizienz und Verbrauch

Die getesteten 2-Sockel-Server sind jeweils mit zwei redundant ausgelegten Netzteilen ausgestattet. Wird ein Netzteil rausgezogen, so läuft der Server mit dem verbleibenden Netzteil problemlos weiter. Mit zwei Netzteilen lässt sich die Ausfallsicherheit des Servers deutlich erhöhen. Die Netzteile können zur weiteren Sicherheit auch an verschiedenen Stromkreislaufen angeschlossen werden.

Beim 2-Sockel-Server Asus RS700-E6/RS4 mit den Nehalem-CPUs Xeon X5570 arbeiten zwei 770-Watt-Netzteile mit 80+ Spezifikation. In der Tabelle zeigen wir die mit SPECpower ermittelten Energieaufnahmen und Performance/Watt-Werte des Servers im Betrieb mit einem und mit zwei Netzteilen:

Energieaufnahme und Effizienz Nehalem-Server

Xeon-X5570-Server

1 Netzteil im Betrieb

2 Netzteile im Betrieb

Energieaufnahme Leerlauf

115

155

Energieaufnahme Volllast

341

361

SPECpower Performance/Watt

1032

932

Wird auf ein Netzteil verzichtet, so benötigt der Nehalem-Server im Leerlauf 26 und unter Volllast sechs Prozent weniger Energie. Die Performance pro Watt des Servers erhöht sich um elf Prozent, wenn nur ein Netzteil verwendet wird.

Analyse: SunGard ACR

SunGards Adaptiv Credit Risk 4.0 ist ein Analysetool für den Finanzbereich. Basierend auf modifizierten Monte-Carlo-Simulationen berechnet das Programm den künftigen Wert einer Anlage auf Basis vorhandener Marktdaten.

SunGards Adaptiv Credit Risk wurde in C# für Microsofts .NET-Umgebung programmiert. Spezielle Mathematik-Bibliotheken wie Intels MKL oder AMDs Core Math Library ACML verwendet Adaptiv Credit Risk nicht. Das Analysetool arbeitet multithreaded und unterstützt Multiprozessor-Systeme optimal. SunGard rechnet überwiegend mit Integer-Operationen. Speicherzugriffe halten sich bei Adaptiv Credit Risk in Grenzen.

Schnelle Vorhersagen: Die zwei neuen Nehalem-Xeons arbeiten 36 Prozent flinker als die 3,33-GHz-X5470-Modelle. Das 4-Sockel-System mit Xeon-X7460-CPUs setzt sich von den neuen Xeon-X5570-Modellen ab, weil sich Speicherzugriffe in Grenzen halten. Alle Xeon-Prozessoren sind durch ihre hohe Integer-Performance für die Opteron-2384-CPUs nicht in Reichweite.

Linpack 64 Bit

Linpack dient als verbreitetes Tool zum Ermitteln der Floating-Point-Performance von Highend-Computern. Das Ergebnis wird in Flops (Fließkomma-Operationen pro Sekunde) angegeben.

Linpack löst komplexe lineare Gleichungssysteme. Die Anzahl der Gleichungen lässt sich dabei stark erhöhen, um auch massiv parallel operierende Systeme unter Last zu setzen. Der Bedarf an Arbeitsspeicher wächst entsprechend mit. Die Speicherzuweisung erfolgt über eine Matrix-Berechnung. Size x LDA x 8 (Anzahl der Gleichungen x Input x 8 bit) ergibt den zu allokierenden Speicher.

Unter Linux 64 Bit setzen wir die 64-Bit-Version von Linpack 2.1.2 ein. Der SMP-fähige Benchmark setzt EMT64-Prozessoren mit SSE3-Unterstützung voraus. AMDs Opteron-Prozessoren mit SSE3 arbeiten unter Linux ebenfalls problemlos mit der von Intel-Compilern erstellten Linpack-Version zusammen.

Bei unseren Tests löst Linpack in verschiedenen Durchläufen 5000, 10.000, 15.000, 18.000, 22.000 und 27.000 Gleichungssysteme. Damit benötigt der Benchmark zwischen 190 MByte (5000 Gleichungssysteme) und zirka 5,4 GByte Arbeitsspeicher (27.000 Gleichungssysteme). Im Diagramm finden Sie die von den Prozessoren maximal erreichten GFlops.

Überraschung: Die Matrixberechnungen bei Linpack zählen schon immer zu einer Paradedisziplin für Opteron-Prozessoren. Entsprechend kann sich hier das Nehalem-Päärchen erstmalig nicht vom Opteron 2384 absetzen.

Encryption/Decryption: openSSL 64 Bit

Die Leistungsfähigkeit der Prozessoren beim Verschlüsseln und Entschlüsseln von Daten unter Linux 64 Bit ermittelt das Open-Source-Programm openSSL in der 64-Bit-Version 0.9.8b. Der Code von openSSL ist single threaded programmiert. Durch den Start von multiplen Kopien summiert openSSL die Performance beim Verschlüsseln und Entschlüsseln von Daten.

Wir testen die Prozessoren bei openSSL mit dem RSA-Schlüssel und einer Schlüssellänge von 2048 Bit. Der synthetische Benchmark gibt einen guten Anhaltspunkt für die Geschwindigkeit der Prozessoren beim Verschlüsseln und Entschlüsseln von Daten. Spezielle, für die CPU-Architekturen optimierte Mathematik-Bibliotheken kommen beim mit gcc kompilierten openSSL-Benchmark nicht zum Einsatz.

RSA-2048 Encryption: Der Test läuft überwiegend im Cache ab. Die 2-Sockel-Konkurrenz hat das neue Xeon-X5570-System wieder im Griff. Nur Intels 4-Sockel-Server mit Hexa-Core-Xeons spielt hier erstmals deutlich seine Rechen-Power aus - bremsende Speicherzugriffe sind vernachlässigbar. Die Opteron 2384 mit 2,7 GHz platzieren sich vor dem Xeon X5470 mit 3,33 GHz Taktfrequenz.
RSA-2048 Decryption: Auch das Entschlüsseln erledigen die Nehalem-basierenden Xeon X5570 bei 2-Sockel-Systemen mit dem höchsten Durchsatz.

Rendering: SPECapc 3ds Max 2009 x64

Discreet/Autodesk bietet mit 3ds Max 2009 x64 eine professionelle Software für 3D-Modelling, Animation und Rendering an. Bei den Render-Vorgängen nutzt 3ds Max 9 2009 x64 Multiprocessing voll aus. Die Multi-Core-Technologie sowie ein zweiter Prozessor wirken somit beschleunigend.

Die gewählten Render-Szenen „Space Flyby“ und „Underwater“ basieren auf der Benchmark-Suite SPECapc for 3ds Max von SPEC.org. Die Grafikkarten-Performance spielt beim Rendering keine Rolle, die OpenGL/DirectX-basierten Tests der SPECapc-Suite verwenden wir nicht.

Szene „Space Flyby“: Der Render-Workload passt überwiegend in die Caches der Prozessoren. Von QuickPath und den integrierten Speicher-Controllern profitieren die Xeon X5570 somit weniger. Dennoch liegen die Nehalem-Xeons mit 11 Prozent mehr Performance vor den 3,33-GHz-Xeon-X5470-CPUs.
Szene Underwater: Bei diesem Render-Workload ändert sich an den prozentualen Abständen zwischen den Xeon-CPUs wenig. Die Opteron-2384-Prozessoren arbeiten jetzt allerdings um 26 statt nur zwei Prozent langsamer als zwei Xeon L5430. Die Puffergrößen von 512 KByte L2-Cache pro Kern und 6 MByte shared L3-Cache des 45-nm-Opterons reichen jetzt für den Workload nicht mehr aus. Die Xeon-L5430-Modelle mit 12 MByte L2-Cache halten den Workload besser im Puffer.

Auf Intels 4-Sockel-Server mit Xeon-X7460-CPUs lässt sich der Rendering-Test mit 3ds Max 2009 nicht durchführen. Die Rendering-Engine des Programms unterstützt maximal 16 CPU-Kerne. Beim Start von 3ds Max 2009 auf dem 4-Sockel-Server mit seinen 24 Cores erfolgt eine Fehlermeldung der Engine.

Rendering: CINEBENCH 10 64 Bit

Mit dem CINEBENCH 10 stellt Maxon die aktuelle Version des bekannten Benchmark-Tools bereit. CINEBENCH 10 basiert auf Cinema 4D Release 10 und führt wieder Rendering-Tests durch. Maxon bietet CINEBENCH 10 als 32- und 64-Bit-Version zum Download an.

Beim Render-Teset wird eine fotorealistische 3D-Szene mithilfe des Cinema-4D-Raytracers berechnet. Die Szene enthält unter anderem Lichtquellen, Schatteneffekte sowie Multi-Level-Reflektionen. Bei dem FPU-lastigen Test spielt die Leistungsfähigkeit der Grafikkarte keine Rolle. Auch höhere Speicher- und FSB-Bandbreiten nutzen beim Rendering von CINEBENCH 10 wenig – der Test läuft überwiegend in den Cache-Stufen ab.

1 Thread: Beim Rendering wird jetzt nur ein Prozessorkern verwendet – Multi-Core nutzt hier nichts. Durch die Turbo-Technologie arbeitet der Xeon X5570 hier mit 3,33 GHz Taktfrequenz. Bei gleicher Taktfrequenz im Vergleich zum Xeon X5470 erledigt die Nehalem-CPU das Rendering um acht Prozent flinker.
Alle Threads: Jetzt nutzt CINEBENCH alle verfügbaren Prozessorkerne. Die Nehalem-Xeons sind jetzt 26 Prozent schneller als das Xeon-X5470-Duett – bei einem Thread sind es nur acht Prozent. Intels Xeon X5570 profitiert hier stark von Hyper-Threading.

Die Rendering-Engine von Cinema 4D Release 10 unterstützt maximal 16 parallele Threads. Intels 4-Sockel-Server mit Xeon-X7460-CPUs bietet jedoch 24 Kerne. Der Rendering-Test lastet somit die vier Hexa-Core-Xeons nicht voll aus.

Fazit

Intel agiert mit den neuen Xeon-5500-Prozessoren mit Nehalem-Archtitektur bei 2-Sockel-Servern jetzt in einer eigenen Liga. Die komplett neue Plattform bietet im Vergleich zum Vorgänger mit Xeon-5400-CPUs und AMDs Opteron-System teilweise die doppelte Performance und Energieeffizienz.

Bereits bei Single-Thread-Anwendungen – die in Servern selten sind – setzt sich das neue Topmodell Xeon X5570 durch sein Architektur-Feintuning deutlich vom Xeon X5470 und AMDs Shanghai-CPU Opteron 2384 ab. Zusätzlich profitiert der Nehalem-Xeon hier von seiner Turbo-Technologie. Statt mit der Grundtaktfrequenz von 2,93 GHz werden Single-Threads mit 3,33 GHz abgearbeitet.

Sein beeindruckendes volles Potenzial zeigt der Xeon X5570 jedoch bei Multi-Thread-Anwendungen und Multi-Task-Szenarien mit hohem Speicherbedarf – typischen Server-Workloads. Der Vorteil des in der CPU integrierten Triple-Channel-Speicher-Controllers und der QuickPath-Schnittstellen hievt die Performance oft um den Faktor zwei in die Höhe. Der Nachteil der bisherigen „klassichen“ FSB-/Chipsatz-Architektur der Xeon-5400-Plattform wird besonders deutlich. Doch selbst AMDs Direct Connect Architektur – die bereits seit Jahren auf integrierte Speicher-Controller und schnelle HyperTransport-Interconnects setzt – bleibt gegenüber den Nehlamen-Xeons chancenlos.

In speicherintensiven Szenarien muss sich selbst Intels 4-Sockel-System mit Hexa-Core-Xeons geschlagen geben. Diese 6-Core-Xeons kommunizieren jedoch alle „klassisch“ über den Chipsatz – auch mit dem Arbeitsspeicher. Selbst die immensen 25 MByte Cache pro Xeon X7460 kompensieren nicht den Nachteil der langsamen Speicherzugriffe über den Chipsatz. Der direkte Vergleich des 2-Sockel-Nehalem-Servers mit Intels 4-Sockel-System lässt sich jedoch nicht nur auf die Performance reduzieren. Beim 4-Sockel-System mit Xeon-7400-Prozessoren liegt der Fokus auch auf Hochverfügbarkeit durch zusätzliche RAS-Features und höherem möglichen Speicherausbau.

Besonders bitter für die Konkurrenz ist, dass die neue Xeon-Nehalem-Plattform neben der ausgezeichneten Performance auch noch mit der besseren Energieeffizienz aufwartet. So bietet unser getesteter 2-Sockel-Server mit Xeon-X5570-CPUs eine 57 Prozent höhere Performance pro Watt als das bereits sehr effiziente bauähnliche System mit AMDs Opteron-2384-Prozessoren. Das neue Nehalem-System erreicht gegenüber der bisherigen Xeon-Plattform mit Xeon-X5470-CPUs sogar die doppelte Performance pro Watt.

Intel merzte mit seiner Xeon-5500-Plattform alle Schwachpunkte des Vorgängers komplett aus. Auch die lange als fortschrittliche Technologie deklarierten FB-DIMM-Speicher gehören der Vergangenheit an. AMD muss hoffen, mit den Mitte 2009 erwarteten 6-Core-Opterons „Istanbul“ wieder halbwegs konkurrieren zu können. Sonst bleibt nur noch der schmerzliche Schritt, durch Preissenkungen wieder an Attraktivität zu gewinnen. (cvi)