Intel stellt 15 neue Penryn-Xeons vor

Test: Intel Xeon 45-nm-Quad-Core: die neue Xeon-Generation Harpertown

11.11.2007 von Christian Vilsbeck
Test des Intel Xeon 5400 „Harpertown“ - der erste Xeon-Prozessor mit der neuen 45-nm-Penryn-Architektur. Intels Xeon Quad-Core-CPU soll mit bis zu 3,2 GHz Taktfrequenz, 12 MByte L2-Cache, SSE4 und FSB1600 den AMD K10-Opteron auf Distanz halten.

Intels 5300er Quad-Core-Xeons hatten in Systemen mit einem oder zwei Prozessoren seit ihrer Vorstellung im November 2006 leichtes Spiel. Der per se bekanntermaßen schnellen Core-Architektur konnte AMD mit den K8-Opterons nur noch wenig entgegensetzen. Vor allem fehlte es dem Intel-Konkurrent lange an Quad-Core-Opterons.

Doch seit 10. September 2007 ist AMD mit einem Schlag wieder konkurrenzfähig. Die neue K10-Architektur merzt Schwachstellen bisheriger Opterons aus. Besonders in speicherintensiven Anwendungen setzen die K10-Quad-Core-Opterons mit nur 2,0 GHz Taktfrequenz sogar Intels bisherige 3,0-GHz-Xeons auf 65-nm-Basis zu. Hier offenbaren sich die Schwächen des Intel-Konzepts. Im 2-Sockel-Betrieb überfordern die vier Kerne pro CPU bereits den FSB1333, und der 8 MByte L2-Cache „weiß nicht mehr“, welche Daten er nun halten soll.

Xeon E5472 „Harpertown“: Der Quad-Core-Prozessor für den Sockel LGA771 setzt auf Intels 45-nm-Penryn-Architektur. Die 3,0-GHz-CPU besitzt 12 MByte L2-Cache und arbeitet mit einem FSB1600.

Um auch in sehr speicherintensiven Szenarien wie Virtualisierung oder aufwändigen HPC-Anwendungen eine führende Performance bieten zu können, peppt Intel seine Xeons gehörig auf. Die neue 45-nm-Penryn-Architektur soll Schwachpunkte ausmerzen und neue Akzente setzen. Dringend notewendig ist ein schnellerer Prozessorbus, statt mit 1333 arbeitet die Xeon-5400-Serie „Harpertown“ mit 1600 MHz. Und der L2-Cache der Quad-Core-CPU wurde von 8 auf 12 MByte aufgestockt.

Fließkommaberechnungen soll der neue SSE4-Befehlssatz gehörig auf die Sprünge helfen. Und Architekturfeinschliff wie Fast Radix-16 und Super Shuffle lassen der CPU Zahlenspiele noch einfacher von der Hand gehen lassen. Zu guter letzt bietet Intel die neue Xeon-5400-Serie zum Launch mit bis zu 3,2 GHz Taktfrequenz an.

Im TecChannel-Testlabor testen wir Intels neuen Xeon E5472 „Harpertown“ mit 3,0 GHz Taktfrequenz. Wir vergleichen die 45-nm-CPU im 2-Sockel-Betrieb gegen das bisherige ebenfalls mit 3,0 GHz arbeitende Topmodell Xeon X5365 – die Unterschiede werden deutlich. Außerdem zeigen wir im Vergleich die Performance von AMDs Quad-Core-Opterons.

Details zum Quad-Core-Xeon „Harpertown“

Intel bietet die Penryn-Architektur in den Quad-Core-Xeon-Prozessoren mit Taktfrequenzen bis 3,2 GHz und einen von 1333 auf 1600 MHz erhöhten FSB anbieten. Die Penryn-Quad-Core-Xeons mit dem Code-Namen „Harpertown“ gibt es zum Start in Versionen mit 80, 120 und 150 Watt TDP. Dual-Core-Penryn-Xeons „Wolfdale DP“ spezifiziert Intel mit 65 und 80 Watt TDP. Die Harpertown-CPUs gehen als Xeon-5400-Serie an den Start. Für die 45-nm-Dual-Core-Varianten reserviert Intel die 5200er Prozessornummern.

Zweimal mal zwei: Intel baut seine zweite Quad-Core-Generation ebenfalls aus zwei Dual-Core-Siliziumplättchen auf. Je zwei Kernen stehen 6 MByte L2-Cache zur Verfügung. (Quelle: Intel)

Beim Xeon 5400 platziert Intel weiterhin zwei Dual-Core-Siliziumplättchen in einem Gehäuse. Jedem Dual-Core-Die steht ein von 4 auf 6 MByte vergrößerter L2-Cache zur Verfügung. Insgesamt besitzt der 45-nm-Quad-Core-Xeon nun 12 MByte L2-Cache. Ein Xeon 5400 ist aus 820 Millionen Transistoren aufgebaut. Intels 65-nm-Xeon „Clovertown“ mit 8 MByte L2-Cache begnügt sich noch mit 681 Millionen Transistoren. Die Die-Fläche des Harpertown schrumpfte dagegen: Pro Dual-Core-Die sind 107 mm² notwendig, beim Clovertown sind es trotz weniger Cache noch 143 mm².

Neben der Strukturbreite von 45 nm und dem größerem Cache zählt der neue SSE4-Befehlssatz zur auffälligsten Neuerung des Xeon Harpertown. Die insgesamt 47 neuen Befehle sollen vektorbasierende Compiler, Enkodieren von Videos, Bildverarbeitung, Spiele, Textverarbeitung sowie Serverapplikationen beschleunigen.

Architekturerweitungen wie Super Shuffle für SSE-Daten sowie der Fast Radix-16 Divider sollen für ein zusätzliches Geschwindigkeitsplus sorgen.

Größenvergleich: Trotz fast doppelter Transistoranzahl benötigt der 45-nm-Harpertown insgesamt weniger als die halbe Siliziumfläche im Vergleich zu AMDs Quad-Core-Opteron. (Quelle: Intel)

Alle Details zur 45-nm-Penryn-Architektur lesen Sie bei TecChannel im Artikel AMD-K10-Gegener: Intels 45-nm-Penryn-CPUs mit SSE4.

45-nm-Xeon-Modelle im Überblick

Intel bietet die Penryn-Architektur in den Quad-Core-Xeon-Prozessoren zum Start mit Taktfrequenzen von 2,0 bis 3,2 GHz an. Die Modelle Xeon E5405 (2,0 GHz) bis E5450 (3,0 GHz) arbeiten mit einem FSB1333. Beim Xeon E5462 bis X5482 kennzeichnet die „2“ am Ende der Modellnummer den schnelleren FSB1600.

Die zum Start verfügbaren Dual-Core-Penryn-Xeons „Wolfdale DP“ spezifiziert Intel mit zu 65 und 80 Watt TDP. Als Einstiegsmodell fungiert der Xeon E5205 mit 1,86 GHz Taktfrequenz und einem FSB1066. Als schnellster Wolfdale DP preist Intel den Xeon X5272 mit 3,40 GHz Taktfrequenz und FSB1600 an. Allen Zweikernern gemein sind ein 6 MByte großer L2-Cache sowie der gewohnte LGA771-Steckplatz.

In der Tabelle finden Sie alle von Intel am 11. November 2007 vorgestellten neuen Xeon-Prozessoren mit Penryn-Architektur:

Intels neue 45-nm-Xeons im Überblick

Prozessor

Taktfrequenz [GHz]

FSB [MHz]

L2-Cache

Kerne

TDP [Watt]

Xeon X5482

3,20

1600

2 x 6 MByte

4

150

Xeon X5472

3,00

1600

2 x 6 MByte

4

120

Xeon E5472

3,00

1600

2 x 6 MByte

4

80

Xeon E5462

2,80

1600

2 x 6 MByte

4

80

Xeon X5460

3,16

1333

2 x 6 MByte

4

120

Xeon X5450

3,00

1333

2 x 6 MByte

4

120

Xeon E5450

3,00

1333

2 x 6 MByte

4

80

Xeon E5440

2,83

1333

2 x 6 MByte

4

80

Xeon E5430

2,66

1333

2 x 6 MByte

4

80

Xeon E5420

2,50

1333

2 x 6 MByte

4

80

Xeon E5410

2,33

1333

2 x 6 MByte

4

80

Xeon E5405

2,00

1333

2 x 6 MByte

4

80

Xeon X5272

3,40

1600

6 MByte

2

80

Xeon X5260

3,33

1333

6 MByte

2

80

Xeon E5205

1,86

1066

6 MByte

2

60

Neue Chipsätze für FB-DIMMs und DDR2

Für den schnelleren FSB1600 benötigen die 45-nm-Xeon-Modelle den neuen Seaburg-Chipsatz der ebenfalls neuen Stoakley-Plattform. Optimiert für die Quad-Core-Prozessoren wie dem Harpertown mit 12 MByte L2-Cache ist ein vergrößerter Snoop-Filter des Seaburg-Chipsatzes.

Dieser Puffer im Chipsatz soll Traffic aus dem Bus filtern und somit die FSB-Auslastung reduzieren. Der Snoop-Filter speichert Tags und den Coherency-Status aller Cache-Lines, die mit dem Hauptspeicher kohärent sind. Damit optimiert der Snoop-Filter die Effizienz und Auslastung der FSBs. Daten werden im Snoop-Filter des Chipsatzes nicht gespeichert. Die Snoop-Filter-Größe wird auf die Cache-Größe der Quad-Core-CPUs optimiert.

Intels Stoakley-Plattform verwaltet bis zu 128 GByte FB-DIMM-Speicher an. Damit verdoppelt der Hersteller den adressierbaren Speicher gegenüber der Vorgänger-Plattform Bensley. Außerdem steuert Stoakley den DDR2-Speicher der vier FB-DIMM-Channels mit einer von 667 auf 800 MHz gesteigerten Taktfrequenz an. Damit erreicht Stoakley eine theoretische Speicher-Bandbreite von 25,6 statt 21 GByte/s (1000er Basis).

Neuigkeiten vermeldet die Stoakley-Plattform bei der Virtualisierung. Mit Unterstützung von Virtualization Technology for Directed I/O (VT-d ) bietet Stoakley Hardware-Unterstützung für die Zuweisung von I/O-Geräten an virtuelle Maschinen oder Partitionen. Die VT-d-Technologie soll die Performance und Zuverlässigkeit von Datenbewegungen in einer virtualisierten Umgebung verbessern. Ebenso unterstützt die Plattform PCI Express der zweiten Generation.

Für günstige 2-Sockel-Plattformen offeriert Intel zusätzlich den neuen 5100 Chipsatz mit Code-Namen „San Clemente“. Damit ermöglicht der Hersteller Systeme mit „normalen“ DDR2-Speichermodulen. Der Chipsatz unterstützt einen FSB1066/1333 und arbeitet im Gespann mit dem ICH9R.

Testvorbetrachtung

Für den Test der Xeon- und Opteron-Prozessoren standen uns verschiedenen Systeme zur Verfügung. Die 2-Sockel-Server unterscheiden sich vor allem in der Auslegung der Netzteile sowie der Storage-Anbindung.

Bei unserer ersten Performance-Analyse des Xeon Harpertown und der konkurrierenden Prozessoren haben wir deshalb bewusst nur Benchmarks gewählt, die vom Storage-Subsystem unabhängig sind und die Workloads sich im Arbeitsspeicher halten.

FSB1600-Prozessor: Intels 45-nm-Harpertown arbeitet mit einem FSB1600 und benötigt die für den Launch vorgesehene Stoakley-Plattform. Dessen neuer Seaburg-Chipsatz unterstützt FSB1600-CPUs sowie FB-DIMM-Speicher mit bis zu 800 MHz Taktfrequenz.

Um beim Arbeitsspeicher möglichst gleiche Vorraussetzungen zu erreichen, kommen jeweils 16 GByte DDR2-SDRAM zum Einsatz. Die Stoakley-Plattform bietet mit den 45-nm-FSB1600-Harpertowns eine Speichergeschwindigkeit von 800 MHz. Intels Xeon-5300-Serie mit FSB1333 arbeiten in der aktuellen Bensley-Plattform mit DDR2-667-FB-DIMMs.

Die Stoakley-Sample-Plattform unterstützt neben den 45-nm-FSB1600-Prozessoren auch die aktuellen 65-nm-Xeons. Um die Performance-Unterschiede des 3,0-GHz-Harpertown (Xeon E5472 45 nm) gegenüber den 3,0-GHz-Clovertown (Xeon X5365 65 nm) herauszustellen, haben wir den X5365 zusätzlich in der Stoakley-Plattform getestet. Der FB-DIMM-DDR2-800-Speicher wird beim Einsatz des FSB1333-Xeon allerdings mit 667 MHz angesteuert – 800 MHz sind den 45-nm-FSB1600-CPU vorbehalten.

Als Betriebssystem setzen wir Windows Server 2003 R2 x64 ein. Beim Linux-Betriebssystem CentOS 5.0 kommt ebenfalls die 64-Bit-Version zum Einsatz. Weitere Details zu den Testsystemen finden im Abschnitt „Testplattform Opteron- & Xeon-CPUs“ am Ende des Artikels.

CPU2006 Integer: SPECint_rate_base2006

Wir setzen die SPEC-Benchmarks unter Windows Server 2003 R2 x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 10.0 und Fortran 10.0 in der 64-Bit-Version und MS Visual Studio 2005 .NET für alle Integer-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz.

Bei den Integer-Berechnungen von SPECint_rate_base2006 ermittelt die Benchmark-Suite CPU2006 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Integer-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standard-Software.

Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECint_rate_base2006 der Anzahl der Prozessorkerne des Systems.

SPECint_rate_base2006: Die Xeon E5472 erzielen einen 15 Prozent höheren Integer-Durchsatz als die ebenfalls mit 3,0 GHz Taktfrequenz arbeitenden Xeon X5365. Neben dem größerem L2-Cache profitieren die 45-nm-Xeons von ihrem FSB1600 in Verbindung mit dem schnelleren DDR2-800-Speicher. Dass der Xeon X5365 in der Stoakley-Plattform schneller ist als im Bensley-Server, liegt am Seaburg-Chipsatz. Dessen 64 MByte fassender Snoop-Filter ist für Quad-Core-Prozessoren optimiert.

CPU2006 Floating Point: SPECfp_rate_base2006

Wir setzen die SPEC-Benchmarks unter Windows Server 2003 R2 x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 10.0 und Fortran 10.0 in der 64-Bit-Version und MS Visual Studio 2005 .NET für alle Floating-Point-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz.

Bei den Floating-Point-Berechnungen von SPECfp_rate_base2006 ermittelt die Benchmark-Suite CPU2006 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Floating-Point-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standard-Software.

Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECfp_rate_base2006 der Anzahl der Prozessorkerne des Systems. Bei acht Kernen wie in den getesteten 2-Sockel-Systemen sind 16 GByte Arbeitsspeicher für SPECfp_rate_base2006 notwendig.

SPECfp_rate_base2006: Bei den sehr speicherintensiven Durchsatztests mit Floating-Point-Programmen setzt sich der Xeon E5472 ebenfalls mit 15 Prozent mehr Performance vom Xeon X5365 in der Stoakley-Plattform ab. AMDs Quad-Core-Opterons 8350 überzeugen mit einer beeindruckenden Performance. Mit nur 2,0 GHz Taktfrequenz überholen die Barcelonas Intels Xeon X5365 in der aktuellen Bensley-Plattform. Bei dem sehr speicherlastigen Benchmark zeigt sich die Überlegenheit des Konzepts der integrierten Speicher-Controller in Verbindung mit den HyperTransport-Schnittstellen.

Intels 10.0-Compiler bieten mit dem Switch –QxO erstmals eine offizielle SSE3-Unterstützung für „Non-Intel-Processors“. Mit dieser Compiler-Option führten wir die CPU2006-Benchmarks für die Opteron-Prozessoren durch. Bei den Xeon-CPUs nutzten wir das Compiler-Flag –fast. Hier wählen die Intel-Compiler automatisch die optimale Befehlssatzunterstützung.

CPU2000 Integer: SPECint_rate_base2000

Wir setzen die SPEC-Benchmarks unter Windows Server 2003 R2 x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 9.1 und Fortran 9.1 in der 32-Bit-Version und MS Visual Studio 2005 .NET für alle Integer-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz.

Bei den Integer-Berechnungen von SPECint_rate_base2000 ermittelt die Benchmark-Suite CPU2000 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Integer-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standard-Software.

Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECint_rate_base2000 der Anzahl der Prozessorkerne des Systems.

SPECint_rate_base2000: Der Harpertown profitiert hier hauptsächlich von seinem größerem L2-Cache sowie dem Architektur-Tuning wie dem FastRadix-16 Divider. Der Speicherbedarf ist bei dem Ganzzahlen-Benchmark nicht besonders hoch. Der schnellere FSB1600 und der DDR2-800-Speicher sind deswegen nicht hauptverantwortlich für das Geschwindigkeitsplus.

Offizielle Ergebnisse von CPU2000 werden seit dem 24.02.2007 vom SPEC-Konsortium nicht mehr publiziert. Seit August 2006 gibt es den Nachfolger CPU2006.

CPU2000 Floating Point: SPECfp_rate_base2000

Wir setzen die SPEC-Benchmarks unter Windows Server R2 2003 x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 9.1 und MS Visual Studio 2005 .NET sowie Intel Fortran 9.1 für alle Fließkommatests. Bei den AMD-Prozessoren testen wir die Floating-Point-Performance zusätzlich mit den PGI-6.2-Compilern. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz.

Bei den Floating-Point-Berechnungen von SPECfp_rate_base2000 ermittelt die Benchmark-Suite CPU2000 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Integer-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standard-Software.

Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECfp_rate_base2000 der Anzahl der Prozessorkerne des Systems.

SPECfp_rate_base2000: Bei den speicherlastigeren Floating-Point-Benchmarks proftieren die Harpertown-Xeons deutlich mehr vom FSB1600 und dem DDR2-800-Speicher. Statt 10 Prozent mehr Performance wie beim SPECint_rate_base2000 erreichen die 45-nm-Xeons jetzt 24 Prozent mehr Durchsatz – gegenüber den Xeon X5365 in der Stoakley-Plattform.

Offizielle Ergebnisse von CPU2000 werden seit dem 24.02.2007 vom SPEC-Konsortium nicht mehr publiziert. Seit August 2006 gibt es den Nachfolger CPU2006.

Linpack 64 Bit

Linpack dient als verbreitetes Tool zum Ermitteln der Floating-Point-Performance von Highend-Computern. Das Ergebnis wird in Flops (Fließkomma-Operationen pro Sekunde) angegeben.

Linpack löst komplexe lineare Gleichungssysteme. Die Anzahl der Gleichungen lässt sich dabei stark erhöhen, um auch massiv parallel operierende Systeme unter Last zu setzen. Der Bedarf an Arbeitsspeicher wächst entsprechend mit. Die Speicherzuweisung erfolgt über eine Matrix-Berechnung. Size x LDA x 8 (Anzahl der Gleichungen x Input x 8 bit) ergibt den zu allokierenden Speicher.

Unter Linux 64 Bit setzen wir die 64-Bit-Version von Linpack 2.1.2 ein. Der SMP-fähige Benchmark setzt EMT64-Prozessoren mit SSE3-Unterstützung voraus. AMDs Opteron-Prozessoren mit SSE3 arbeiten unter Linux mit der von Intel-Compilern erstellten Linpack-Version ebenfalls problemlos zusammen.

Bei unseren Tests löst Linpack in verschiedenen Durchläufen 5000, 10.000, 15.000, 18.000, 22.000 und 27.000 Gleichungssysteme. Damit benötigt der Benchmark zwischen 190 MByte (5000 Gleichungssysteme) und zirka 5,4 GByte Arbeitsspeicher (27.000 Gleichungssysteme). Im Diagramm finden Sie die von den Prozessoren maximal erreichten GFlops.

Optimierfähig: Bei Linpack „verschluckt“ sich die Stoakley-Evaluation-Plattform etwas. Der Xeon X5365 arbeitet in der Bensley-Plattform deutlich schneller als mit dem Nachfolger Stoakley. Innerhalb der Stoakley-Plattform arbeiten die Harpertowns sieben Prozent flinker als der Xeon X5365 – der schnellere FSB und Speicher zeigen Wirkung. Obwohl das Barcelona-Doppelpack nur mit 2,0 GHz Taktfrequenz arbeitet, werden die 2,33-GHz-Quad-Core-Xeons locker überholt. AMDs HyperTransport-Konzept mit den integrierten Speicher-Controllern zeigt bei diesem sehr speicherlastigen Benchmark die Überlegenheit gegenüber Intels „klassischer“ FSB-Technologie.

Encryption/Decryption: openSSL 64 Bit

Die Leistungsfähigkeit der Prozessoren beim Verschlüsseln und Entschlüsseln von Daten unter Linux 64 Bit ermittelt das Open-Source-Programm openSSL in der 64-Bit-Version 0.9.8b. Der Code von openSSL ist single threaded programmiert. Durch den Start von multiplen Kopien summiert openSSL die Performance beim Verschlüsseln und Entschlüsseln von Daten.

Wir testen die Prozessoren bei openSSL mit dem RSA-Schlüssel und einer Schlüssellänge von 2048 Bit. Der synthetische Benchmark gibt einen guten Anhaltspunkt für die Geschwindigkeit der Prozessoren beim Verschlüsseln und Entschlüsseln von Daten. Spezielle für die CPU-Architekturen optimierte Mathematik-Bibliotheken kommen beim mit gcc kompilierten openSSL-Benchmark nicht zum Einsatz.

RSA-2048 Encryption: Die Unterschiede zwischen den 3,0-GHz-Xeons sind marginal, der Test läuft überwiegend im Cache ab. Die K10-Opterons platzieren sich zwischen den wesentlich höher getakteten Xeon-Quad-Cores. Dies spricht für die Effizienz der K10-Architektur.
RSA-2048 Decryption: Auch das Entschlüsseln erledigen die 3,0-GHz-Xeons mit fast identischem Durchsatz. Flink sind wieder die 2,0-GHz-Quad-Core-Opterons, sie bieten 15 Prozent mehr Performance als die zwei Xeon E5345. Nur die 3,0-GHz-Quad-Core-Xeons hängen das Opteron-8350-Doppelpack zirka 12 Prozent ab.

Analyse: SunGard ACR 64 Bit

SunGards Adaptiv Credit Risk 3.0 ist ein Analysetool für den Finanzbereich. Basierend auf modifizierten Monte-Carlo-Simulationen berechnet das Programm den künftigen Wert einer Anlage auf Basis vorhandener Marktdaten.

SunGards Adaptiv Credit Risk wurde in C# für Microsofts .NET-Umgebung programmiert. Spezielle Mathematik-Bibliotheken wie Intels MKL oder AMDs Core Math Library ACML verwendet Adaptiv Credit Risk nicht. Das Analysetool arbeitet multithreaded und unterstützt Multiprozessor-Systeme optimal. SunGard rechnet überwiegend mit Integer-Operationen. Speicherzugriffe halten sich bei Adaptiv Credit Risk in Grenzen.

Schnelle Vorhersagen: Der FSB1600 und 12 MByte L2-Cache nutzen dem Xeon E5472 hier wenig – Speicherzugriffe halten sich bei Adaptiv Credit Risk in Grenzen. Entsprechend arbeiten die 3,0-GHz-Xeons mit fast identischer Geschwindigkeit.

Rendering: SPECapc 3ds Max 9 x64

Discreet/Autodesk bietet mit 3ds Max 9 x64 eine professionelle Software für 3D-Modelling, Animation und Rendering an. Bei den Render-Vorgängen nutzt 3ds Max 9 x64 Multiprocessing voll aus. Die Multi-Core-Technologie sowie ein zweiter Prozessor wirken somit beschleunigend.

Die gewählten Render-Szenen „Space Flyby“ und „Underwater“ basieren auf der Benchmark-Suite SPECapc for 3ds Max von SPEC.org. Die Grafikkarten-Performance spielt beim Rendering keine Rolle, die OpenGL/DirectX-basierenden Tests der SPECapc-Suite verwenden wir nicht.

Szene „Space Flyby“: Die Harpertown-CPUs erledigen die Render-Arbeit fünf Prozent schneller als die Xeon X5365 in der Stoakley-Plattform. Architekturerweitungen wie Super Shuffle für SSE-Daten sorgen für das Geschwindigkeitsplus. Die zwei Quad-Core-Opterons arbeiten 14 Prozent langsamer als zwei Xeon E5345 – dies entspricht der prozentual geringeren Taktfrequenz. Das Beispiel zeigt, dass AMD bei wenig speicherintensiven Anwendungen wie Rendering dem Nachteil der vergleichsweise niedrigen Taktfrequenz Tribut zollt.
Szene Underwater: Bei diesem Render-Workload arbeiten die Quad-Core-Opterons 35 Prozent langsamer als zwei Xeon E5345. Die Puffergrößen von 512 KByte L2-Cache pro Kern und 2 MByte shared L3-Cache reichen jetzt nicht mehr aus. Die Quad-Core-Xeons mit 8 MByte (5300er Modelle) und 12 MByte L2-Cache (E5472) halten den Workload besser im Puffer. Der 3,0-GHz-Harpertown ist jetzt sieben Prozent flinker als der 3,0-GHz-X5365 in der Stoakley-Plattform.

Rendering: CINEBENCH 10 64 Bit

Mit dem CINEBENCH 10 stellt Maxon die aktuelle Version des bekannten Benchmark-Tools bereit. CINEBENCH 10 basiert auf Cinema 4D Release 10 und führt wieder Rendering-Tests durch. Maxon bietet CINEBENCH 10 als 32- und 64-Bit-Version zum Download an.

Beim Render-Teset wird eine photorealistische 3D-Szene mit Hilfe des Cinema-4D-Raytracers berechnet. Die Szene enthält unter anderem Lichtquellen, Schatteneffekte sowie Multi-Level-Reflektionen. Bei dem FPU-lastigen Test spielt die Leistungsfähigkeit der Grafikkarte keine Rolle. Auch höhere Speicher- und FSB-Bandbreiten nutzen beim Rendering von CINEBENCH 10 wenig - der Test läuft überwiegend in den Cache-Stufen ab.

1 Thread: Beim Rendering wird jetzt nur ein Prozessorkern verwendet - Multi-Core nutzt hier nichts. Der 45-nm-Xeon E5472 arbeitet acht Prozent schneller als der Xeon X5365 (beide in der Stoakley-Plattform). Verantwortlich zeigt die Super Shuffle Funktion, die SSE-Instruktionen ohne Änderungen an der Software beschleunigt. AMDs K10-Core arbeitet bei einer 29 Prozent geringeren Taktfrequenz durch die verbesserte Fließkomma-Einheit nur 15 Prozent langsamer als der K8-Core des Opteron 2220.
Alle Threads: Jetzt nutzt CINEBENCH alle verfügbaren Prozessorkerne. Die 45-nm-Harpertowns führen weiter mit acht Prozent Vorsprung auf die 65-nm-Generation. Der prozentuale Rückstand der Opteron-8350-Modelle gegenüber Intels 65-nm-Quad-Core-Xeons entspricht wieder der entsprechend niedrigeren Taktfrequenz des AMD-CPUs. Die Rendering-Geschwindigkeit skaliert sehr gut mit Taktfrequenzerhöhungen.

Energieverbrauch: Minimum & Maximum

Intel spezifiziert die 3,0-GHz-Quad-Core-Xeons X5365 mit einem TDP-Wert von 120 Watt. Die CPUs fertigt Intel im 65-nm-Verfahren. Die Harpertown-Modelle Xeon E5472 produziert Intel mit 45 nm Strukturbreite. Den TDP-Wert dieser CPU spezifiziert der Hersteller trotz identischer Taktfrequenz von 3,0 GHz mit 80 Watt.

Um die Auswirkungen beider 3,0-GHz-Generationen auf den Energieverbrauch eines Servers zu überprüfen, tauschen wir im Stoakley-Server nur die CPUs aus. Dadurch lässt sich der Vorteil der 45-nm-Prozessoren gut zeigen.

Im folgenden Diagramm vergleichen wir den Systemverbrauch unter Windows Server 2003 R2 x64 im „Leerlauf“ ohne aktivierten Energiesparmodus (Energie-Schemata „Always on“):

Regungslos: Läuft nur der Windows-Desktop ohne CPU-Belastung, so sparen die beiden 45-nm-Xeons insgesamt 17 Watt (zirka 8,5 Watt pro CPU) gegenüber den Xeon-X5365-Modellen ein.

Um möglichst nur den Einfluss der CPUs unter voller Last zur berücksichtigen, wählten wir mit CINEBENCH 10 eine Anwendung, die den Speicher kaum belastet und der Workload überwiegend im Cache gehalten wird. Den Speicher lassen wir möglichst unbelastet, weil die Stoakley-Plattform beim Xeon E5472 und X5365 den FB-DIMM-Speicher mit unterschiedlichen Taktfrequenzen ansteuert (800 vs. 667 MHz). CINEBENCH 10 fordert beim Rendering alle Kerne

Full Power: Unter Volllast benötigt die Stoakley-Plattform mit dem E5472-Quad-Core-Xeons satte 67 Watt weniger Energie als mit den 65-nm-Modellen X5365. Dabei liefern die 45-nm-Harpertowns zusätzlich eine acht Prozent höhere Performance. Die Performance pro Watt des Systems steigt somit nur durch den CPU-Wechsel um 27 Prozent beim Rendering.

AMD & Intel: Listenpreise Quad-Core-CPUs

In der Tabelle finden Sie die Preise der aktuellen Xeon-Prozessoren im Vergleich zu AMDs Quad-Core-Opterons. Bei AMDs Preisliste gab es am 08. Oktober 2007 die letzten Änderungen. Intels Preisliste wurde am 05. September 2007 aktualisiert.

OEM-Preise im Vergleich

Modell

Taktfrequenz /FSB [MHz]

Listenpreis [US-Dollar]

AMD K10-Quad-Core

Opteron 8350

2000 / 1000

1019

Opteron 8347

1900 / 1000

786

Opteron 8347 HE

1900 / 1000

873

Opteron 8346 HE

1800 / 1000

698

Opteron 2350

2000 / 1000

389

Opteron 2347

1900 / 1000

316

Opteron 2347 HE

1900 / 1000

377

Opteron 2346 HE

1800 / 1000

255

Opteron 2344 HE

1700 / 1000

209

Intel 45-nm-Xeons

Xeon X5482

3200 / 1600

1279

Xeon X5472

3000 / 1600

1022

Xeon E5472

3000 / 1600

958

Xeon E5462

2800 / 1600

797

Xeon X5460

3160 / 1333

1172

Xeon X5450

3000 / 1333

915

Xeon E5450

3000 / 1333

851

Xeon E5440

2830 / 1333

690

Xeon E5430

2667 / 1333

455

Xeon E5420

2500 / 1333

316

Xeon E5410

2333 / 1333

256

Xeon E5405

2000 / 1333

209

Xeon X5272

3400 / 1600

1172

Xeon X5260

3333 / 1333

851

Xeon E5205

1867 / 1066

177

Intel 65-nm-Xeons

Xeon X5365

3000 / 1333

1172

Xeon X5355

2667 / 1333

744

Xeon E5345

2333 / 1333

455

Xeon E5335

2000 / 1333

316

Xeon L5335

2000 / 1333

380

Xeon E5320

1860 / 1066

256

Xeon L5320

1860 / 1066

320

Xeon E5310

1600 / 1066

209

Xeon L5310

1600 / 1066

273

TecChannel Preisvergleich & Shop

Produkte

Info-Link

Prozessoren

Preise und Händler

Fazit

Intel vergrößert mit seiner 45-nm-Generation Xeon „Harpertown“ wieder den Performance-Abstand zu AMDs K10-Opterons. Besonders tendenziell „schwächelnden“ Disziplinen wie sehr speicherintensiven Applikationen verschafft der Harpertown mit seinem größerem Cache und vor allem dem schnelleren FSB1600 wieder höhere Wertungen.

Denn in diesen Paradedisziplinen für die K10-Prozessoren mit ihren integrierten Speicher-Controllern und dem HyperTransport-Konzept setzte AMD die Xeon-5300-Modelle stark unter Druck. Beim sehr rechen- und speicherintensiven renommierten CPU2006-Benchmark SPECfp_rate_base2006 arbeiten die 2,0-GHz-Quad-Core-Opterons fünf Prozent schneller als Intels 3,0-GHz-Xeon-X5365-CPUs in der Bensley-Plattform.

Die 3,0-GHz-Harpertowns Xeon E5472 setzen sich dagegen bei SPECfp_rate_base2006 wieder mit 16 Prozent mehr Performance von den K10-Opterons ab. Hier hilft auch die für FSB1600-Xeons notwendige Stoakley-Plattform mit. Denn neben dem für Quad-Core-Xeons optimierten Seaburg-Chipsatz mit dem 64 MByte Snoop-Filter ermöglichen die schnelleren DDR2-800-FB-DIMMs mehr Speicherbandbreite.

Intels Harpertown-Xeons mit der 45-nm-Penryn-Architektur bieten aber auch bei Workloads, die überwiegend im Cache gehalten werden und wenig Speicherzugriffe erfordern, bei gleicher Taktfrequenz mehr Performance. Architekturfeinschliff wie das neue Super Shuffle und Fast Radix-16 sorgen auch in wenig speicherlastigen Applikationen wie unseren Rendering-Benchmarks für zirka sieben Prozent mehr Geschwindigkeit.

Zudem bieten die Harpertown-Prozessoren mit ihrer SSE4-Erweiterung bei optimierten Anwendungen noch Geschwindigkeitspotenzial. Positiv bei den 45-nm-Modellen ist auch der bei gleicher Taktfrequenz deutlich reduzierte Energiebedarf im Vergleich zu den 65-nm-Xeons.

Für Ende 2007 hat AMD den Opteron 2360 mit 2,5 GHz Taktfrequenz angekündigt. Ob dieser Prozessor wieder für mehr Ausgeglichenheit zwischen AMD und Intel bei 2-Sockel-Systemen sorgt, wird ein Test im TecChannel-Testlabor dann zeigen. (cvi)

Testplattform Opteron- & Xeon

Die Xeon-E5472-Prozessoren mit Penryn-Architektur testen wir in einem Stoakley-Evaluation-System von Intel. Als Mainboard verwendet der Server ein Supermicro X7DWN+ mit Seaburg-Chipsatz. Vier FB-DIMM-Channels steuern insgesamt acht 2-GByte-Module vom Typ Nanya NT2GT72U4NB1BD-2C an. Die FB-DIMMs arbeiten mit DDR2-800-SDRAMs mit einem 5-5-5-Timing. Intels Xeon X5365 testen wir ebenfalls im Stoakley-Server. Der Chipsatz steuert bei der FSB1333-CPU den Speicher automatisch mit einer Geschwindigkeit von 667 MHz bei CL5 an.

Harpertown-Plattform: Der Stoakley-Evaluation-Server für FSB1600-CPUs kann mit den Seaburg-Chipsatz insgesamt 16 FB-DIMMs über vier Channels ansteuern.

Intels 65-nm-Xeon-Prozessoren testen wir zusätzlich in einem aktuellen Bensley-Server mit dem Intel Server Board S5000PSL. Das Board setzt auf den Blackford-Chipsatz 5000P für Server. Die Xeon-Modelle 5160, E5345 und X5365 arbeiten mit einem 1333 MHz schnellen FSB. Über vier FB-DIMM-Channels steuert der Chipsatz insgesamt acht 2-GByte-Module vom Typ Qimonda HYS72T256420HFA-3S-B an. Die FB-DIMMs setzen DDR2-667-SDRAMs mit CL5 ein.

AMDs Quad-Core-Opteron 8350 testen wir in einem Tyan S3993 mit Broadcom BCM5780 Chipsatz. Das 2-Sockel-Systemboard stellt jeder CPU vier DIMM-Slots zur Speicherbestückung zur Verfügung. Als Speichermodule kommen insgesamt acht 2-GByte-DIMMs vom Typ Micron MT36HTF25672-PY-667D1 zum Einsatz. Die gepufferten Module setzen auf DDR2-667-SDRAMs mit einem Timing von 5-5-5-12.

Barcelona-Plattform: Jeder Quad-Core-Prozessor greift über seinen integrierten Speicher-Controller auf 4 GByte DDR2-667-SDRAM zurück. Über die HyperTransport-Verbindung zwischen den CPUs ist auch der Zugriff auf den Nachbarspeicher möglich.

Für den Test der Opteron-CPUs 2218 (Cache-Transferraten) und 2220 von AMD verwenden wir von Fujitsu Siemens den 2-Sockel-Server Primergy RX330 S1. Das Systemboard D2440-A100 verwendet einen Broadcom-BCM5780-Chipsatz. Über ihren integrierten Memory-Controller greifen die AMD-CPUs ebenfalls auf Dual-Channel-DDR2-667-SDRAM mit CL5 in gepufferter Ausführung zurück.

Bei der Grafikkarte setzen das Supermicro-, Tyan- und Intel-Mainboard auf eine integrierte ATI ES1000, der RX330-S1-Server verwendet eine Matrox G200e. Alle verwendeten Benchmarks sind von der Grafik-Performance unabhängig. Durch die in den Servern unterschiedlichen Storage-Subsysteme wählten wir zudem nur Benchmarks, bei denen das Ergebnis von der Storage-Performance unabhängig ist.

Als Betriebssystem verwenden wir Windows Server 2003 R2 x64 sowie CentOS 5.0 in der 64-Bit-Version.