Xeon E5-2640, E5-2660 und E5-2690

Konkurrenz chancenlos - Intel Xeon E5-2600 Serie im Test

06.03.2012 von Christian Vilsbeck
Intel stellt mir der Xeon-E5-2600-Serie seine neue CPU-Generation für Server mit zwei Sockeln vor. Zusammen mit einer neuen Plattform will Intel wieder Maßstäbe setzen. Unsere getesteten Xeon E5-Prozessoren deklassieren AMDs Opteron 6200 in der Performance und Energieeffizienz regelrecht.

Ziemlich genau zwei Jahre nach dem Start von Intels wichtigsten CPUs für Server, der Xeon-5600-Serie, geht der Nachfolger an den Start. Zeit ist es für Intel geworden, den der Hauptkonkurrent des Xeon 5600, AMDs Opteron 6200 mit 16 Kernen, ist insbesondere in der Energieeffizienz den Intel-Prozessoren mehr als ebenbürtig. Und bei sehr speicherlastigen Szenarien übertrumpft der Bulldozer-Opteron die sechskernigen Xeon-5600-Modelle auch in Performance. Die große Speicherbandbreite und die üppigen Caches zeigen ihre Wirkung.

Mit der neuen Xeon-E5-2600-Serie für 2-Sockel-Server bessert Intel nicht nur die CPUs auf, sondern präsentiert eine komplett neue Plattform. Doch zunächst zu den neuen Prozessoren: Schluss ist mir der alten Westmere-Architektur der Xeon-5600-Modelle, die neue E5-2600-Serie bekommt die aktuelle Sandy-Brigde-Technologie spendiert. Ganz neu ist sie zwar nicht, die Architektur gibt es schon seit über einem Jahr in den Desktop- und Mobile-CPUs. Und einen Vorgeschmack auf den Xeon E5-2600 gibt es seit November 2011 mit dem Core i7-3960X - quasi ein frühes "Server-Abfallprodukt" für Highend-Desktop-PCs.

Intel Xeon E5-2690: Der neue 8-Core-Prozessor mit Sandy-Bridge-EP-Architektur verfügt über 20 MByte L3-Cache. Die Socket-R-CPU arbeitet mit 2,9 GHz Basistaktfrequenz und besitzt einen Quad-Channel-Speicher-Controller für DDR3-1600-DIMMs.

Beim Xeon E5-2600 gibt es Modelle mit zwei, vier, sechs und acht Kernen. Das mutet im Vergleich zu den 16-Core-Opterons zwar nicht viel an, doch inklusive Hyper-Threading beherrscht beispielsweise das Topmodell Xeon E5-2690 auch 16 parallele Threads. Ansonsten setzt die neue Xeon-Plattform "Romley-EP" massiv auf Bandbreite in allen Bereichen. Los geht es bei vier DDR3-1600-Speicher-Channels pro CPU, unterstützt durch einen großzügig bemessenen L3-Cache. Beide Xeons kommunizieren untereinander jetzt mit zwei QuickPath-Links bei einer gesteigerten Geschwindigkeit von je 8 GT/s. Erweiterungskarten steuert jeder Xeon E5-2600 über 40 Lanes nun über ein integriertes PCI-Express-Interface der Generation 3.0 Lanes an. In der neuen Romley-EP-Plattform gibt es natürlich auch SATA 6 Gb/s und SAS-Ports.

Durch die Architektur Sandy Bridge-EP warten die Xeon-E5-2600-CPUs mit allen modernen Befehlssatzerweiterungen wie AVX auf. Hier gab es seit November 2011 das Kuriosum, das in Servern mit zwei oder vier Sockeln AMD mit dem Opteron 6200 bereits Intels AVX-Erweiterung unterstützt, die Xeons erst jetzt mit der 2600er Serie.

Für den Test der Leistungsfähigkeit der neuen Xeon-E5-2600-Serie standen uns die Modelle Xeon E5-2640, E5-2660 und E5-2690 zur Verfügung. Während der 2640er mit sechs Kerne auskommen muss, arbeiten der E5-2660 und das Topmodell E5-2690 mit einer 8-Core-Technologie. Als Vergleich dienen Intels Vorgängermodelle der Xeon-5600-Serie sowie die 16-kernigen Opteron 6266 HE und 6276 Neben Integer- und Floating-Point-Anwendungen treten die CPUs bei Verschlüsselung, Rendering und Simulation gegeneinander an. Die Geschwindigkeit bei Java-Applikationen wird ebenso untersucht wie die Energieeffizienz der Systeme.

Xeon E5-2600 mit Sandy Bridge-EP

Intel bietet seine Xeon-E5-2600-Serie mit 2, 4, 6 und 8 Kernen an. Bis auf zwei Ausnahmen beherrschen alle Sandy-Bridge-EP-Prozessoren zusätzlich die Hyper-Threading-Technologie. Bei den CPUs genügt Intel jeweils ein 32-nm-Siliziumplättchen. Bei den Topmodellen mit 8-Core-Technologie sind 2,263 Milliarden Transistoren im Einsatz, die sich auf eine Die-Fläche von 416 Quadratmillimeter ausbreiten.

Einen üppigen Anteil der Fläche beansprucht beim Xeon E5 der L3-Cache, der von allen Kernen gemeinsam genutzt wird. Bei den 8-Core-Modellen integriert Intel 20 MByte, die Hexa-Core-Varianten besitzen 15 MByte, bei vier Kernen sind es noch 10 MByte und 5 MByte beim Dual-Core-Xeon-E5. Beim Vorgänger Xeon 5600 sind maximal 12 MByte L3-Cache verbaut. Die Größen der ersten beiden Cache-Stufen sind bei der Westmere-Architektur des Xeon 5600 und Sandy Bridge-EP beim Xeon E5-2600 unverändert. Jedem Kern steht somit 64 KByte L1-Cache, aufgesplittet in je 32 KByte für Daten und Befehle, sowie ein 256 KByte fassender L2-Cache zur Verfügung. Trotz der L3-Cache-Vergrößerung bleibt der Xeon E5-2600 hinter AMDs Opteron 6200 zurück: Summiert besitzt ein 16-Core-Opteron 16 MByte L2-Cache und 16 MByte L3-Cache. Mit einer Gesamtpuffergröße von 32 MByte stoßt AMD in die Dimension eines Intel Xeon E7-4870 vor.

Bildergalerie: Intel Xeon E5-2600 Serie - Produktpräsentation
Intel Xeon E5-2600 Serie für 2-Sockel-Server
Intel Xeon E5-2600 Serie für 2-Sockel-Server
Intel Xeon E5-2600 Serie für 2-Sockel-Server
Intel Xeon E5-2600 Serie für 2-Sockel-Server
Intel Xeon E5-2600 Serie für 2-Sockel-Server
Intel Xeon E5-2600 Serie für 2-Sockel-Server
Intel Xeon E5-2600 Serie für 2-Sockel-Server
Intel Xeon E5-2600 Serie für 2-Sockel-Server
Intel Xeon E5-2600 Serie für 2-Sockel-Server
Intel Xeon E5-2600 Serie für 2-Sockel-Server
Intel Xeon E5-2600 Serie für 2-Sockel-Server
Intel Xeon E5-2600 Serie für 2-Sockel-Server
Intel Xeon E5-2600 Serie für 2-Sockel-Server
Intel Xeon E5-2600 Serie für 2-Sockel-Server
Intel Xeon E5-2600 Serie für 2-Sockel-Server
Intel Xeon E5-2600 Serie für 2-Sockel-Server
Intel Xeon E5-2600 Serie für 2-Sockel-Server
Intel Xeon E5-2600 Serie für 2-Sockel-Server
Intel Xeon E5-2600 Serie für 2-Sockel-Server
Intel Xeon E5-2600 Serie für 2-Sockel-Server
Intel Xeon E5-2600 Serie für 2-Sockel-Server
Intel Xeon E5-2600 Serie für 2-Sockel-Server
Intel Xeon E5-2600 Serie für 2-Sockel-Server
Intel Xeon E5-2600 Serie für 2-Sockel-Server
Intel Xeon E5-2600 Serie für 2-Sockel-Server
Intel Xeon E5-2600 Serie für 2-Sockel-Server
Intel Xeon E5-2600 Serie für 2-Sockel-Server
Intel Xeon E5-2600 Serie für 2-Sockel-Server
Intel Xeon E5-2600 Serie für 2-Sockel-Server
Intel Xeon E5-2600 Serie für 2-Sockel-Server
Intel Xeon E5-2600 Serie für 2-Sockel-Server
Intel Xeon E5-2600 Serie für 2-Sockel-Server
Intel Xeon E5-2600 Serie für 2-Sockel-Server
Intel Xeon E5-2600 Serie für 2-Sockel-Server
Intel Xeon E5-2600 Serie für 2-Sockel-Server
Intel Xeon E5-2600 Serie für 2-Sockel-Server
Intel Xeon E5-2600 Serie für 2-Sockel-Server
Intel Xeon E5-2600 Serie für 2-Sockel-Server
Intel Xeon E5-2600 Serie für 2-Sockel-Server
Intel Xeon E5-2600 Serie für 2-Sockel-Server
Intel Xeon E5-2600 Serie für 2-Sockel-Server
Intel Xeon E5-2600 Serie für 2-Sockel-Server
Intel Xeon E5-2600 Serie für 2-Sockel-Server
Intel Xeon E5-2600 Serie für 2-Sockel-Server
Intel Xeon E5-2600 Serie für 2-Sockel-Server
Intel Xeon E5-2600 Serie für 2-Sockel-Server
Intel Xeon E5-2600 Serie für 2-Sockel-Server
Intel Xeon E5-2600 Serie für 2-Sockel-Server

Mit der Sandy-Bridge-EP-Architektur erhalten erstmals auch die Xeons für 2-Sockel-Systeme den Befehlssatz "Advanced Vector Extensions" AVX. Ein Hauptmerkmal von AVX ist die Verdoppelung der Vector-Registerbreite von 128 auf 256 Bit. Ein erweitertes Daten-Re-Arrangement organisiert zudem nur benötigte Daten und greift auf diese schneller und effizienter zu. Außerdem gibt es mit AVX einen 3- und 4-Operanden-Syntax. Die bereits vom Xeon 5600 bekannten Befehlssatzerweiterungen AES und SSE 4.2 sind natürlich weiterhin an Bord.

Socket R, DDR3-1600 und Turbo 2.0

Mit der Einführung der Xeon-E5-2600-Serie verabschiedet sich Intel auch von der bisherigen 2-Sockel-Plattform des Xeon 5600 mit seinem Sockel LGA1366. Der neue Socket R der 2600er Xeons nutzt 2011 Kontaktflächen. Bei Desktop-PCs ist das entsprechende Pendant der Sockel LGA2011 der Core-i7-3000-Serie.

Kräftig aufgebohrt hat Intel die Kommunikation zwischen den Xeons. Zum einen arbeitet das verwendete QuickPath-Interface mit bis zu 8,0 statt maximal 6,4 GT/s. Außerdem sind nun zwei QuickPath-Schnittstellen zwischen zwei Xeon E5-2600. Der Datentransfer zum Chipsatz C600 der Xeon-E5-Romley-EP-Plattform übernimmt ein DMI2-Interface (basiert auf PCI Express Gen2) mit einer Bandbreite von 5 GT/s. Der C600-Chipsatz (Platform Controller Hub PCH) zeichnet für die Storage- und I/O-Anbindung verantwortlich. Neben vier SATA 3 Gb/s und zwei SATA 6 Gb/s sowie SAS-Ports stehen nochmals acht PCIe-2.0-Lanes zur Verfügung. Neben dem Anschluss eines TPM-1.2-Chips gibt es beim C600 noch einen SM Bus 2.0 sowie 14 USB-2.0-Ports.

Bildergalerie: Romley EP - Produktpräsentation
2-Sockel-Server-Plattform Romley EP für Xeon E5-2600 Serie
2-Sockel-Server-Plattform Romley EP für Xeon E5-2600 Serie
2-Sockel-Server-Plattform Romley EP für Xeon E5-2600 Serie
2-Sockel-Server-Plattform Romley EP für Xeon E5-2600 Serie
2-Sockel-Server-Plattform Romley EP für Xeon E5-2600 Serie
2-Sockel-Server-Plattform Romley EP für Xeon E5-2600 Serie
2-Sockel-Server-Plattform Romley EP für Xeon E5-2600 Serie
2-Sockel-Server-Plattform Romley EP für Xeon E5-2600 Serie
2-Sockel-Server-Plattform Romley EP für Xeon E5-2600 Serie
2-Sockel-Server-Plattform Romley EP für Xeon E5-2600 Serie
2-Sockel-Server-Plattform Romley EP für Xeon E5-2600 Serie

Beim Xeon E5-2600 integriert Intel einen Speicher-Controller mit vier DDR3-Channels. Während der Xeon-5600-Serie mit Triple-Channel-Interface maximal DDR3-DIMMs mit 1333 MHz unterstützt, ermöglichen die 2600er Xeons Geschwindigkeiten von bis zu 1600 MHz. Pro Channel lassen sich maximal drei DIMMs ansteuern, bei zwei Modulen sogar mit voller Geschwindigkeit von 1600 MHz, beim dritten DIMM schaltet der Controller auf 1333 MHz zurück. Neben ungepufferten und gepufferten DIMMs sowie 1,35-V-Low-Voltage-Modulen können die Xeon-E5-2600-CPUs auch LRDIMMs ansteuern. Diese "Load-Reduced DIMMs" bieten pro Speicherriegel deutlich mehr Kapazität als normale DIMMs.

Turbo 2.0: Die Xeon-E5-2600-CPUs können die Taktfrequenz je nach Auslastung unterschiedlich erhöhen (beispielsweise +5 bedeutet zusätzliche 500 MHz).
Foto: Intel

Mit Turbo 2.0 können die Xeon-E5-2600-CPUs für kurze Zeit kontrolliert über der spezifizierten TDP arbeiten. Die Zeitspanne hängt von den thermischen Bedingungen und dem Energiebedarf des Workloads ab, sie kann sich typischerweise zehn bis 30 Sekunden dauern. In dieser Zeit kann der Xeon rund 20 Prozent über dem spezifizierten TDP-Wert arbeiten. Ein Xeon E5-2690 mit 135 Watt TDP kann laut Intel durch Turbo 2.0 somit kurzfristig mit bis zu 162 Watt betrieben werden. Durch diesen Boost sind Intel zufolge bis zu 12 Prozent mehr Performance möglich. Danach wird je nach verbauter Kühlung ein Zeitfenster gewartet, bis die Temperatur wieder auf "Normalmaß" zurückgeht, bevor der nächste Boost zur Verfügung steht.

Wird nur ein Kern beim Topmodell Xeon E5-2690 belastet, so sind durch Turbo 2.0 bis zu neun zusätzliche Speed-Bins (1 Bin = 100 MHz) möglich. Bei einer Grundtaktfrequenz von 2,9 GHz taktet ein Kern somit mit bis zu 3,8 GHz (9 x 100 MHz = 0,9 GHz). Sind alle acht Kerne des Xeon E5-2690 unter Last, so können diese mit bis zu vier zusätzlichen Speed-Bins arbeiten. Diese 400 MHz ergeben rund 3,3 GHz.

Xeon E5-2600 mit DDIO und PCIe Gen3

Die Xeon-E5-2600-Serie sind Intels erste Server-Prozessoren mit integrierter I/O-Funktionalität (IIO - Intel Integrated I/O). Beim Vorgänger Xeon 5600 ist noch der Chipsatz Intel 5520 für die PCI-Express-Schnittstellen und für die Anbindung des ICH (USB, SATA, etc.) verantwortlich. Der Intel 5520 ist über QuickPath mit den Xeon-5600-CPUs verbunden.

Beim Xeon E5-2600 wandert im Prinzip der Intel 5520-Chipsatz (IOH - I/O-Hub) in den Prozessor - allerdings in einer aktualisierten Variante. Denn die neuen Xeons verfügen durch IIO über ein integriertes PCI-Express-Interface der dritten Generation, wodurch sich die Bandbreite im Vergleich zu PCIe Gen2 verdoppelt. Jeder Xeon E5-2600 besitzt 40 PCIe-3.0-Lanes. Laut Intel reduziert sich durch die Integration des IOH in den Prozessor auch die Latenzzeit bei I/O-Zugriffen um 30 Prozent. Dabei unterstützt der Xeon E5-2600 natürlich auch die I/O-Virtualisierung VT-d.

Neben dem I/O APIC für das Interrupt Scaling verfügt der Xeon E5-2600 über das DMI2-Interface für die Anbindung des C600-Chipsatzes. In der 2-Sockel-Konfiguration ist der C600 mit einem Xeon verbunden, beim zweiten E5-2600 lässt sich DMI2 als vier zusätzlich PCIe-Gen2-Lanes betreiben.

Bildergalerie: Intel IIO und DDIO - Produktpräsentation
Features der Server-Plattform für Intels Xeon E5-2600 Serie
Integrated I/O und Direct Data I/O
Features der Server-Plattform für Intels Xeon E5-2600 Serie
Integrated I/O und Direct Data I/O
Features der Server-Plattform für Intels Xeon E5-2600 Serie
Integrated I/O und Direct Data I/O
Features der Server-Plattform für Intels Xeon E5-2600 Serie
Integrated I/O und Direct Data I/O
Features der Server-Plattform für Intels Xeon E5-2600 Serie
Integrated I/O und Direct Data I/O
Features der Server-Plattform für Intels Xeon E5-2600 Serie
Integrated I/O und Direct Data I/O
Features der Server-Plattform für Intels Xeon E5-2600 Serie
Integrated I/O und Direct Data I/O
Features der Server-Plattform für Intels Xeon E5-2600 Serie
Integrated I/O und Direct Data I/O
Features der Server-Plattform für Intels Xeon E5-2600 Serie
Integrated I/O und Direct Data I/O
Features der Server-Plattform für Intels Xeon E5-2600 Serie
Integrated I/O und Direct Data I/O
Features der Server-Plattform für Intels Xeon E5-2600 Serie
Integrated I/O und Direct Data I/O
Features der Server-Plattform für Intels Xeon E5-2600 Serie
Integrated I/O und Direct Data I/O
Features der Server-Plattform für Intels Xeon E5-2600 Serie
Integrated I/O und Direct Data I/O
Features der Server-Plattform für Intels Xeon E5-2600 Serie
Integrated I/O und Direct Data I/O
Features der Server-Plattform für Intels Xeon E5-2600 Serie
Integrated I/O und Direct Data I/O
Features der Server-Plattform für Intels Xeon E5-2600 Serie
Integrated I/O und Direct Data I/O
Features der Server-Plattform für Intels Xeon E5-2600 Serie
Integrated I/O und Direct Data I/O
Features der Server-Plattform für Intels Xeon E5-2600 Serie
Integrated I/O und Direct Data I/O
Features der Server-Plattform für Intels Xeon E5-2600 Serie
Integrated I/O und Direct Data I/O
Features der Server-Plattform für Intels Xeon E5-2600 Serie
Integrated I/O und Direct Data I/O
Features der Server-Plattform für Intels Xeon E5-2600 Serie
Integrated I/O und Direct Data I/O
Features der Server-Plattform für Intels Xeon E5-2600 Serie
Integrated I/O und Direct Data I/O

Neu bei der Xeon E5-2600-Serie mit der Romley-EP-Plattform ist auch die Technologie Data Direct I/O (DDIO). Mit DDIO werden Speicherzugriffe bei I/O-Aktivitäten reduziert, insbesondere bei Netzwerkverkehr. Durch die Umgehung des Speichers bei Zugriffen auf Daten von der Netzwerkkarte erhöhen sich die IOPS. DDIO benötigt keine spezielle Hardware oder Anpassungen in der Software. Laut Intel profitieren von DDIO InfiniBand, Fibre Channel und Ethernet.

Für den Rack-Einsatz in Datenzentren ist das neue Features RAPL (Running Average Power Limit) gedacht. Damit lässt sich der Energiebedarf der Romley-EP-Plattform limitieren. RAPL kontrolliert sowohl den Prozessor als auch den Speicher. AMD besitzt mit TDP Power Cap ein ähnliches Feature bei der Opteron-6200-Serie. Ist beispielsweise in einem Rechenzentrum pro Rack die Energie aus bestimmten Gründen limitiert, so können die Rack-Server durch simples Einstellen im BIOS im Energiekonsum limitiert werden.

Modellüberblick: Alle Xeon-E5-2600-CPUs

Intel bietet die Xeon-E5-2600-Serie zum Start mit 17 Modellen an. Den Einstieg markiert der Xeon E5-2603 mit Quad-Core und 1,8 GHz Taktfrequenz. Zusammen mit dem direkt über den 2603 angesiedelten Xeon E5-2609 (Quad-Core / 2,4 GHz) beherrschen die beiden CPUs als einzige 2600er Modelle kein Turbo 2.0 und Hyper-Threading. Auch die Speichergeschwindigkeit ist auf 1066 MHz begrenzt. Den TDP dieser Einstiegsmodelle spezifiziert Intel mit 80 Watt.

Ebenfalls mit 80 Watt TDP gibt es den einzigen Dual-Core-Prozessor aus der Serie, den Xeon E5-2637. Die CPU beherrscht alles Features und unterstützt auch DDR3-1600-DIMMs. Als Topmodell für 2-Sockel-Server fungiert der Xeon E5-2690. Der 8-Core-Prozessor arbeitet mit einer Grundtaktfrequenz von 2,9 GHz und ist mit 135 Watt TDP spezifiziert. Speziell für Workstations bietet Intel noch den Xeon E5-2687 mit 3,1 GHz Grundtaktfrequenz und 150 Watt TDP an.

"Sparsamere" 8-Core-Modelle sind der Xeon E5-2650 (2,0 GHz Basistakt) und E5-2660 (2,2 GHz Basistakt) mit jeweils 95 Watt TDP. Noch genügsamer sind die beiden Low-Power-Varianten Xeon E5-2630L (60 Watt TDP / 6-Core / 2,0 GHz Basistakt) und Xeon E5-2650L (70 Watt TDP / 8-Core / 1,8 GHz Basistakt).

In der Tabelle finden Sie alle Xeon-E5-2600-Prozessoren im Überblick:

Alle Xeon-E5-2600-Modelle im Überblick

Prozessor

Grundtaktfrequenz [GHz]

QPI [GT/s]

L3-Cache [MByte]

Kerne

DDR3-DIMM [MHz]

Turbo [Speed Bins]

HT

TDP [Watt]

Preis (US-Dollar)

Xeon E5-2690

2,9

8,0

20

8

1600/1333/1066/800

ja

ja

135

2057

Xeon E5-2687W

3,1

8,0

20

8

1600/1333/1066/800

ja

ja

150

1885

Xeon E5-2680

2,7

8,0

20

8

1600/1333/1066/800

ja

ja

130

1723

Xeon E5-2670

2,6

8,0

20

8

1600/1333/1066/800

ja

ja

115

1552

Xeon E5-2667

2,9

8,0

15

6

1600/1333/1066/800

ja

ja

130

1552

Xeon E5-2665

2,4

8,0

20

8

1600/1333/1066/800

ja

ja

115

1440

Xeon E5-2660

2,2

8,0

20

8

1600/1333/1066/800

ja

ja

95

1329

Xeon E5-2650

2,0

8,0

20

8

1600/1333/1066/800

ja

ja

95

1107

Xeon E5-2650L

1,8

8,0

20

8

1600/1333/1066/800

ja

ja

70

1107

Xeon E5-2643

3,3

8,0

10

4

1600/1333/1066/800

ja

ja

130

885

Xeon E5-2640

2,5

7,2

15

6

1333/1066/800

ja

ja

95

885

Xeon E5-2637

3,0

8,0

5

2

1600/1333/1066/800

ja

ja

80

885

Xeon E5-2630

2,3

7,2

15

6

1333/1066/800

ja

ja

95

612

Xeon E5-2630L

2,0

7,2

15

6

1333/1066/800

ja

ja

60

662

Xeon E5-2620

2,0

7,2

15

6

1333/1066/800

ja

ja

95

406

Xeon E5-2609

2,4

6,4

10

4

1066/800

nein

nein

80

294

Xeon E5-2603

1,8

6,4

10

4

1066/800

nein

nein

80

198

Analyse: Core-Rechenleistung

Intels 8-Core-Prozessor Xeon E5-2690 mit 2,9 GHz Grundtaktfrequenz arbeitet bei Auslastung aller Kerne durch Turbo 2.0 kurzfristig mit bis zu 3,3 GHz. Damit rechnet der Xeon E5-2690 bei einem Integer-Workload, der überwiegend im Cache der Prozessoren gehalten wird, rund 47 Prozent schneller als der Xeon X5680 mit Hexa-Core (Westmere-Architektur) und 3,33 GHz Taktfrequenz. Während rund 30 Prozent den zwei zusätzlichen Kernen zuzuschreiben ist, zeichnet für den Rest das Architektur-Feintuning von Sandy Bridge-EP verantwortlich.

Das neue Hexa-Core-Modell Xeon E5-2640 mit 2,5 GHz Grundtaktfrequenz kann durch Turbo 2.0 bei Auslastung aller Kerne kurzfristig einen maximalen Turbotakt von 2,8 GHz erreichen. Trotzdem arbeitet die CPU beim Integer-Workload (ohne große Speicherbelastung) fünf Prozent schneller als der 3,33-GHz-Xeon-X5680-Vorgänger. Ein Opteron 6276, dessen Bulldozer-Architektur für Integer-Workloads optimiert ist, muss sich trotz 16-Core-Technologie und einer Turbo-CORE-Taktfrequenz von 2,6 GHz dem Xeon E5-2640 bereits geschlagen geben.

Xeon E5-2640: Durch die Sandy-Bridge-EP-Architektur arbeitet der neue 6-Core-Xeon trotz geringerer Grundtaktfrequenz von 2,5 GHz mindestens so schnell wie der 3,33-GHz-Xeon-X5680.

Bei ebenfalls in den Cache passenden Floating-Point-Workloads ohne SSE/AVX-Optimierung lässt sich die Single-Thread-Performance gut analysieren. Der Xeon E5-2690 arbeitet bei einem Kern durch Turbo 2.0 mit bis zu 3,8 GHz. Damit rechnet der Sandy-Bridge-EP-Prozessor 24 Prozent schneller als der Vorgänger Xeon X5680, der mit Turbo einen Kern mit 3,6 GHz taktet. Eine fast identische Performance zum Xeon X5680 liefert der neue Xeon E5-2640, der im Single-Thread-Modus mit bis zu 3,0 GHz arbeitet. Einen schwachen Eindruck hinterlässt die Integer-lastige Bulldozer-Architektur des Opteron 6200. Im Single-Thread-Modus rechnet der Opteron 6276 bei 3,2 GHz (Turbo CORE) nur so schnell wie ein Opteron 6180 SE mit 2,5 GHz. Nutzt der Workload alle Kerne, so arbeitet der "alte" Opteron 6180 SE mit zwölf (vollständigen) Kernen rund zwölf bis 20 Prozent schneller als der 16-Core-Opteron-6276, dem im Prinzip nur acht FP-Kerne zur Verfügung stehen. Gegen Intels Xeon E5 ist der Opteron 6276 auch bei Floating-Point-Operationen chancenlos. Im Single-Thread-Modus arbeitet der Xeon E5-2690 gut doppelt so schnell und bei Auslastung aller Kerne immer noch 68 Prozent flinker.

Bei der RSA-Verschlüsselung, bei der die Opterons traditionell stark sind, setzt sich Intels neuer Xeon E5-2690 mit 13 Prozent Vorsprung nun ebenfalls an die Spitze. Gegenüber dem Xeon X5680 verschlüsselt der 8-Core-Xeon sogar 76 Prozent schneller. Der Workload benötigt kaum Speicherzugriffe und ist sehr Integer-lastig. Immerhin kann sich AMDs 16-Core-Opteron-6276-Päärchen beim Entschlüsseln wieder knapp vor Intels Xeon E5-2690 setzen. Der AES-Befehlssatz, den sowohl der Xeon 5600, E5-2600 als auch der Opteron 6200 beherrschen, kommt bei unseren openSSL-Tests nicht zum Einsatz. Mit AES lassen sich Verschlüsselungsvorgänge um den Faktor 10 beschleunigen.

Zusammenfassend lässt sich sagen, dass der neue Xeon E5-2600 bei Workloads, die überwiegend im Cache der CPUs Platz finden und den Speicher kaum nutzen, durch die Sandy-Bridge-EP-Architektur rund 20 Prozent schneller ist als die Xeon-5600-Serie

Analyse: Szenarien mit hohem Speicherbedarf

Bei Workloads mit Speicherbedarf zeigen die neuen Xeon-E5-2600-Prozessoren ihre volle Stärke. Jetzt machen sich die vier DDR3-1600-Speicher-Channels pro CPU, der 20 MByte große L3-Cache (8-Core / 15 MByte bei 6-Core) sowie die zwei 8-GT/s-QuickPath-Links zwischen den E5-Modellen bemerkbar. Der Xeon X5680 muss sich noch mit drei DDR3-1333-Channels pro CPU, 12 MByte L3-Cache sowie einem 6,4-GT/s-QuickPath-Link zwischen den Prozessoren begnügen.

Beim Java-Workload von SPECpower, wo multiple JVMs parallel arbeiten und bereits verstärkt Arbeitsspeicher benötigt wird, sind die zwei Xeon E5-2690 mit 1.204.565 ssj_ops 77 Prozent schneller als die Vorgängermodelle Xeon X5680. Auch gegenüber AMDs 16-Core-CPUs Opteron 6276 sind Intels 8-Core-Xeons 56 Prozent schneller. Selbst die Hexa-Core-Modelle Xeon E5-2640 sind zwei Prozentpunkte schneller als die Opterons. Interessant ist auch der Vergleich des E5-2640-Päärchens (2,5 GHz Basistakt) mit dem Hexa-Core-Vorgänger Xeon X5680 (3,33 GHz Basistakt): Während beide Generationen bei Workloads, die in die Caches der CPUs passen ungefähr auf einem Leistungsniveau arbeiten, ändert sich bei hohem Arbeitsspeicherbelastung das Bild. Die Xeon-E5-2640-CPUs arbeiten trotz geringerer Taktfrequenz (maximal 2,8 GHz im Turbo-Modus) 16 Prozent schneller als die X5680er Modelle.

Bei Java-Workloads wie SPECjvm2008, wo weniger Arbeitsspeicher als bei SPECpower benötigt wird, ändert sich das Bild etwas: Intels Xeon-E5-2690-Prozessoren sind jetzt statt 77 "nur" noch 59 Prozent schneller als das Xeon-X5680-Päärchen. Hier wirkt sich die höhere Speicherbandbreite von vier DDR3-1600-Channel pro CPU (Xeon X5680: drei DDR3-1333-Channels) weniger aus.

Bandbreite: Der Xeon E5-2600 kommuniziert mit der benachbarten CPU über zwei QuickPath-Links. Jeder Prozessor besitzt zudem ein Quad-Channel-Speicher-Interface.
Foto: Intel

Die Leistungsfähigkeit der Prozessoren bei sehr speicherintensiven Workloads überprüfen wir mit der Benchmark-Suite SPEC CPU2006. Bei unserem Standard-Setup mit Intel 10.1 Compiler und SSE3-Unterstützung finden alle CPUs die identischen Voraussetzungen. Multiple Kopien lasten alle Kerne jeweils voll aus. Während die zwei Xeon E5-2690 beim Rendering (Floating-Point-Workload passt in Cache) "nur" 45 Prozent schneller sind als ein Xeon-X5680-Duett, ziehen die 2690er-CPUs beim sehr speicherintensiven SPECfp_rate_base2006 um satte 81 Prozent davon. Auch gegenüber AMDs Opteron-6276-Päärchen sind die Xeon E5-2690 noch 46 Prozent schneller.

Beim ebenfalls sehr speicherintensiven Integer-Test SPECint_rate_base2006 kann der für diese Workloads optimierte Opteron 6276 etwas Boden gutmachen: Die Xeon-E5-2690-CPUs liefern hier aber immer noch einen 44 Prozent höheren Durchsatz. AMDs Opteron 6276 mit 16-Core-Technologie erreicht nur die Performance des Xeon E5-2640 mit Hexa-Core.

Unsere Messungen des Speicherdurchsatzes mit STREAM bescheinigen dem Xeon-E5-2690-Päärchen mit 76 GByte/s auch den höchsten Wert. Damit erreichen die neuen Xeons einen 81 Prozent höheren Durchsatz im Vergleich zum Xeon-X5680-Päärchen. Der mögliche Speicherdurchsatz hängt auch von der Taktfrequenz der CPUs ab, je höher diese ist, desto mehr Daten lassen sich einlesen. AMDs Opteron-6200-CPUs sind trotz Quad-Channel-DDR3-1600-Speicher gegenüber den Intel-CPUs im Nachteil.

Analyse: Performance mit AVX

Um den Vorteil der AVX-Befehlssatzerweiterung zu analysieren, verwenden wir eine mit Intels Math Kernel Library 10.3 Update 7 for Windows hochoptimierte Linpack-Version. Der ebenfalls sehr speicherintensive Linpack-Benchmark löst komplexe lineare Gleichungssysteme. Linpack dient als verbreitetes Tool zum Ermitteln der Floating-Point-Performance von Highend-Computern. Das Ergebnis wird in GFlops (Fließkomma-Operationen pro Sekunde) angegeben.

Linpack arbeitet multithread-optimiert und lastet die CPU-Kerne extrem aus. Bei diesem Benchmark rechnen Intels Xeon-Prozessoren mit deaktiviertem Hyper-Threading schneller. Linpack lässt mit der Math Kernel Library kaum Ressourcen in den Funktionseinheiten der CPUs frei, die für Hyper-Threading notwendig wären. Bei eingeschaltetem Hyper-Threading arbeiten die Xeons rund zwei Prozent langsamer.

Im Test vergleichen wir den Xeon X5680 (kein AVX, nur SSE 4.2) mit den neuen E5-2600-Modellen:

Linpack AVX 10.3.7 mit 40.000 Gleichungen

Prozessor

GFlops

Plus an Performance

Xeon X5680

146

--

Xeon E5-2640

236

+62 Prozent

Xeon E5-2660

271

+86 Prozent

Xeon E5-2690

338

+132 Prozent

Der Xeon E5-2690 erreicht einen 132 Prozent höheren Durchsatz im Vergleich zum Xeon X5680. Bei Workloads ohne AVX, wie dem ebenfalls sehr speicherintensiven SPECfp_rate_base2006, kann sich der E5-2690 mit maximal 81 Prozent höherer Performance vom Vorgänger absetzen. Selbst bei einem vom Arbeitsspeicher sehr abhängigen Workload wie bei Linpack sorgt AVX somit nochmals für einen deutlichen Performance-Schub. Im Idealfall, und ohne Einflüsse des Arbeitsspeichers, kann AVX gegenüber SSE 4.2 die zweifachen FLOPs pro Taktzyklus ermöglichen.

Analyse: Energieeffizienz

Die Energieeffizienz der Server-Plattformen überprüfen wir mit der Benchmark-Suite SPECpower_ssj2008 unter Windows Server 2008 R2 mit SP1. Der Test verwendet parallel laufende Java-Workloads mit aufwendigem XML-Processing. Der Benchmark gibt die gemittelte Performance pro Watt an, die über alle Lastzustände von 10 bis 100 Prozent gemessenen wird.

Betrachten wir zuerst den Energiebedarf im Leerlauf. Hier macht die neue Xeon-E5-2600-Plattform einen großen Schritt nach vorne. Mit 94 Watt bei zwei Xeon E5-2690 benötigt das neue 2-Sockel-System satte 59 Watt weniger als der Xeon-X5680-Server. Die Ausstattung der Server ist bei den Netzteilen und dem Storage annähernd identisch. Im Xeon-E5-2600-Server sind durch das Quad-Channel-Speicher-Inferface der CPUs sogar 2 x 4 DIMMs eingesetzt, bei den Xeon-5600-CPUs (Triple-Channel-Controller) sind nur 2 x 3 DIMMs verbaut. Selbst die für ihre Sparsamkeit bekannte Socket-G34-Plattform der Opteron-6200-CPUs kann mit Intels neuer Xeon-E5-Generation nicht mehr mithalten.

Unter Volllast, wenn alle Kerne der CPUs sowie die DIMMs beansprucht werden, fordern die 135 Watt TDP und der DDR3-1600-Speicher ihren Tribut: Das Xeon-E5-2690-Duett benötigt mit dem Romley-EP-Server 438 Watt. Die mit 130 Watt spezifizierten Xeon X5680 sind zusammen mit ihrem DDR3-1333-Speicher jetzt mit 399 Watt etwas genügsamer. Turbo 2.0 reizt den TDP des Xeon E5-2690 auch noch mehr aus als der Turbo-Mode beim Xeon X5680. Die E5-2690 sind aber auch 77 Prozent schneller.

Ganz anders sieht der Xeon-Generationsvergleich aus, wenn zwei E5-2640 (Hexa-Core / 95 Watt TDP) im neuen Romley-EP-Server eingesetzt werden: Jetzt ist die Xeon-E5-Plattform mit 273 Watt deutlich sparsamer als das Xeon-X5680-System - bei gleichzeitig 16 Prozent höherer Performance.

Xeon E5-2660: Der 8-Core-Prozessor mit 2,2 GHz Grundtaktfrequenz und 95 Watt TDP sorgt im Romley-EP-Server für die beste Effizienz.

Werden die Energiewerte mit der Performance verknüpft, so ergibt sich über alle Lastzustände von 0 bis 100 Prozent die Energieeffizienz des Systems. Hier liefern alle getesteten neuen Xeon-E5-Prozessoren überragende Werte zusammen mit ihrer Romley-EP-Plattform. Als effizienteste Modelle entpuppen sich die 8-Core-CPUs Xeon E5-2660 mit 95 Watt TDP. Bei einem SPECpower-Wert von 2761 ssj_ops/watt ist der neue Socket-R-Server 128 Prozent effizienter als das Xeon-X5680-Päärchen im LGA1366-2-Sockel-Server. Selbst gegenüber dem bereits sehr effizienten Opteron-6276-System ist Intels Romley-EP-Plattform mit den E5-2660-CPUs 82 Prozent effizienter. Werden die Hexa-Core-Modelle Xeon E5-2640 eingebaut, so arbeitet der Intel-Server immer noch 54 Prozent effizienter als der Bulldozer-Server.

Fazit

Intels neue Xeon-E5-2600-Serie setzt bei x86-Servern mit zwei Sockeln neue Maßstäbe. Sowohl in der Performance als auch der Energieeffizienz arbeiten die 8-Core-Prozessoren mit Sandy-Bidge-EP-Architektur in einer eigenen Liga. Die Xeon-5600-Vorgänger und die konkurrierende Opteron-6200-Serie von AMD sind chancenlos gegen die Xeon-E5-2600-CPUs.

Bei Anwendungen ohne viel Speicherzugriff zieht Intels neues Topmodell Xeon E5-2690 dem Xeon X5680 um knapp 50 Prozent mehr Rechenleistung davon. AMDs 16-Core-Prozessor Opteron 6276, dessen Bulldozer-Architektur für Integer-Workloads optimiert ist, enteilt der 2690er selbst bei Ganzzahlenberechnungen um ebenfalls knapp 50 Prozent. Noch bitterer sieht es für AMD bei Fließkomma-basierenden Anwendungen aus; der 8-Core-Xeon arbeitet rund 68 Prozent schneller.

Doch gerade im Servereinsatz kommen oft Anwendungen mit massivem Speicherbedarf zum Einsatz. Hier zeigt AMDs Opteron 6200 durch seine vier DDR3-1600-Channel besonders gegenüber Intels Xeon-5600-Serie seine Stärken. Doch mit den neuen Xeon-E5-2600-Prozessoren fällt für AMD auch diese Bastion. Ebenfalls mit vier DDR3-1600-Channels pro CPU sowie zwei 8-GT/s-QuickPath-Links zwischen den Xeons gibt es massiv Bandbreite. Ergebnis: Der Xeon E5-2690 ist jetzt rund 45 Prozent schneller als der vormals führende Opteron 6276. Gegenüber dem Vorgänger Xeon X5680 zieht der neue 8-Core-Xeon sogar mit bis zu 81 Prozent höherer Performance davon.

Die pure Performance ist bei Servern jedoch nur noch die halbe Miete, immer wichtiger wird die Energieeffizienz. Und hier düpiert die neue Xeon E5-2600-Plattform die Konkurrenz und seinen Vorgänger endgültig: Durch die deutlich höhere Performance bei gleichzeitig geringerem Energiebedarf arbeiten die 95-Watt-8-Core-CPUs Xeon E5-2660 zusammen mit dem zugehörigen Socket-R-System 128 Prozent effizienter als ein Xeon-X5680-Päärchen im LGA1366-2-Sockel-Server. Selbst gegenüber dem bereits sehr effizienten Opteron-6276-System ist Intels Xeon-E5-2600-Plattform "Romley-EP" mit den E5-2660-CPUs 82 Prozent effizienter.

AMD kann - wie so oft in den letzten Jahren - einzig über die günstigeren Preise für die Prozessoren und die Plattform noch punkten. (cvi)

Testsysteme im Detail

Intels Xeon-E5-Prozessoren 2640, 2660 und 2690 nehmen im 2-Sockel-Server Intel R2208GZ4GSSPP Platz. Der 2U-Rackmount-Server verwendet als Systemboard Intels S2600GZ "Grizzly Pass" mit C600-Chipsatz. Jedem Prozessor stehen vier Registered DDR3-1600-DIMMs Samsung 2Rx4 PC3-12800R mit je 8 GByte Kapazität zur Verfügung. Insgesamt verfügt der Server durch die acht eingesetzten DIMMs 64 GByte RAM. Optional sind pro CPU acht DIMMs (2 pro Channel) möglich. Der Xeon E5-2660 und E5-2690 steuern den Speicher mit 1600 MHz an. Intels Xeon E5-2640 ermöglicht nur 1333 MHz.

Romley-EP-Plattform: Intels Zwei-Sockel-Server R2208GZ4GSSPP mit dem Systemboard S2600GZ verwenden wir zum Test der Xeon-E5-2600-CPUs.

Intels Xeon L5520 und X5570 "Nehalem-EP" sowie den Xeon L5630 und X5680 "Westmere-EP" testen wir in einem 2-Sockel-Server Asus RS700-E6/RS4. Der 1U-Server mit der neuen Tylersburg-EP-Plattform besitzt als Mainboard ein Asus Z8PS-D12-1U mit Chipsatz Intel 5520 und ICH10R. Jedem Prozessor steht pro Speicher-Channel ein 4 GByte Registered DIMM vom Typ Qimonda IMHH4GP12A1F1C-13H mit 1333 MHz Taktfrequenz zur Verfügung. Insgesamt besitzt das System damit 24 GByte Arbeitsspeicher - 12 GByte pro CPU mit drei Channels.

Tylerburg-EP-Plattform: Der Zwei-Sockel-Server Asus RS700-E6/RS4 dient als Testplattform für die Xeon-Prozessoren der Serien 5500 und 5600.

AMDs Opteron 6262 HE und 6276 testen wir im 2-Sockel-Betrieb in dem 1U-Rackserver Supermicro A+ 1022G-URF. Das System setzt auf AMDs SR5670-Chipsatz. Jedem Prozessor stehen vier Registered DDR3-1600-DIMMs zur Verfügung. Insgesamt verfügt das System mit acht 8-GByte-Riegeln 64 GByte Arbeitsspeicher. Der ebenfalls in diesem System getestete Opteron 6180 SE steuert den Speicher mit 1333 MHz Taktfrequenz an.

Den Opteron 6174 in der 2-Sockel-Konfiguration testen wir in einem 2-Sockel-Referenzsystem von AMD. Das Tower-System verwendet das AMD-Referenz-Mainboard Dinar2 mit AMD SR5690-Chipsatz. Beide Opteron 6174 können im Testsystem auf jeweils vier 4-GByte-Registered-DIMMs zurückgreifen. Dem System stehen somit insgesamt 32 GByte RAM zur Verfügung.

Socket-G34-Plattform: Der 2-Sockel-Server Supermicro A+ 1022G-URF arbeitet mit Opteron-6100- und Opteron-6200-Prozessoren.

Um insbesondere für die Energiemessungen möglichst gleiche Vorraussetzungen für die AMD- und Intel-Server zu ermöglichen, arbeiten in den Systemen an der SAS/SATA-Backplane jeweils zwei SATA-RAID-Edition-Festplatten. Bei den Energiemessungen achten wir darauf, die minimale Anzahl von DIMMs zu verwenden, bei der noch alle Speicher-Channels belegt sind. Unterschiede gibt es bei den Netzteilen. Der Xeon-X5680-Server bezieht seine Energie aus zwei 770-Watt-Netzteilen. Im Supermicro-Server des Opteron 6180 SE, 6262 HE und 6276 sowie im Xeon-E5-2600-System sind je zwei 750-Watt-Netzteile verbaut. Das 2S-Opteron-6174-System nutzt ein 1200-Watt-Netzteil.

Als Betriebssystem setzen wir Windows Server 2008/R2 SP1 Enterprise x64 ein. Tests unter Linux erfolgen mit CentOS 6.0 in der 64-Bit-Version.