10 Kerne, 20 Threads, 30 MByte Cache und Turbo

Intel Xeon E7-4870 im Test - Neue Generation mit Leistungssprung

05.04.2011 von Christian Vilsbeck
Intel stellt mit den Serien Xeon E7-2800, Xeon E7-4800 und Xeon E7-8800 seine neue Generation von Server-CPUs für Systeme mit zwei, vier oder acht Sockeln vor. Unser 4-fach Server mit Xeon E7-4870 stellt dem Betriebsystem 80 Prozessoren zur Verfügung. Wir haben die CPUs voll ausgereizt und die Grenzen von Windows Server 2008 R2 umgangen.

Für Server mit zwei, vier oder mehr Prozessoren ist bei Intel seit Ende März 2010 die Xeon-7500-Serie verantwortlich. Überwiegend sind die "großen" Xeons jedoch in 4-Sockel-Systemen beheimatet. Bei Servern mit zwei CPUs ist die Xeon-5600-Serie erste Wahl, besonders wenn es um Performance und geringe Kosten geht. Die Xeon-7500-CPUs legen dagegen viel Wert auf Skalierbarkeit, großen ausbaufähigen Arbeitsspeicher und Betriebssicherheit durch RAS-Features.

Die Xeon-7500-Serie arbeitet mit bis zu acht Kernen und basiert noch auf der 45-nm-Nehalem-Architektur. Jetzt spendiert Intel seinem Xeon-Flaggschiff mit der neuen Xeon-E7-Serie die Nachfolgegeneration. Die E7-Serie gibt es in Varianten für Server mit zwei (E7-2800), vier (E7-4800) oder acht Sockeln (E7-8800). Die neuen Prozessoren schwenken auf die 32-nm-Westmere-Architektur um und sollen damit deutlich effizienter werden.

Weniger Energiebedarf ist zwar immer willkommen, doch die Performance sollte bei Server-CPUs trotzdem zulegen. Diesem Ziel kommt Intel mit der Aufstockung der Kernanzahl von acht auf zehn nach. Zusammen mit dem inkludierten Hyper-Threading beherrscht ein Xeon E7 bis zu 20 Threads gleichzeitig. Neben mehr Kernen bekommt die E7-Serie auch noch mehr Cache. Den schon sehr üppigen Last-Level-Cache des Xeon 7500 von 24 MByte stockt Intel bei den Topmodellen des Xeon E7 auf 30 MByte auf. Ein neuer Befehlssatz, umfangreichere Speicherunterstützung sowie zusätzliche RAS-Features komplimentieren die Neuigkeiten der E7-Generation.

Bildergalerie: Intel Xeon E7 Serie mit Windows
10-Core-Prozessor Xeon E7-4870
Die vier Xeon E7-4870 mit 10-Core-Technologie besitzen insgesamt 40 Kerne. Durch das zusätzliche Hyper-Threading zeigt Windows Server 2008 R2 SP1 im Taskmanager 80 CPUs an.
10-Core-Prozessor Xeon E7-4870
Auch im Gerätemanager von Windows Server 2008 R2 SP1 wird eine endlose Liste von CPUs angezeigt...
10-Core-Prozessor Xeon E7-4870
Windows Server 2008 R2 SP1 unterstützt zwar mehr als 64 logische CPUs, durch die Gruppenrichtlinien gibt es jedoch Einschränkungen in der Thread-Zuweisung. Windows nutzt sogenannte Prozessorgruppen. In einer Gruppe lassen sich maximal 64 logische Prozessoren zusammenfassen.
10-Core-Prozessor Xeon E7-4870
Die 80 logischen CPUs von vier Xeon E7-4870 teilt Windows in zwei Gruppen auf.
10-Core-Prozessor Xeon E7-4870
Einem Thread lässt sich entweder Gruppe 0 oder Gruppe 1 zuweisen, aber nicht beide gleichzeitig.
10-Core-Prozessor Xeon E7-4870
Windows Server 2008 R2 SP1 unterstützt die Funktion „Core Parking“. Damit kann das Betriebssystem laufende Prozesse auf möglichst wenige CPU-Kerne zusammenfassen. Die nicht benötigten Kerne werden anschließend quasi deaktiviert und benötigen deutlich weniger Strom.
10-Core-Prozessor Xeon E7-4870
Im Testsystem, dem 4-Sockel-Server Intel/Quanta QSSC-S4R ist zu wenig Arbeitsspeicher kein Thema. Die 32 verbauten 4-GByte-DIMMs ergeben den üppigen Arbeitsspeicher von 128 GByte. Mit weiteren uns zur Verfügung stehenden 4-GByte-DIMMs lässt sich der Arbeitsspeicher über die noch freien Steckplätze auf 256 GByte erweitern.
10-Core-Prozessor Xeon E7-4870
Der Xeon E-4870 mit zehn Kernen arbeitet mit 2,4 GHz Grundtaktfrequenz. Per Turbo Mode können einzelne Kerne mit bis zu 2,8 GHz takten. Den 10Kernen steht ein 30 MByte großer gemeinsamer L3-Cache zur Verfügung. Intel spezifiziert den mit 32-nm-Westmere-Architektur ausgestatteten Xeon mit 130 Watt TDP.
4-Sockel-Server Intel/Quanta QSSC-S4R für LGA1167-CPUs
Als Testsystem für die vier Xeon E7-4870 - sowie die Xeon X7560 - steht uns ein von Intel und Quanta Computer zusammen entwickelter 4-Sockel-Server QSSC-S4R zur Verfügung.
4-Sockel-Server Intel/Quanta QSSC-S4R für LGA1167-CPUs
Der 4U-Server QSSC-S4R bietet Platz für vier Xeon X7560 oder Xeon E7-4879 und 64 DIMMs. Eine Vielzahl redundanter Lüfter sowie vier Netzteile sorgen für hohe Ausfallsicherheit.
4-Sockel-Server Intel/Quanta QSSC-S4R für LGA1167-CPUs
Das Storage-Subsystem des QSSC-S4R stellt acht 2,5-Zoll-Einschübe für SAS/SATA-Laufwerke zur Verfügung. Zusätzlich gibt es einen 5,25-Zoll-Einschub sowie ein verbautes DVD-ROM-Lauwerk.
4-Sockel-Server Intel/Quanta QSSC-S4R für LGA1167-CPUs
Insgesamt acht wechselbare und redundant ausgelegte Lüfter sorgen für Kühlung.
4-Sockel-Server Intel/Quanta QSSC-S4R für LGA1167-CPUs
Die maximal 64 DIMMs realisiert der Server über acht DIMM-Raiser-Cards. Für jeder CPU stehen zwei Raiser-Cards zur Verfügung.
4-Sockel-Server Intel/Quanta QSSC-S4R für LGA1167-CPUs
Jeder Xeon E7-4870 besitzt zwei integrierte Speicher-Controller. Jeder Controller besitzt zwei sogenannte „Scalable Memory Interfaces“ SMI. Dabei handelt es sich um serielle Highspeed-Links. Die insgesamt vier SMI-Links eines Xeon E7 steuern jeweils einen eigenen „Scalable Memory Interconnect with Buffers“ SMB an. Jeder SMB kann im Dual-Channel-Mode bis zu vier DIMMs ansprechen. Auf dem DIMM-Raiser sehen sie zwei SMBs. Pro Xeon E7 sind somit zwei DIMM-Raiser-Cards notwendig.
4-Sockel-Server Intel/Quanta QSSC-S4R für LGA1167-CPUs
Der Xeon E7-4870 unterstützt Registered DDR3-DIMMs mit Geschwindigkeiten von 800 und 1066 MHz. Im Bild sehen Sie ein 4-GByte-DIMM mit DDR3-1066.
4-Sockel-Server Intel/Quanta QSSC-S4R für LGA1167-CPUs
Zusammen mit dem Xeon E7 stellt Intel eine aktualisierte Variante "MillBrook 2" des SMBs vor. Damit unterstützt der Xeon E7 auch Low-Voltage-DIMMs. Oben im Bild ist das LV-DIMM, unten sehen Sie ein normales Registered DIMM. Das LV-DIMM wird mit 1,35 statt 1,5 V Spannung betrieben.
4-Sockel-Server Intel/Quanta QSSC-S4R für LGA1167-CPUs
Die vier verbauten Xeon E7-4870 werden im QSSC-S4R passiv gekühlt.
4-Sockel-Server Intel/Quanta QSSC-S4R für LGA1167-CPUs
Platz nehmen Intels Xeon-E7-Prozessoren wie bereits die Xeon-7500-Serie im Sockel LGA1567.
4-Sockel-Server Intel/Quanta QSSC-S4R für LGA1167-CPUs
Das 4-Sockel-System QSSC-S4R ist auf eine hohe Erweiterbarkeit ausgelegt. Hierfür bietet der Server zehn PCI-Express-Steckplätze, von denen vier Hot-Swap-fähig sind.
4-Sockel-Server Intel/Quanta QSSC-S4R für LGA1167-CPUs
Der QSSC-S4R-Server ist mit vier redundant ausgelegten 850-Watt-Netzteilen auf eine hohe Ausfallsicherheit getrimmt.

Wir überprüfen die Performance des neuen Xeon E7-4870 mit 10 Kernen und 2,4 GHz Taktfrequenz in der 4-Sockel-Konfiguration bei Integer- und Floating-Point-Anwendungen sowie bei Verschlüsselung, Rendering und Simulation. Die Geschwindigkeit bei Java-Applikationen wird ebenso untersucht wie die Energieeffizienz der Systeme. Außerdem messen wir den wir den Vorteil von Low-Voltage-DIMMs beim Xeon E7-4870.

Neue Prozessornummern für Xeon-CPUs

Intel führt die Xeon E7 "Westmere-EX" mit einem neuen Namensschema für eine einfachere Klassifizierung ein. Mit den bisherigen Prozessornummern wäre Intel zufolge die Diversifizierung der neuen und künftigen Server-CPUs nicht mehr adäquat möglich.

Alle neuen Xeons erhalten damit folgende Prozessornummern:

Xeon E# - m s xx (Beispiel: Xeon E7-4870)

Die Buchstaben und Ziffern haben folgende Bedeutung:

Bildergalerie: Intel Prozessornummer
Geändertes Namensschema für alle neuen Xeons
Intel führt die Xeon “Westmere-EX” mit einem neuen Namensschema für eine einfachere Klassifizierung ein. Mit den bisherigen Prozessornummern wäre Intel zufolge die Diversifizierung der neuen und künftigen Server-CPUs nicht mehr adäquat möglich.
Geändertes Namensschema für alle neuen Xeons
Die Prozessornummer zeigt jetzt die Multiprozessorfähigkeit und den Sockeltyp gleich mit auf.
Geändertes Namensschema für alle neuen Xeons
Alle neuen Xeons werden mit dem geänderten Schema gekennzeichnet. Ältere Xeons sowie die Itanium sind davon nicht betroffen.
Geändertes Namensschema für alle neuen Xeons
An künftige neue Generationen wird einfach ein v2, v3, v4 usw. angehängt.
Geändertes Namensschema für alle neuen Xeons
Auch Intels Chipsätze erhalten ein neues Namensschema.

Hängt an Ende der neuen Prozessornummer noch ein "L", so handelt es sich um eine Low-Voltage-Variante: Xeon E7-8867L

Eine neue Generation innerhalb einer Serie wird künftig mit einer zusätzlichen Versionierung angezeigt. Diese beginnt aber erst mit der zweiten Version "v2".Beispielsweise wird der Westmere-EX-Nachfolger dann die Bezeichnung Xeon E7-4800 v2 erhalten. Bei der jeweils ersten Xeon-Generation mit dem neuen Namensschema wird die Version noch weggelassen.

Xeon E7 mit 20 Threads

Die Xeon-E7-Serie 2800/4800/8800 unterscheidet sich vom Vorgänger Xeon 7500 in erster Linie durch den Wechsel von der 45-nm-Nehalem- auf die 32-nm-Westmere-Architektur. Durch die Strukturreduzierung erhalten die Xeon E7 höhere Taktfrequenzen, mehr Kerne und einen größeren Cache bei unveränderter TDP-Einstufung. Intel spezifiziert die Xeon-E7-Serie unverändert zu den Xeon-7500-Prozessoren mit TDP-Werten von 95, 105 und 130 Watt.

Intel vereint beim neuen Xeon E7 "Westmere-EX" stets alle Kerne auf einem Siliziumplättchen. Die Prozessoren gibt es mit 6, 8 oder 10 Kernen. Jedem Core steht ein dedizierter 256 KByte großer L2-Cache zur Verfügung. Für alle Cores gibt es einen gemeinsamen bis zu 30 MByte (je nach Modell) fassenden L3-Cache. Insgesamt steht den E7-Topmodellen somit 32,5 MByte Cache zur Verfügung.

Topmodell: Der Xeon E7-4870 mit zehn Kernen und 30 MByte L3-Cache arbeitet mit 2,4 GHz Grundtaktfrequenz. Per Turbo Mode können einzelne Kerne mit bis zu 2,8 GHz arbeiten.

Intels 10-Core-Prozessor kann durch sein zusätzliches Hyper-Threading pro Kern insgesamt 20 Threads parallel abarbeiten. Als Topmodell für Systeme mit vier Sockeln fungiert der von TecChannel getestete Xeon E7-4870 mit zehn Kernen, 30 MByte L3-Cache und 2,4 GHz Taktfrequenz. Den Einstieg der Serie markiert der sechskernige Xeon E7-4807 mit 18 MByte L3-Cache und 1,86 GHz Taktfrequenz.

Bis auf die Einstiegsmodelle Xeon E7-2803 und E7-4807 beherrschen alle Xeon-E7-CPUs die Turbo-Technologie zum Steigern der Taktfrequenz einzelner Kerne. So kann beispielsweise der Xeon E7-4870 seine Grundtaktfrequenz von 2,4 GHz bei einem Core um bis zu drei "Speed-Bins" erhöhen. Dies entspricht bei den festgelegten 133 MHz für einen "Bin" dann einer um 400 MHz auf 2,8 GHz erhöhten Taktfrequenz.

Bildergalerie: Intel Xeon E7 Serie - Produktpräsentation
Intel Xeon E7 Serie 2800/4800/8800
Intel Xeon E7 Serie 2800/4800/8800
Intel Xeon E7 Serie 2800/4800/8800
Intel Xeon E7 Serie 2800/4800/8800
Intel Xeon E7 Serie 2800/4800/8800
Intel Xeon E7 Serie 2800/4800/8800
Intel Xeon E7 Serie 2800/4800/8800
Intel Xeon E7 Serie 2800/4800/8800
Intel Xeon E7 Serie 2800/4800/8800
Intel Xeon E7 Serie 2800/4800/8800
Intel Xeon E7 Serie 2800/4800/8800
Intel Xeon E7 Serie 2800/4800/8800
Intel Xeon E7 Serie 2800/4800/8800
Intel Xeon E7 Serie 2800/4800/8800
Intel Xeon E7 Serie 2800/4800/8800
Intel Xeon E7 Serie 2800/4800/8800
Intel Xeon E7 Serie 2800/4800/8800
Intel Xeon E7 Serie 2800/4800/8800
Intel Xeon E7 Serie 2800/4800/8800
Intel Xeon E7 Serie 2800/4800/8800
Intel Xeon E7 Serie 2800/4800/8800
Intel Xeon E7 Serie 2800/4800/8800
Intel Xeon E7 Serie 2800/4800/8800
Intel Xeon E7 Serie 2800/4800/8800
Intel Xeon E7 Serie 2800/4800/8800
Intel Xeon E7 Serie 2800/4800/8800
Image27Intel Xeon E7 Serie 2800/4800/8800
Intel Xeon E7 Serie 2800/4800/8800
Intel Xeon E7 Serie 2800/4800/8800
Intel Xeon E7 Serie 2800/4800/8800
Intel Xeon E7 Serie 2800/4800/8800
Intel Xeon E7 Serie 2800/4800/8800
Intel Xeon E7 Serie 2800/4800/8800
Intel Xeon E7 Serie 2800/4800/8800

Durch die Westmere-Architektur beherrscht der Xeon E7 den AES-NI-Befehlssatz. Die Erweiterung beschleunigt das De- und Enkodieren erheblich. AES-NI ist bei Server-CPUs beispielsweise interessant für SSL-Transaktionen bei Webservern. Bei einer AES-Verschlüsselung konnten wir im TecChannel-Testlabor mit einem Xeon X5680 (ebenfalls Westmere-Architektur) eine Beschleunigung um den Faktor 6,6 ermitteln. Neben AES-NI integriert Intel bei der Xeon-E7-Serie seine TXT-Befehlssatzerweiterung für Trusted Computing. Damit soll die Sicherheit in virtuellen Maschinen erhöht werden.

Hohe Skalierfähigkeit und LV-DIMMs

Die Xeon-E7-Serie setzt weiterhin auf den Socket LGA1567 der Vorgängermodelle Xeon 7500. Entsprechend lassen sich die neuen Prozessoren auch in den aktuellen Xeon-7500-Plattformen mit Xeon 7500 Chipsatz (Codename Boxboro-EX) verwenden. Eine neue BIOS-Version sollte LGA1567-Systeme fit für den Xeon E7 machen.

Intel stattet den Xeon E7 in der Serie 4800/8800 mit vier QuickPath-Interfaces aus. Damit lassen sich bis zu acht Xeon-E7-8800 direkt und ohne zusätzliche Switch-Chips miteinander verbinden. Die QuickPath-Schnittstellen arbeiten pro Link mit einer Bandbreite von 4,8, 5,86 oder 6,4 GT/s (modellabhängig). Im Prozessor sind die vier QPI-Links über einen Crossbar-Router verbunden.

Als Chipsatz für die Xeon-E7-Plattform steht unverändert der Intel 7500 "Boxboro-EX" parat. Der Chipsatz ist ein I/O-Hub und ist nur noch als Brücke zwischen den QPI-Links der CPUs und den I/O-Schnittstellen zu sehen. Die Hauptfunktion von Boxboro-EX ist das Bereitstellen von PCI-Express-2.0-Schnittstellen.

Verbund: Durch die vier QuickPath-Schnittstellen lassen sich bis zu acht Xeon E7-8800 ohne zusätzlichen Switch miteinander verbinden.
Foto: Intel

Jeder Xeon E7 besitzt - wie bereits der Xeon 7500 - zwei integrierte Speicher-Controller. Jeder Controller verfügt über zwei sogenannte "Scalable Memory Interfaces" SMI. Dabei handelt es sich um serielle Highspeed-Links. Die insgesamt vier SMI-Links eines Xeon E7 steuern jeweils einen eigenen "Scalable Memory Interconnect with Buffers" SMB an. Jeder SMB kann im Dual-Channel-Mode bis zu vier Registered DDR3-DIMMs mit 800 oder 1066 MHz ansprechen. Das Memory-Subsystem eines Xeon E7 kann somit 16 DIMMs via acht Channels ansteuern. Die E7-Modelle verdoppeln dabei auch die unterstützte DIMM-Kapazität von 16 auf 32 GByte. Pro CPU sind 512 MByte Arbeitsspeicher möglich. In einem 4-Sockel-System mit vier Xeon E7-4800 steigt damit die RAM-Kapazität auf 2 TByte.

Zusammen mit dem Xeon E7 stellt Intel für die Boxboro-EX-Plattform einen verbesserten SMB mit Codenamen "MillBrook 2" vor. Der Chip sorgt für eine bessere Ausnutzung der Speicherbandbreite und bietet eine Unterstützung für Low-Voltage-DIMMs.

Erweiterte RAS-Features auf RISC-Niveau

Mit der Xeon-7500-Serie und verbessert mit dem Xeon E7 bietet Intel eigenen Angaben zufolge die RAS-Features von RISC-Systemen bei x86-Servern an. Möglich machen soll dies vor allem das Feature "MCA Recovery" der Xeon-Prozessoren. Mit der "Machine Check Architecture" (MCA) sollen Fehler bei CPU, Speicher und I/O entdeckt und korrigiert werden. Defekte bei diesen Komponenten sollen den Betrieb des Servers nicht stören.

RISC-Angriff: Mit dem Feature "MCA Recovery" soll der Xeon E7 im x86-Segment die RAS-Fähigkeit von RISC- und Itanium-Systemen bieten.
Foto: Intel

Das Feature "MCA Recovery" muss von den Betriebssystemen unterstützt werden. Microsoft unterstützt MCA Recovery mit Windows Server 2008 R2, Novell mit SUSE Linux Enterprise 11 SP1. Red Hat nutzt das RAS-Feature mit RHEL 6. VMware will künftige Versionen von vSphere anpassen.

Neu mit dem Xeon E7 ist eine Double Device Data Correction (DDDC). Damit können zwei defekte Speicherchips auf einem DIMM ohne Betriebsstörung abgefangen werden. Mit dem Vorgänger Xeon 7500 ist nur eine Single Device Data Correction (SDDC) möglich. Das DDDC-Feature unterstützt beispielsweise auch Intels Itanium 9300.

Ein wichtiges RAS-Feature bei Servern ist zudem Memory Mirroring. Intels Xeon 7500 unterstützt bereits Hot-plug-fähigen Spiegelspeicher. Der Xeon E7 bietet zusätzlich ein sogenanntes "Fine Grained (Partial) Memory Mirroring". Damit wird nur ein Teil des Arbeitsspeichers gespiegelt, beispielsweise kritische Bereiche. Der übrige Speicher bleibt ungespiegelt. Laut Intel ist damit ein effektiveres Mirroring möglich.

Alles sicher: Intel integriert in der Xeon-E7-Plattform umfangreiche RAS-Features. Neu mit dem Xeon E7 ist die Unterstützung von DDDC und Fine Grained Memory Mirroring.
Foto: Intel

Mit den Hochverfügbarkeits-Features sowie der hohen Skalierfähigkeit des Westmere-EX macht sich Intel verstärkt interne Konkurrenz zum Itanium. Hier pochte Intel bisher stets auf die speziellen RAS-Features wie beispielsweise DDDC für den sicheren Betrieb von Mission-Critical-Workloads. Der Itanium sei laut Intel aber weiterhin die "ideale Lösung" für System mit mehr als acht Prozessoren und höchstem Speicherbedarf.

Alle Xeon-E7-Modelle im Überblick

In der Tabelle finden Sie alle neuen Xeon-E7-Prozessoren sowie die Vorgängerserie Xeon 7500 mit ihren technischen Daten im Überblick:

Alle Xeon-E7-Modelle plus Vorgänger im Überblick

Prozessor

Grundtaktfrequenz [GHz]

QPI [GT/s]

Skalierfähigkeit (glueless)

L3-Cache [MByte]

Kerne

DIMM-Support

Turbo [Speed Bins]

HT

TDP [Watt]

Xeon E7-8870

2,4

6,4

8

30

10

DDR3-1066

ja

ja

130

Xeon E7-8867L

2,13

6,4

8

30

10

DDR3-1066

ja

ja

105

Xeon E7-8860

2,26

6,4

8

24

10

DDR3-1066

ja

ja

130

Xeon E7-8850

2,0

6,4

8

24

10

DDR3-1066

ja

ja

130

Xeon E7-8837

2,66

6,4

8

24

8

DDR3-1066

ja

nein

130

Xeon E7-8830

2,13

6,4

8

24

8

DDR3-1066

ja

ja

105

Xeon E7-4870

2,4

6,4

4

30

10

DDR3-1066

ja

ja

130

Xeon E7-4860

2,26

6,4

4

24

10

DDR3-1066

ja

ja

130

Xeon E7-4850

2,0

6,4

4

24

10

DDR3-1066

ja

ja

130

Xeon E7-4830

2,13

6,4

4

24

8

DDR3-1066

ja

ja

105

Xeon E7-4820

2,0

5,86

4

18

8

DDR3-1066

ja

ja

105

Xeon E7-4807

1,86

4,8

4

18

6

DDR3-800

nein

ja

95

Xeon E7-2870

2,4

6,4

2

30

10

DDR3-1066

ja

ja

130

Xeon E7-2860

2,26

6,4

2

24

10

DDR3-1066

ja

ja

130

Xeon E7-2850

2,0

6,4

2

24

10

DDR3-1066

ja

ja

130

Xeon E7-2830

2,13

6,4

2

24

8

DDR3-1066

ja

ja

105

Xeon E7-2820

2,0

5,86

2

18

8

DDR3-1066

ja

ja

105

Xeon E7-2803

1,73

4,8

2

18

6

DDR3-800

nein

ja

105

Xeon X7560

2,26

6,4

8 Sockets

24 MByte

8

DDR3-1066

+3

ja

130

Xeon X7550

2,0

6,4

8 Sockets

18 MByte

8

DDR3-1066

+3

ja

130

Xeon X7542

2,66

5,86

8 Sockets

18 MByte

6

DDR3-1066

+1

nein

130

Xeon E7540

2,0

6,4

8 Sockets

18 MByte

6

DDR3-1066

+2

ja

105

Xeon E7530

1,86

5,86

4 Sockets

12 MByte

6

DDR3-1066

+2

ja

105

Xeon E7520

1,86

4,8

4 Sockets

18 MByte

4

DDR3-800

nein

ja

95

Xeon L7555

1,86

5,86

8 Sockets

24 MByte

8

DDR3-1066

+5

ja

95

Xeon L7545

1,86

5,86

8 Sockets

18 MByte

6

DDR3-1066

+5

ja

95

Windows: Achtung bei 80 Threads

Bei 4-Sockel-Systemen mit x86-Prozessoren wie dem Opteron 6100 (12 Kerne) oder Xeon 7500 (8 Kerne + HT = 16) sind maximal 48 beziehungsweise 64 logische Prozessoren vom Betriebssystem zu verwalten. Mit vier Xeon E7-4870 (10 Kerne + HT = 20) stehen dem Betriebssystem jetzt aber 80 "CPUs" zur Verfügung. Als eine logische CPU wird vom Betriebssystem sowohl ein physischer als auch ein virtueller Kern, wie durch Hyper-Threading generiert, gesehen.

Unter Linux lassen sich alle 80 logischen Prozessoren von einer Anwendung nutzen. Anders stellt sich die Sachlage unter Windows Server 2008 R2 dar. Zwar unterstützt das Betriebssystem - wie auch Windows 7 - mehr als 64 logische CPUs, durch die Gruppenrichtlinien gibt es jedoch Einschränkungen bei der Thread-Zuweisung. Windows nutzt sogenannte Prozessorgruppen. In einer Gruppe lassen sich maximal 64 logische Prozessoren zusammenfassen.

CPU-Reigen: Die vier Xeon E7-4870 mit 10-Core-Technologie besitzen insgesamt 40 Kerne. Durch das zusätzliche Hyper-Threading zeigt Windows Server 2008 R2 SP1 im Taskmanager 80 CPUs an.

Beim 4-Sockel-System mit vier Xeon E7-4870 mit 80 logischen CPUs richtet Windows automatisch zwei Gruppen ein. Es gibt eine Gruppe 0 mit 20 und eine Gruppe 1 mit 60 Prozessoren. Dass Windows keine Gruppen mit 64 (Maximum) und 16 logischen Prozessoren einrichtet, liegt an der zusätzlichen Node-Spezifizierung. So wird vom Betriebssystem ein CPU-Sockel als Node erfasst. Beim 4-Sockel-System richtet Windows Node 0, Node 1, Node 2 und Node 3 ein. Jedem Node ist in unserem Fall ein Xeon E-4870 mit 20 logischen Prozessoren zugeordnet. Durch die Gruppenrichtlinien von Windows werden immer komplette Nodes einer Prozessorgruppe zugewiesen.

Ab in die Gruppe: Windows Server 2008 R2 SP1 unterstützt zwar mehr als 64 logische CPUs, durch die Gruppenrichtlinien gibt es jedoch Einschränkungen in der Thread-Zuweisung. Windows nutzt sogenannte Prozessorgruppen. In einer Gruppe lassen sich maximal 64 logische Prozessoren zusammenfassen.

Unter Windows Server 2008 R2 kann ein Prozess, wie beispielsweise java.exe, nur maximal 60 logische Prozessoren, sprich eine Gruppe, nutzen. Einem Thread lassen sich nicht beide Prozessorgruppen zuordnen. Viele Windows-Programme sind durch diese Gruppenrichtlinie auf die Nutzung von maximal 64 logischen Prozessoren ausgelegt.

Damit eine Anwendung unter Windows mehr als 64 logische CPUs nutzen kann, müssen parallel agierende Threads zusammenarbeiten. Generiert dabei ein Thread in Gruppe 0 einen neuen Thread, so wird dieser automatisch aber der Gruppe des ursprünglichen Threads zugewiesen. Hier lässt sich über eine konfigurierbare Prozessoraffinität aber regulierend eingreifen, dass die Folge-Threads die anderen Gruppen nutzen.

Laut TecChannel vorliegenden, aber von Microsoft unbestätigten Informationen, werden die Nachfolger von Windows 7 und Windows Server 2008 R2 die Beschränkung auf 64 CPUs pro Gruppe nicht mehr besitzen.

Anwendungen mit /node /affinity starten

Über die "Processor Affinity" lässt sich unter Windows genau festlegen, auf welchen logischen Prozessoren eine Anwendung laufen soll. Die Maskierung von CPUs erfolgt nach einem einfachen binären Muster. Ein Xeon E7-4870 mit seinen 20 logischen Prozessoren wird über 20 binäre "1" maskiert:

(end) 11111 11111 11111 11111 (begin)

Soll ein Thread also beispielsweise dediziert auf den ersten fünf logischen CPUs des Xeon E7 arbeiten, erfolgt die Maskierung über den Binär-Code:

(end) 00000 00000 00000 11111 (begin)

In Hex-Code umgerechnet ergibt das 1F, für die Zuordnung aller 20 logischen Prozessoren des Xeon E7-4870 wäre FFFFF notwendig. Auf der Kommandozeile lässt sich eine Anwendung mit Prozessoraffinität wie folgt starten:

start /affinity 1F anwendung.exe

Bei der Affinity-Zuweisung ist allerdings wieder bei FFFF FFFF FFFF FFFF wieder Schluss - mehr als diese 64 CPUs lässt die Prozessormaskierung unter Windows nicht zu. Die 80 logischen CPUs bei vier Xeon E7-4870 wären demnach mit FFFFF FFFFF FFFFF FFFFF zu adressieren. Diese Affinity-Zuweisung endet allerdings in einer Fehlermeldung, weil die Maskierung wieder die maximal mögliche Anzahl von 64 in einer Gruppe überschreitet.

Mit Windows Server 2008 R2 gibt es mit dem Service Pack 1 allerdings eine weitere Maskiermöglichkeit über die Nodes im System. Im Beispiel unseres 4-Sockel-Systems mit vier Xeon E7-4870 sieht das Betriebssystem die vier Knotenpunkte Node 0, Node 1, Node 2 und Node 3. Soll beispielsweise eine Anwendung dediziert auf allen 20 logischen Prozessoren des vierten Xeons (Node 3) laufen, so erfolgt dies über den Befehl:

start /node 3 /affinity f0000 anwendung.exe

Durch die Node-Affinität lässt sich auch in Systemen mit mehr als 64 logischen CPUs die Prozessoraffinität anwenden. Aber auch hier gilt: ein Thread kann nicht auf mehreren Nodes mit über 64 logischen Prozessoren laufen.

Arbeiten auf einem Server beispielsweise mehrere CPU-intensive Anwendungen parallel, so ordnet das Thread-Managment von Windows den Threads oft alternierend verschiedene logische CPUs zu. Der dabei entstehende Overhead kostet jedoch Performance. Arbeiten die Anwendungen mit Prozessoraffinität und somit immer auf dedizierten Kernen, so lässt sich die Rechenleistung bei ausgelastetem System um zirka fünf bis 10 Prozent erhöhen.

Analyse: Rechenleistung

Intels Xeon E7-4870 (2,4 GHz) setzt gegenüber dem achtkernigen Vorgänger Xeon X7560 (2,26 GHz) seine 10-Core-Technologie und die höhere Taktfrequenz bei Anwendungen ohne große Cache-Auslastung und Speicherbedarf in 31 Prozent mehr Performance um. Dies zeigt sich beispielsweise unter Linux 64 Bit mit openssl, wenn alle 80 logischen CPUs unter Volllast sind. Hyper-Threading sorgt bei den Prozessoren für eine 19 Prozent höhere Performance - sowohl beim Xeon E7-4870 als auch beim Xeon X7560.

Wird von Applikationen verstärkt viel Arbeitsspeicher benötigt, so sinkt der Skaliereffekt durch die zusätzlichen Kerne bei unveränderter Plattform etwas. Kaum so beim neuen Xeon E7-4870: Der von 24 auf 30 MByte vergrößerte Cache sowie der verbesserte SMB auf den Speicherkarten bescheinigt dem 10-Kern-Prozessor eine weiterhin zirka 30 Prozent höhere Performance. Der Wert lässt sich mit dem speicherintensiven Java-Workload von SPECpower ermitteln. Multiple Java-Engines lasten hier mittels /node /affinity Maskierung unter Windows Server 2008 R2 SP1 alle 80 logischen CPUs voll aus und akquirieren zirka 80 GByte Arbeitspeicher.

Mit dem Benchmark SPEC CPU2006 überprüfen wir die Integer- und Floating-Point-Leistungsfähigkeit der Prozessoren. Bei den Tests von CPU2006 haben wir Hyper-Threading bei den vier Xeon E7-4870 ausgeschalten, weil mehr als 64 logische Prozessoren bei diesem Benchmark unter Windows zu Problemen führt. Ohne HT stehen dem System 40 Kerne (4 x 10 Cores) zur Verfügung. Um den Performance-Vorteil des Xeon E7-4870 zu eruieren, testen wir den zu vergleichenden Xeon X7560 (4 x 8 Cores) zusätzlich auch ohne HT. Die vier Xeon E7-4870 liefern dabei eine 25 Prozent höhere Integer-Leistung im Vergleich zu den Xeon-X7560-CPUs. Der sehr speicherintensive Floating-Point-Workload wird von den E7-Prozessoren 24 Prozent schneller abgearbeitet. Auch hier profitieren die neuen Westmere-EX-Xeons stark von dem größeren L3-Cache sowie den effizienteren SMBs.

Analyse: Energieeffizienz

Die Energieeffizienz der Server-Plattformen überprüfen wir mit der Benchmark-Suite SPECpower_ssj2008 unter Windows Server 2008 R2. Der Test verwendet parallel laufende Java-Workloads mit aufwendigem XML-Processing. Durch die parallel arbeitenden JVMs (Java Virtual Machine) lassen sich unter Windows alle 80 logischen Prozessoren der vier Xeon E7-4870 voll auslasten.

Die Energieeffizienz des Boxboro-EX-Servers (Plattform für Xeon-7500- und E7-4800-Serie) steigt mit den vier Xeon E7-4870 um sehr gute 39 Prozent gegenüber den Xeon-X7560-CPUs. Verantwortlich für die Effizienzsteigerung zeigt sich primär die höhere Performance der neuen 32-nm-Xeons. Die Energieaufnahme des 4-Sockel-LGA1567-Servers ist mit den neuen Prozessoren ebenfalls etwas geringer: Im Leerlauf benötigt das System mit vier Xeon-E7-4870-CPUs 569 statt 608 Watt mit den Xeon X7560. Beide Xeon-Generationen sind mit einem TDP-Wert von 130 Watt spezifiziert. Insofern bleibt die Energieaufnahme des Servers auch unter Volllast mit beiden CPU-Bestückungen auf ähnlichem Niveau (1138 Watt mit 4x X7560, 1108 Watt mit 4x E7-4870).

Interessant ist auch die Effizienzanalyse von Hyper-Threading beim Xeon E7-4870. Mit HT eingeschaltet (80 logische Prozessoren) schaffen vier Xeon E7-4870 eine Java-Performance von 2.030.341 ssj_ops, ohne HT (40 logische CPUs) sinkt der Java-Durchsatz auf 1.683.011 ssj_ops. Bei der vollen Auslastung genehmigt sich der Boxboro-EX-Server mit HT 1108 Watt und bei ausgeschaltetem HT noch 992 Watt. Hyper-Threading sorgt beim Xeon E7-4870 somit für eine 21 Prozent höhere Performance bei nur 12 Prozent gesteigertem Energiebedarf.

Analyse: Vorteil von LV-DIMMs

Intels neuer Xeon E7-4870 unterstützt zusammen mit dem SMB "MillBrok 2" Low-Voltage-DDR3-DIMMs. Die Stromsparmodule arbeiten mit einer Betriebsspannung von 1,35 V im statt den 1,5 V der normalen Registered DIMMs.

Um den Unterschied zwischen gepufferten LV-DIMMs und normalen Registered DIMMs zu ermitteln, stehen uns jeweils 32 4-GByte-DIMMs von beiden Varianten zur Verfügung. Während der Boxboro-EX-Server mit den vier Xeon E7-4870 und Standardriegeln bei SPECpower_ssj2008 eine Energieeffizienz von 1249 ssj_ops/watt erreicht, steigt der Wert mit LV-DIMMs auf 1331 ssj_ops/watt. Damit erhöht sich die Systemeffizienz nur durch den Tausch der DIMMs um knapp sieben Prozent.

Durch den Tausch der 32 1,5-V-DIMMs auf LV-Riegeln sinkt der Energiebedarf des Servers im Leerlauf von 569 auf 547 Watt. Unter Volllast mit hohem Speicherbedarf vergrößert sich der Unterschied zwischen beiden DIMM-Varianten von 1108 auf 1021 Watt.

Stromsparspeicher: Oben im Bild ist das LV-DIMM, unten sehen Sie ein normales Registered DIMM. Das LV-DIMM wird mit 1,35 statt 1,5 V Spannung betrieben.

In großen Rechenzentren kann sich der Einsatz von LV-DIMMs durch die Energieeinsparung rechnen. Neben den geringeren Stromkosten für die Server wird auch weniger Energie für die Kühlung des Rechenzentrums benötigt. Der typische Preis für ein 4 GByte PC3-10600R DIMM liegt bei 105 Euro, die entsprechende Low-Voltage-Variante ist für etwa 120 Euro erhältlich (Stand: 05.04.11). Je nach Modul und Kapazität liegt der Preisaufschlag für ein Stromsparmodul zwischen 15 bis 30 Prozent.

Fazit

An Performance mangelt es bereits dem achtkernigen Xeon X7560 wenig, auch im Vergleich zu AMDs Opteron 6100 mit 12 Kernen. Allerdings bleibt die Energieeffizienz der Xeon-7500-Plattform weit hinter den sparsam agierenden Opteron-6100-Systemen zurück.

Beim neuen Xeon E7-4870 mit Westmere-Architektur legt Intel in beiden Bereichen deutlich zu. Durch die Aufstockung von acht auf zehn Kerne sowie der L3-Cache-Vergrößerung von 24 auf 30 MByte steigt die Performance typischerweise um 25 bis 30 Prozent. Daran ist mit einigen Prozentpunkten auch die von 2,26 GHz beim Xeon X7560 auf 2,4 GHz gesteigerte Taktfrequenz beteiligt. Die theoretisch maximale Leistungsaufnahme des Xeon E7-4870 ist mit spezifizierten 130 Watt TDP dagegen unverändert geblieben.

Durch die gleichzeitig höhere Rechenleistung steigt auch die Energieeffizienz unseres 4-Sockel-LGA1567-Servers durch den Tausch der Prozessoren um sehr gute 39 Prozent. Die Energieaufnahme des Systems ist mit den neuen Xeon-E7-4870-CPUs sogar etwas geringer als mit den vier Xeon X7560. Mit seinen neuen 10-Core-Xeons ist Intel im 4-Sockel-Segment nun auf dem Performance-/Watt-Level der sehr effizienten Opteron-6100-Prozessoren.

Herausragend im Segment der x86-Server sind die RAS-Features der Xeon-E7-Plattform. Insbesondere die MCA-Technologie zum Abfangen von Hardwarefehlern besitzt RISC-Niveau. Durch Sicherheitsmerkmale wie DDDC grast Intel mit dem Xeon E7 wieder ein Stückchen tiefer im Gebiet der überschaubaren Itanium-9300-Weide. Die sehr skalierfähigen Xeon-E7-Systeme sind auch eine deutlich günstigere Wahl als Itanium- oder RISC-Maschinen.

Wichtig im primären Einsatzgebiet der Konsolidierungsszenarien ist der massiv mögliche Speicherausbau der Xeon-E7-Plattform. Ein 4-Sockel-Server kann mit 64 DIMMs bis zu 2 TByte Arbeitsspeicher verwalten. Bei der hohen DIMM-Anzahl lohnen sich auch schnell LV-Module, die der Xeon E7 erstmals unterstützt.

Wer ein 4-Sockel-System mit zehnkernigen Xeon-E7-Prozessoren für den Einsatz mit Windows Server 2008 R2 plant, sollte jedoch zunächst seine Workloads analysieren. Durch die "Processor Group Policies" von Windows sind pro Thread nur 64 logische Prozessoren verwendbar. Die insgesamt 80 logischen CPUs müssen auf mehrere Threads beziehungsweise Anwendungen aufgeteilt werden, um vier Xeon E7-4870 voll auszulasten. (cvi)

Testsysteme im Detail

Für den Test des Xeon X7560 und Xeon E7-4870 dient uns der 4-Sockel-Server QSSC-S4R, den Intel hat zusammen mit Quanta Computer entwickelt hat. Das 4U-System für vier Prozessoren verfügt über 64 DIMM-Slots. Die Registered DDR3-1066-Speicherriegel nehmen in acht Hot-Swap-fähigen Riser-Karten Platz. Die in unserem System verwendeten Samsung M393B5170FH0 mit 4 GByte ergeben bei Vollbestückung 256 GByte RAM. Um die Auswirkung von LV-DIMMs auf die Energieeffizienz zu überprüfen, stehen uns 32 4-GByte-Stromsparmodule vom Typ Samsung M393B5273CH0 zur Verfügung.

Xeon-E7/7500-Plattform: Der 4U-Server QSSC-S4R bietet Platz für vier Xeon X7560 oder Xeon E7-4879 und 64 DIMMs. Eine Vielzahl redundanter Lüfter sowie vier Netzteile sorgen für hohe Ausfallsicherheit.

Intels Xeon X7560 in der 2S-Konfiguration testen wir in dem 4-Sockel-Server Dell PowerEdge R810. Der 2U-Server verwendet den Intel-7500-Chipsatz und bietet insgesamt 32 DIMM-Steckplätze. Pro CPU stehen somit acht Registered DDR3-1066-DIMMs zur Verfügung. Das System kann in der Vollbestückung mit 4-GByte-Modulen auf 128 GByte RAM zurückgreifen.

AMDs Opteron 6174 in der 4S-Konfiguration testen wir in dem 2U-Rackserver Dell PowerEdge R815. Das Chassis ist sehr ähnlich ung gut vergleichbar zum PowerEdge R810 mit den zwei Xeon X7560. Der 2U-Rackserver R815 setzt auf AMDs SR5670-Chipsatz. Jedem Prozessor stehen acht Registered DDR3-1333-DIMMs (zwei pro Channel) zur Verfügung. Die insgesamt 32 DIMM-Steckplätze ermöglichen mit 4-GByte-Riegeln 128 GByte Arbeitsspeicher.

Opteron-6100-Plattform: Der Dell PowerEdge R815 für vier Opteron 6174 stellt jeder CPU bis zu acht DDR3-DIMMs zur Verfügung.

Den Opteron 6174 in der 2-Sockel-Konfiguration testen wir in einem 2-Sockel-Referenzsystem von AMD. Das Tower-System verwendet das AMD-Referenz-Mainboard Dinar2 mit AMD SR5690-Chipsatz. Jeder Socket-G34-CPU stehen acht DIMM-Steckplätze zur Verfügung (zwei Speicherriegel pro Channel). Beide Opteron 6174 können im Testsystem auf jeweils vier 4-GByte-Registered-DIMMs zurückgreifen. Dem System stehen somit insgesamt 32 GByte RAM zur Verfügung.

Intels Xeon X5680 "Westmere-EP" testen wir in einem 2-Sockel-Server Asus RS700-E6/RS4. Der 1U-Server mit der neuen Tylersburg-EP-Plattform besitzt als Mainboard ein Asus Z8PS-D12-1U mit Chipsatz Intel 5520 und ICH10R. Jedem Prozessor steht pro Speicher-Channel ein 4 GByte Registered DIMM vom Typ Qimonda IMHH4GP12A1F1C-13H mit 1333 MHz Taktfrequenz zur Verfügung. Insgesamt besitzt das System damit 24 GByte Arbeitsspeicher - 12 GByte pro CPU mit drei Channels.

Um insbesondere für die Energiemessungen möglichst gleiche Vorraussetzungen für die AMD- und Intel-Server zu ermöglichen, arbeiten in den Systemen an der SAS/SATA-Backplane jeweils zwei SATA-RAID-Edition-Festplatten. Bei den Energiemessungen achten wir darauf, die minimale Anzahl von DIMMs zu verwenden, bei der noch alle Speicher-Channels belegt sind. Unterschiede gibt es bei den Netzteilen. Der Xeon-X5680-Server bezieht seine Energie aus zwei 770-Watt-Netzteilen. Im 2S-Opteron-6174-System befindet sich ein 1200-Watt-Netzteil. Das Xeon-7500-System Dell PowerEdge R810 ist ebenso wie der 4S-Opteron-Server PowerEdge R815 mit zwei 1100-Watt-Netzteilen ausgestattet. Der 4-Sockel-Server QSSC-S4R arbeitet dagegen mit vier 850-Watt-Netzteilen.

Als Betriebssystem setzen wir Windows Server 2008/R2 SP1 Enterprise x64 ein. Tests unter Linux erfolgen mit CentOS 5.4 in der 64-Bit-Version.