Überraschend günstig und effizient

Test - AMD Opteron 6174 im Quartett

17.08.2010 von Christian Vilsbeck
AMDs Opteron-6100-Serie mit 12 Kernen eignet sich für Systeme mit zwei oder vier Sockeln. In der 4-fach-Konfiguration gibt es mit der 8-Core-CPU Xeon X7560 nur einen Gegner. Im Test punkten AMDs 12-Kern-Prozessoren im 4-Sockel-Server mit höherer Effizienz und deutlich günstigerem Preis.

Mit dem zwölfkernigen Opteron 6100 bietet AMD einen Prozessor für verschiedene Systeme an. Die CPU ist sowohl für den Betrieb in 2-Sockel-Systemen als auch für den Einsatz in Servern mit vier Sockeln ausgelegt.

Im Betrieb als Doppelpack konkurriert der Opteron primär mit Intels Xeon-5600-Prozessoren. Zwar müssen AMDs 12-Kern-CPUs in der reinen Rechenleistung den Hexa-Core-Xeons meist den Vortritt lassen, aber sie sind nicht meilenweit entfernt. In der Energieeffizienz zeigen sich Opteron-6100-Systeme dagegen mehr als nur konkurrenzfähig gegenüber den Xeon-5600-Servern.

Bildergalerie: AMD 4x Opteron 6174 - Alle Benchmarks im Überblick
CPU2006 64 Bit - Multitasking - SPECint_rate_base2006 SSE3-Compiler-Setting
Die vier Opteron 6174 setzen sich natürlich deutlich von den CPU-Doppelpacks ab, die vier Xeon X7560 liegen jedoch außer Reichweite. Die Xeons skalieren beim Einsatz von „Standardanwendungen“ besser vom Schritt von zwei auf vier CPUs.
CPU2006 64 Bit - Multitasking - SPECint_rate_2006 - optimierte Herstellerangaben
Mit speziellen Compilern und Bibliotheken wird das Integer-Leistungsvermögen gegenüber unseren Standardeinstellungen fast verdoppelt. Die vier Opteron 6174 bleiben dennoch hinter den vier Xeon X7560. Dafür zeigen die 12-Kern-Prozessoren bei optimierter Software eine sehr gute Skalierung.
CPU2006 64 Bit - Multitasking - SPECfp_rate_base2006 SSE3-Compiler-Setting
Bei den sehr speicherintensiven Durchsatztests mit Floating-Point-Programmen und SSE3-Support zieht das Xeon-X7560-Quartett den vier Opteron-6174-CPUs ebenfalls davon. Sehr stark präsentiert sich dagegen das Opteron-Päärchen, selbst die mit 3,33 GHz arbeitenden Xeon-5680-Modelle können bei identischer Compiler-Einstellung -QxO den Opteron nicht besiegen.
CPU2006 64 Bit - Multitasking - SPECfp_rate_2006 - optimierte Herstellerangaben
Bei den sehr speicherintensiven Fließkommaszenarios lässt sich die Performance durch spezielle Compiler und Bibliotheken gegenüber unseren Standardeinstellungen bei den vier Opteron 6174 um bis zu 94 Prozent steigern. Bei dem hochoptimierten, aber weniger praxisrelevanten Szenario, überholt das Opteron-Quartett sogar die vier Xeon X7560.
VMware VMmark - Konsolidierte Virtualisierungs-Performance - ESX-Server
Die vier Xeon X7560 bieten eine 27 Prozent höhere Virtualisierungsleistung als das Opteron-Quartett. Durch den massiven möglichen Speicher durch 64 DIMMs im Xeon-Server sind 50 Tiles möglich (1 Tile = 6 VMs; benötigt zirka 6 GB RAM) sind die Xeon-7500-Systeme im Vorteil. Im 4S-Opteron-Server (Dell PowerEdge R815) stehen nur 32 DIMMs zur Verfügung.
VMware VMmark - Virtualisierungs-Performance 1 Tile (6 VMs) - ESX-Serve
Obwohl der Xeon-X7560-Server die sehr hohe Anzahl von 50 Tiles laufen lässt, ist die Performance in einer VM sogar noch über dem Niveau der anderen Systeme. Allerdings zeigt sich hier, dass alle Prozessoren innerhalb der virtuellen Maschine eine sehr ähnliche Leistung ermöglichen.
STREAM 5.8 OMP 64 Bit - Speicherbandbreite
Die vier Opteron-6174-Prozessoren holen aus den insgesamt 16 DDR3-1333-Channels einen Speicherdurchsatz von 78 GByte/s heraus. Die vier Xeon X7560 erreichen dagegen nur knapp die Bandbreite der zwei Xeon X5680. Der etwas enttäuschende Durchsatz wird auch durch die Latenzzeiten der SMBs verursacht. Mit einer gcc-compilierten Linux-Variante von STREAM holen die Xeon X7560 etwas mehr aus dem Speicher. So erreichen damit zwei Xeon X7560 immerhin 28 statt nur 20 GByte/s.
SPECjvm2008 - Base Run - Performance Java Runtime Environment
Die vier Opteron 6174 und das Xeon-X7560-Quartett bieten fast die identische Performance. Eine sehr gute Java-Leistung erzielen auch die zwei Xeon X5680 mit Hexa-Core-Technologie.
SPECpower_ssj2008 - Java-Performance - 100 Prozent Last
Der Workload ist speicherintensiver als bei SPECjvm2008 und skaliert besser mit der Anzahl der Prozessoren / Kerne. Mit insgesamt 32 Speicherkanälen setzen sich die vier Xeon X7560 etwas mehr von den vier Opteron 6174 mit 16 Channels ab. Dafür überholen zwei Opteron 6174 jetzt die zwei Xeon X5680 - dank der höheren Speicherbandbreite.
SPECpower_ssj2008 - Performance/Watt - CPU-Powermanagement an
Die Opteron-6174-Systeme nutzen die Energie am effizientesten aus, egal ob mit zwei oder vier Prozessoren. Mit deutlichem Abstand folgen die Xeon-X7560-Server – trotz höherer Performance als die Opteron-Systeme. Selbst die für hohe Effizenz bekannten 32-nm-Xeon-5600-CPUs bleibt gegenüber den 45-nm-Opterons das Nachsehen.
SPECpower_ssj2008 - Energieaufnahme Plattform unter Volllast
Der Dell PowerEdge R815 mit vier Opteron 6174 zeigt sich für ein Vierwegesystem sehr zurückhaltend im Energiekonsum. Die 12-Kern-CPUs sind mit 80 Watt ACP eingestuft. Dells PowerEdge R810 mit zwei Xeon X7560 (130 Watt TDP) benötigt nur 106 Watt weniger. Das 4-fach-Xeon-X7560-System QSSC-S4R nimmt mit 1113 Watt dagegen mehr als die doppelte Energie im Vergleich zum R810 mit zwei Xeon X7560 auf. Hier zeigt sich, dass der QSSC-S4R-Chassis mit vier 850-W-Netzteilen und seiner Vielzahl an redundanten Lüftern deutlich mehr Energie benötigt.
SPECpower_ssj2008 - Energieaufnahme Plattform im Leerlauf - Energiesparmodus an
Das 4-Sockel-System Dell PowerEdge R815 zeigt, wie sparsam die Opteron-6100-Plattform sein kann. Der sehr identische 4-Sockel-Server PowerEdge R810 – bestückt mit zwei Xeon 7560 – genehmigt sich bereits gute 30 Watt mehr im Leerlauf. Der QSSC-S4R mit vier Xeon X7560 zollt der Auslegung auf hohe Betriebssicherheit Tribut.
openSSL 0.9.8b 64 Bit - Encryption RSA2048
Der Test läuft überwiegend im Cache ab. Die vier 12-Core-Opterons 6174 verschlüsseln 37 Prozent schneller als die mit ähnlicher Taktfrequenz agierenden 8-Core-Xeons X7560, die zusätzlich noch über Hyper-Threading verfügen. Die AES-Beschleunigung der 32-nm-Xeon-5600-Serie kommt hier nicht zum Einsatz.
openSSL 0.9.8b 64 Bit - Decryption RSA2048
Das Entschlüsseln erledigen die vier Opteron 6174 sogar 51 Prozent schneller als die vier Octa-Core-Xeons X7560. Der Speicherdurchsatz ist bei den openSSL-Workloads vernachlässigbar.
CINEBENCH 11.5 64 Bit - Single-Thread-Rendering
Beim Rendering wird jetzt nur ein Prozessorkern verwendet – Multi-Core nutzt hier nichts. Durch seine geringere Taktfrequenz von 2,2 GHz muss der Opteron 6174 der Intel-Konkurrenz deutlich geschlagen geben. Durch die Turbo-Technologie arbeitet der Xeon X7560 jetzt mit 2,66 statt 2,26 GHz Taktfrequenz. Deswegen überholt der Xeon X7560 auch den Xeon X7460.
CINEBENCH 11.5 64 Bit - Multi-Thread-Rendering
Jetzt nutzt CINEBENCH alle verfügbaren Prozessorkerne. Die vier Opterons mit 12-Core-Architektur rendern mit 48 Threads. Bei den vier Xeon X7560 (8 Core plus Hyper-Threading) sind insgesamt 64 Threads aktiv.

Im Segment der 4-Sockel-Server mit x86-Architektur gibt es für den Opteron 6100 nur Intels Xeon-7500-Serie als Gegner. Die Octa-Core-CPUs mit zusätzlichem Hyper-Threading überzeugen im Quartett mit sehr hoher Rechenleistung, wie unser Test bereits zeigte. Zusätzlich überzeugt Intels Xeon-7500-Plattform durch seine RAS-Features wie die MCA-Technologie. Insbesondere Anwendern von RISC-Maschinen wird damit der Umstieg auf eine x86-Plattform schmackhaft gemacht.

AMD will mit einem anderen Merkmal punkten: Rechenleistung einer 4-Sockel-Maschine zum Preis eines 2-Sockel-Servers. Oder anders gesagt: Ein Opteron-6100-Server mit vier CPUs soll deutlich weniger kosten als ein 4S-System mit Xeon-7500-Prozessoren. Die Aussagen lassen sich bestätigen. Das Testsystem für vier Opteron 6174, ein Dell PowerEdge R815, kostet mit 128 GByte RAM zirka 16.000 Euro. Der vergleichbare Dell PowerEdge R810 mit vier Xeon X7560 und 128 GByte RAM steht für zirka 26.000 Euro in der Preisliste - bei ansonsten identischer Konfiguration.

Stellt man bei Dell einen 2-Sockel-Server PowerEdge R710 mit zwei Xeon X5680 und 128 GByte RAM zusammen, läuft es auf eine Summe von knapp 14.000 Euro hinaus. Für etwa 13.000 Euro gibt es den PowerEdge R715 mit zwei Opteron 6176SE, den schnellsten 12-Core-Opterons.

Bildergalerie: AMD Opteron Magny-Cours Dell PowerEdge R815
Dell PowerEdge R815
Der 4-Sockel-Server dient uns als Testsystem für das Opteron-6174-Quartett.
4-Sockel-Plattform
Jeder der vier Opteron 6174 besitzt vier integrierte Speicher-Channels für DDR3-1333-DIMMs. Im Dell PowerEdge R815 sind pro Speicherkanal zwei DIMMs möglich - insgesamt 32 Speicherriegel.
Opteron 6174
Die zwölf Prozessorkerne des Opteron 6174 arbeiten mit 2,2 GHz Taktfrequenz. AMD benötigt hierfür ein relativ großes Gehäuse, um die zwei 6-Core-Siliziumplättchen zu verbauen.
Socket G34
Die 12-Kern-CPUs benötigen den Sockel G34 mit 1944 Kontaktpins. Die hohe Anzahl von Pins im Vergleich zum Socket F mit 1207 Kontakten ist durch die vier Speicherkanäle sowie den vier HT-Links notwendig.
Opteron 6100 Features
Der Opteron 6100 basiert auf der K10-Architektur mit 45-nm-Fertigungstechnologie. (Quelle: AMD)
Floorplan
Die zwölf Kerne des Opteron 6100 setzen sich aus zwei 6-Core-Dies zusammen. Die Verbindung beider Siliziumplättchen erfolgt über HyperTransport. (Quelle: AMD)
Direct Connect Architecture 2.0
Die Opteron-6100-Prozessoren stattet AMD erstmals mit „Direct Connect Architecture 2.0“ aus. Darunter versteht AMD einen integrierten 4-Channel-Speicher-Controller für DDR3-1333-DIMMs. Außerdem besitzen die CPUs vier HyperTransport-3.0-Links. (Quelle: AMD)

Der Preisvergleich spricht bereits für ein 4-Sockel-System mit Opteron-6174-CPUs. Jedoch müssen auch die Performance und die Energieeffizienz stimmen. Im TecChannel-Testlabor vergleichen wir das Opteron-Quartett gegen Intels-Xeon-Prozessoren in Systemen mit zwei und vier Sockeln. Wir überprüfen die Performance der CPUs bei Integer- und Floating-Point-Anwendungen, Verschlüsselung, Rendering und Java-Applikationen. Außerdem messen wir die Energieeffizienz der Systeme sowie den Speicherdurchsatz und zeigen die Virtualisierungsleistung auf.

Opteron 6100 mit Direct Connect Architecture 2.0

AMD verbaut beim 12-Core-Prozessor Opteron 6100 - Codename "Magny-Cours" - zwei Siliziumplättchen in einer CPU. Damit rückt AMD vom stets als entscheidenden Vorteil deklarierten nativen Multi-Core-Design ab. Intel verwendete dieses Verfahren zuletzt bei den Quad-Core-CPUs der Xeon-5400-Serie.

Den zwei 6-Core-Dies von "Magny-Cours" steht jeweils - wie beim Opteron 2400 Istanbul - 6 MByte L3-Cache zur Verfügung. Insgesamt verfügt der 12-Kerne-Prozessor mit seinem Multi-Chip-Design somit über 12 MByte L3-Cache. Unverändert besitzt jeder Kern einen dedizierten 512 KByte fassenden L2-Cache.

Multi-Chip-Technologie: Zwei per HyperTransport verbundene Siliziumplättchen mit je sechs Kernen ermöglichen AMDs erste 12-Core-CPU Opteron 6100. (Quelle: AMD)

AMD positioniert den Opteron 6100 für Server mit zwei und vier Sockeln, die auf hohe Performance pro Watt und Erweiterbarkeit ausgelegt sind. Es gibt somit keine 2000er Serie mehr für 2-Sockel-Systeme und eine 8000er Serie für Server mit 4 oder acht Prozessoren (die Socket-F-CPUs bleiben vorerst weiter im Programm). Die Fertigung von Magny-Cours erfolgt weiterhin mit AMDs 45-nm-Technologie. Der Opteron 6100 basiert weitgehend unverändert auf der K10-Architektur aktueller AMD-CPUs mit 45-nm-Technologie.

Die Opteron-6100-Prozessoren stattet AMD erstmals mit "Direct Connect Architecture 2.0" aus. Darunter versteht AMD einen integrierten 4-Channel-Speicher-Controller für DDR3-1333-DIMMs. Pro CPU sollen sich damit 12 DIMMs - drei pro Channel - ansteuern lassen, wie AMD angibt. Low-Voltage-DDR3-DIMMs mit 1066 MHz Taktfrequenz und 1,35 statt 1,5 V Betriebsspannung unterstützt der Opteron 6100 ebenfalls. AMD betont, dass der Opteron 6100 auch bei einer DIMM-Vollbestückung eine Speichergeschwindigkeit von 1333 MHz bietet. Die Xeon-5600-Prozessoren schalten beim dritten DIMM pro Channel von 1333 auf 1066 MHz zurück.

Mehr Bandbreite: Die Opteron-6100-Prozessoren stattet AMD erstmals mit "Direct Connect Architecture 2.0" aus. Darunter versteht AMD einen integrierten 4-Channel-Speicher-Controller für DDR3-1333-DIMMs. Außerdem besitzen die CPUs vier HyperTransport-3.0-Links. (Quelle: AMD)

Um die Speicherbandbreite in 4-Sockel-Systemen zusätzlich zu erhöhen, stattet AMD die Opteron-6100-CPUs durch "Direct Connect Architecture 2.0" mit vier statt den maximal drei HyperTransport-Links der Socket-F-Modelle aus. Sind vier Opterons via HyperTransport miteinander verbunden, kann jede CPU auch auf den Speicher jeder benachbarten zusätzlich zugreifen. Statt mit 4,8 GT/s wie bei den Socket-F-Opterons arbeitet der Opteron 6100 dank HyperTransport 3.0 nun mit einer Bandbreite von 6,4 GT/s pro Link..

Sparsam durch C1e und Cool Speed

AMDs Opteron-6100-Serie soll trotz Kernverdoppelung und weiter verwendeter 45-nm-Fertigungstechnologie sparsam im Umgang mit der Energie bleiben. So stuft der Hersteller seine 12-Core-Prozessoren mit einer ACP von 65, 80 und 105 Watt ein. Seine bisherigen Hexa-Core-Modelle der Opteron-2400-Serie bietet AMD mit 40, 55, 75 und ebenfalls 105 Watt ACP an. Statt dem von Intel verwendeten TDP (Thermal Design Power), einem theoretischen Maximalwert, bei dem alle Transistoren der CPU gleichzeitig schalten, verwendet AMD bei der Energieeinstufung den ACP-Wert (Average CPU Power). Hier handelt es sich nach Ansicht des Herstellers um einen realistischen Maximalwert. Der ACP liegt jeweils unterhalb des TDP-Wertes, den es weiterhin für Entwickler gibt.

Bildergalerie: AMD C1e
AMD C1e - Neuer Energiesparmodus der Opteron-6100-Serie. (Quelle: AMD)
AMD C1e - Neuer Energiesparmodus der Opteron-6100-Serie. (Quelle: AMD)
AMD C1e - Neuer Energiesparmodus der Opteron-6100-Serie. (Quelle: AMD)
AMD C1e - Neuer Energiesparmodus der Opteron-6100-Serie. (Quelle: AMD)
AMD C1e - Neuer Energiesparmodus der Opteron-6100-Serie. (Quelle: AMD)
AMD C1e - Neuer Energiesparmodus der Opteron-6100-Serie. (Quelle: AMD)

Neu beim Opteron 6100 ist der Energiesparmodus C1e. Sind alle Prozessoren im Idle-Modus (C1-Status) und AMDs Smart Fetch Technologie hat die L1- und L2-Cache-Inhalte in den L3-Cache geladen (Kerne sind dann abgeschalten), dann der C1e-Schlafmodus aktiv werden. C1e reduziert vom L3-Cache und vom Speicher-Controller die Taktfrequenz und die HyperTransport-Links können in einen Energiesparmodus LS2 gehen. Zusätzlich werden die DRAM-DLLs ausgeschalten und der Chipsatz kann durch den LS2-Mode der HT-Links ebenfalls seine Energieaufnahme reduzieren. Laut AMD reduzieren zwei Opteron 6100 in einem 2-Sockel-System durch den C1e-Mode ihre Energieaufnahme um insgesamt zirka 34 Watt.

Neben den bereits bekannten Energiesparmaßnahmen "PowerNow!" zum dynamischen Anpassen der Taktfrequenz und Core-Spannung sowie "Smart Fetch" unterstützt der Opteron 6100 zusätzlich noch die Technologie "Cool Speed". AMDs Cool Speed reduziert die P-States (Betriebszustand mit definierter Taktfrequenz und Core-Spannung), wenn ein Temperaturlimit erreicht wird. Damit wird die Betriebssicherheit erhöht.

Opteron-6100-Modelle im Überblick

AMD bietet bei der Opteron-6100-Serie insgesamt fünf 12-Core-Modelle an. Den Einstieg bei den Zwölfkernern markiert der Opteron 6161 HE mit 1,7 GHz Taktfrequenz. Mit "HE" kennzeichnet AMD Opterons mit 65 Watt ACP. Die Modelle Opteron 6168, 6172 und 6174 arbeiten mit 1,9, 2,1 beziehungsweise 2,2 GHz Taktfrequenz. Alle drei Modelle sind mit 80 Watt ACP eingestuft. Als Topmodell fungiert der Opteron 6176 SE mit einem Arbeitstakt von 2,3 GHz. Das "SE" steht bei den Opterons für Performance-Varianten mit 105 Watt ACP.

Zusätzlich offeriert AMD seine Opteron-6100-Serie in Varianten mit acht Kernen. Bei diesen Modellen werden zwei Quad-Core-Dies in Prozessorgehäuse gepackt. Wie bei den 12-Core-Modellen besitzen die CPUs einen L3-Cache von 12 MByte. Insgesamt fünf Octa-Core-Modelle vom Opteron 6124 HE (1,8 GHz / 65 Watt) bis zum Opteron 6136 (2,4 GHz / 80 Watt) sind im Angebot.

In der Tabelle finden Sie alle neuen Opteron-6100-Prozessoren mit acht und zwölf Kernen im Überblick:

Alle Opteron-6100-Modelle im Überblick

Prozessor

Taktfrequenz [GHz]

Kerne

L3-Cache

DIMM-Support

ACP [Watt]

Opteron 6176 SE

2,3

12

12 MByte

Quad Channel DDR3-1333 / LV-DDR3-1066

105

Opteron 6174

2,2

12

12 MByte

Quad Channel DDR3-1333 / LV-DDR3-1066

80

Opteron 6172

2,1

12

12 MByte

Quad Channel DDR3-1333 / LV-DDR3-1066

80

Opteron 6168

1,9

12

12 MByte

Quad Channel DDR3-1333 / LV-DDR3-1066

80

Opteron 6164 HE

1,7

12

12 MByte

Quad Channel DDR3-1333 / LV-DDR3-1066

65

Opteron 6136

2,4

8

12 MByte

Quad Channel DDR3-1333 / LV-DDR3-1066

80

Opteron 6134

2,3

8

12 MByte

Quad Channel DDR3-1333 / LV-DDR3-1066

80

Opteron 6128

2,0

8

12 MByte

Quad Channel DDR3-1333 / LV-DDR3-1066

80

Opteron 6128 HE

2,0

8

12 MByte

Quad Channel DDR3-1333 / LV-DDR3-1066

65

Opteron 6124 HE

1,8

8

12 MByte

Quad Channel DDR3-1333 / LV-DDR3-1066

65

Plattform mit Socket G34

Abschied nimmt AMD beim Opteron Opteron 6100 "Magny-Cours" von der Socket-F-Plattform der aktuellen Opterons. Die Opteron-6100-Prozessoren nehmen in der Plattform "Maranello" Platz. Mit Maranello und den Chipsätzen AMD SR5690/ SR5670 unterstützt AMD dann auch bei den Opterons Hyper-Transport 3.0.

Socket G34: Der Opteron 6100 nimmt in einem neuen Steckplatz mit 1944 Kontaken Platz.

AMD setzt bei der Maranello-Plattform mit dem 8- und 12-Kern-CPUs "Magny-Cours" auf den neuen Socket G34. Der Steckplatz für die CPUs mit Land Grid Array (LGA) besitzt 1944 Kontaktpins. Die hohe Anzahl von Pins im Vergleich zum Socket F mit 1207 Kontakten ist durch die vier Speicherkanäle sowie den vier HT-Links notwendig. Zusätzlich erweitert AMD mit Maranello die Virtualisierungs-Features. Mit den Chipsätzen AMD SR5690/SR5670 wird die bereits 2006 angekündigte I/O-Virtualisierung IOMMU unterstützt.

Multitask Integer: SPECint_rate_base2006

Wir setzen die SPEC-Benchmarks unter Windows Server 2008/R2 Enterprise x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 10.1 und Fortran 10.1 in der 64-Bit-Version sowie MS Visual Studio 2005 .NET für alle Integer-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz. Bei den Integer-Berechnungen von SPECint_rate_base2006 ermittelt die Benchmark-Suite CPU2006 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Integer-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standardsoftware.

Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECint_rate_base2006 der Anzahl der Prozessorkerne des Systems. Beispielsweise arbeiten beim 4-Sockel-Server mit Opteron-6174-CPUs 48 Kopien parallel. Im 4-Sockel-Xeon-X7560-Server laufen durch die insgesamt 32 Kerne sowie das zusätzliche Hyper-Threading 64 Kopien parallel. Pro Kopie ist ein Speicherbedarf von 2 GByte RAM notwendig.

SPECint_rate_base2006: Die vier Opteron 6174 setzen sich natürlich deutlich von den CPU-Doppelpacks ab, die vier Xeon X7560 liegen jedoch außer Reichweite. Die Xeons skalieren beim Einsatz von "Standardanwendungen" besser vom Schritt von zwei auf vier CPUs.

Intels 10.1-Compiler bieten mit dem Switch -QxO eine offizielle SSE3-Unterstützung für "Non-Intel-Processors" (erstmals mit Version 10.0). Mit dieser Compiler-Option führten wir die CPU2006-Benchmarks für die Opteron-Prozessoren durch. Bei -QxO wird kein SSE4 verwendet. Zur optimalen Vergleichbarkeit testen wir den Xeon X5680 und X7560 ebenfalls mit -QxO. Zusätzlich überprüfen wir bei den Intel-CPUs die Leistungsfähigkeit mit dem Compiler-Flag -fast, der nicht mit den Opterons funktioniert. Hier wählen die Intel-Compiler automatisch die optimale Befehlssatzunterstützung:

SPECint_rate_base2006

Compiler-Option

-fast (automatisch)

-QxO (SSE3)

4x Xeon X7540

473

440

2x Xeon X7560 (FlexMem)

242

224

2x Xeon X5680

257

235

4x Opteron 6174

--

341

Opteron 6174

--

193

Die Xeon-Prozessoren verlieren durch die Einstellung -QxO zirka sieben bis neun Prozent Performance.

Multitask Integer: SPECint_rate_2006 optimiert

Unter Einsatz optimierter Compiler und spezieller Mathematik-Bibliotheken lassen sich für die Prozessoren die besten Ganzzahlenwerte für CPU2006 erzielen. Hier holen die Hersteller das Optimum aus ihren Systemen heraus. Jede einzelne Anwendung von CPU2006 wird speziell optimiert. Die folgenden Werte sind offizielle CPU2006-Resultate, die von Server-Herstellern auf SPEC.org gemeldet sind.

SPECint_rate_2006 optimiert: Mit speziellen Compilern und Bibliotheken wird das Integer-Leistungsvermögen gegenüber unseren Standardeinstellungen fast verdoppelt. Die vier Opteron 6174 bleiben dennoch hinter den vier Xeon X7560. Dafür zeigen die 12-Kern-Prozessoren bei optimierter Software eine sehr gute Skalierung.

Multitask Floating Point: SPECfp_rate_base2006

Wir setzen die SPEC-Benchmarks unter Windows Server 2008/R2 Enterprise x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 10.1 und Fortran 10.1 in der 64-Bit-Version sowie MS Visual Studio 2005 .NET für alle Floating-Point-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz. Bei den Floating-Point-Berechnungen von SPECfp_rate_base2006 ermittelt die Benchmark-Suite CPU2006 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Floating-Point-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standardsoftware.

Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECfp_rate_base2006 der Anzahl der Prozessorkerne des Systems. Beispielsweise arbeiten beim 4-Sockel-Server mit Opteron-6174-CPUs 48 Kopien parallel. Im 4-Sockel-Xeon-X7560-Server laufen durch die insgesamt 32 Kerne sowie das zusätzliche Hyper-Threading 64 Kopien parallel. Pro Kopie ist ein Speicherbedarf von 2 GByte RAM notwendig.

SPECfp_rate_base2006: Bei den sehr speicherintensiven Durchsatztests mit Floating-Point-Programmen und SSE3-Support zieht das Xeon-X7560-Quartett den vier Opteron-6174-CPUs ebenfalls davon. Sehr stark präsentiert sich dagegen das Opteron-Päärchen, selbst die mit 3,33 GHz arbeitenden Xeon-5680-Modelle können bei identischer Compiler-Einstellung -QxO den Opteron nicht besiegen.

Intels 10.1-Compiler bieten mit dem Switch -QxO eine offizielle SSE3-Unterstützung für "Non-Intel-Processors" (erstmals mit Version 10.0). Mit dieser Compiler-Option führten wir die CPU2006-Benchmarks für die Opteron-Prozessoren durch. Bei -QxO wird kein SSE4 verwendet. Zur optimalen Vergleichbarkeit testen wir den Xeon X5680 und X7560 ebenfalls mit -QxO. Zusätzlich überprüfen wir bei den Intel-CPUs die Leistungsfähigkeit mit dem Compiler-Flag -fast, der nicht mit den Opterons funktioniert. Hier wählen die Intel-Compiler automatisch die optimale Befehlssatzunterstützung:

SPECfp_rate_base2006

Compiler-Option

-fast (automatisch)

-QxO (SSE3)

4x Xeon X7540

414

386

2x Xeon X7560 (FlexMem)

213

207

2x Xeon X5680

219

196

4x Opteron 6174

--

308

Opteron 6174

--

196

Die Xeon-X5680-Prozessoren (32-nm-Westmere-Architektur) verlieren durch die Einstellung -QxO mit 20 Prozent massiv Performance, wenn maximal SSE3 unterstützt wird. Beim Xeon X7560 mit 45-nm-Nehalem-Architektur beträgt der Einbruch nur drei bis sieben Prozent.

Multitask Floating Point: SPECfp_rate_2006 optimiert

Unter Einsatz optimierter Compiler und spezieller Mathematik-Bibliotheken lassen sich für die Prozessoren die besten Fließkommawerte für CPU2006 erzielen. Hier holen die Hersteller das Optimum aus ihren Systemen heraus. Jede einzelne Anwendung von CPU2006 wird speziell optimiert. Die folgenden Werte sind offizielle CPU2006-Resultate, die von Server-Herstellern auf SPEC.org gemeldet sind.

SPECfp_rate_2006 optimiert: Bei den sehr speicherintensiven Fließkommaszenarios lässt sich die Performance durch spezielle Compiler und Bibliotheken gegenüber unseren Standardeinstellungen bei den vier Opteron 6174 um bis zu 94 Prozent steigern. Bei dem hochoptimierten, aber weniger praxisrelevanten Szenario, überholt das Opteron-Quartett sogar die vier Xeon X7560.

VMmark: Performance Virtualisierung

VMware bietet mit VMmark einen standardisierten Vergleich der Virtualisierungs-Performance von Plattformen. VMmark besteht aus sechs typischen Server-Workloads, die mit gängigen Tools zur Lastgenerierung erzeugt werden.

Als Ergebnis gibt VMmark einen normierten Gesamtwert aus. Je höher der VMmark-Score ist, desto besser eignet sich ein Server für die Virtualisierung. Es gilt jedoch darauf zu achten, mit wie vielen Tiles (1 Tile = 6 virtuelle Maschinen) der Wert erreicht wurde. Besitzen beispielsweise zwei Server den gleichen VMmark-Score von 40, so bietet derjenige Server mehr Virtualisierungs-Performance, der diesen Wert mit weniger Tiles erreicht. Der VMmark-Score ist deshalb immer in Verbindung mit der Tile-Anzahl angegeben.

Während der Gesamtwert somit ein Maß für die Virtualisierungs-Performance in Verbindung mit der Konsolidierungsfähigkeit eines Servers (Anzahl der Tiles) darstellt, zeigt der Vergleich der Tile-Werte die tatsächliche Performance der Applikationen.

Die folgenden Werte basieren auf offiziellen bei VMware publizierten Ergebnissen der Server-Hersteller:

Konsolidierte Virtualisierungs-Performance: Die vier Xeon X7560 bieten eine 27 Prozent höhere Virtualisierungsleistung als das Opteron-Quartett. Durch den massiven möglichen Speicher durch 64 DIMMs im Xeon-Server sind 50 Tiles möglich (1 Tile = 6 VMs; benötigt zirka 6 GB RAM) sind die Xeon-7500-Systeme im Vorteil. Im 4S-Opteron-Server (Dell PowerEdge R815) stehen nur 32 DIMMs zur Verfügung.
Virtualisierungs-Performance 1 Tile (6VMs): Obwohl der Xeon-X7560-Server die sehr hohe Anzahl von 50 Tiles laufen lässt, ist die Performance in einer VM sogar noch über dem Niveau der anderen Systeme. Allerdings zeigt sich hier, dass alle Prozessoren innerhalb der virtuellen Maschine eine sehr ähnliche Leistung ermöglichen.

Ausführliche Informationen über den Virtualisierungs-Benchmark VMware VMmark finden Sie bei TecChannel in unserem Artikel Virtualisierung: Die schnellsten Server.

STREAM: Speicherbandbreite

Der quelloffene STREAM-Benchmark ist ein weit verbreiteter Industriestandardtest zum Messen der möglichen Speicherbandbreite in einem System. Wir verwenden die 64-Bit-Windows-Binary von der University of Virginia. Die OMP-fähige STREAM-Version nutzt alle Kerne der Prozessoren aus, um einen möglichst hohen Speicherdurchsatz zu generieren.

Maximum: Die vier Opteron-6174-Prozessoren holen aus den insgesamt 16 DDR3-1333-Channels einen Speicherdurchsatz von 78 GByte/s heraus. Die vier Xeon X7560 erreichen dagegen nur knapp die Bandbreite der zwei Xeon X5680. Der etwas enttäuschende Durchsatz wird auch durch die Latenzzeiten der SMBs verursacht. Mit einer gcc-compilierten Linux-Variante von STREAM holen die Xeon X7560 etwas mehr aus dem Speicher. So erreichen damit zwei Xeon X7560 immerhin 28 statt nur 20 GByte/s.

Java Virtual Machine Performance

Mit SPECjvm2008 stellt die Standard Performance Evaluation Corporation (SPEC) einen Benchmark für die Performance von Systemen unter Java Runtime Environment (JRE) zur Verfügung. Die Evaluierungssoftware zur Ermittlung der Java-Performance wurde von SPEC in Zusammenarbeit mit AMD, Bea, Hewlett-Packard, IBM, Intel und Sun entwickelt.

Für die Performance des Systems in einer Java Virtual Machine zeigen sich neben der Wahl der Java-Engine die Prozessoren sowie die Speicherarchitektur verantwortlich. SPECjvm2008 startet eine JVM und führt einen Multithread-Workload durch. Alle Prozessorkerne eines Systems werden von SPECjvm2008 ausgenutzt.

SPECjvm2008 arbeitet mit einem Base-Run, bei dem keine speziellen Tuning-Maßnahmen durch Flags und Optimierungen erlaubt sind. Damit wird die Java-Performance der Systeme mit der installierten JVM ermittelt. Zehn verschiedene Tests wie Compilieren, Rendering, Verschlüsselung oder Komprimierung werden durchgeführt. Beim Peak-Run lassen sich für jeden Test Optimierungen für die JVM einstellen.

Wir führen SPECjvm2008 im Base-Run unter Windows Server 2008/R2 Enterprise x64 mit der JRE Bea JRockit 6 R27 in der 64-Bit-Version durch:

Java Runtime: Die vier Opteron 6174 und das Xeon-X7560-Quartett bieten fast die identische Performance. Eine sehr gute Java-Leistung erzielen auch die zwei Xeon X5680 mit Hexa-Core-Technologie.

Maximale Java-Performance

SPECpower_ssj2008 ermittelt neben der Energieeffizienz bei 100 Prozent Prozessorauslastung auch die maximale Java-Performance des Systems. Als Java-Engine unter Windows Server 2008/R2 Enterprise x64 dient Bea JRockit in der 64-Bit-Version 6 R27.

SPECpower_ssj2008 nutzt einen anderen Workload als SPECjvm2008. Außerdem arbeiten bei SPECpower_ssj2008 nicht nur eine JVM, sondern mehrere virtuelle Java-Instanzen.

Bei diesem Test sind die Energiesparoptionen der Prozessoren aktiv, die erreichbare Performance wird durch die Vollauslastung der CPUs allerdings nicht beeinflusst.

Java-Performance: Der Workload ist speicherintensiver als bei SPECjvm2008 und skaliert besser mit der Anzahl der Prozessoren / Kerne. Mit insgesamt 32 Speicherkanälen setzen sich die vier Xeon X7560 etwas mehr von den vier Opteron 6174 mit 16 Channels ab. Dafür überholen zwei Opteron 6174 jetzt die zwei Xeon X5680 - dank der höheren Speicherbandbreite.

Energieeffizienz: Performance/Watt

Der Gesamtwert von SPECpower_ssj2008 steht für die Energieeffizienz des Systems. Der Benchmark gibt die gemittelte Performance pro Watt an, die über alle Lastzustände von zehn bis 100 Prozent gemessenen werden.

Um die Energiesparoptionen der Prozessoren zu nutzen, arbeitet Windows Server 2008/R2 Enterprise x64 mit dem Energieschema "Ausbalanciert". SpeedStep (Intel) und PowerNow! (AMD) zum dynamischen Regeln von Taktfrequenz und Core-Spannung je nach CPU-Auslastung sind bei dem SPECpower-Benchmark aktiv.

Effizienz: Die Opteron-6174-Systeme nutzen die Energie am effizientesten aus, egal ob mit zwei oder vier Prozessoren. Mit deutlichem Abstand folgen die Xeon-X7560-Server - trotz höherer Performance als die Opteron-Systeme. Selbst die für hohe Effizenz bekannten 32-nm-Xeon-5600-CPUs bleibt gegenüber den 45-nm-Opterons das Nachsehen.

Maximaler Energieverbrauch

SPECpower_ssj2008 ringt dem Testsystem im Lastzustand 100 Prozent den maximalen Energieverbrauch ab. Alle Kerne der Prozessoren sind voll ausgelastet. Die aktiven JVMs fordern zusätzlich den Arbeitsspeicher der Systeme.

Kernig: Der Dell PowerEdge R815 mit vier Opteron 6174 zeigt sich für ein Vierwegesystem sehr zurückhaltend im Energiekonsum. Die 12-Kern-CPUs sind mit 80 Watt ACP eingestuft. Dells PowerEdge R810 mit zwei Xeon X7560 (130 Watt TDP) benötigt nur 106 Watt weniger. Das 4-fach-Xeon-X7560-System QSSC-S4R nimmt mit 1113 Watt dagegen mehr als die doppelte Energie im Vergleich zum R810 mit zwei Xeon X7560 auf. Hier zeigt sich, dass der QSSC-S4R-Chassis mit vier 850-W-Netzteilen und seiner Vielzahl an redundanten Lüftern deutlich mehr Energie benötigt.

Minimaler Energieverbrauch

SPECpower_ssj2008 führt neben den Lasttests zusätzlich Kalibrierungsmessungen über den Energieverbrauch bei Leerlauf durch. Dabei wird der minimale Energiebedarf des Systems ermittelt.

Im Diagramm vergleichen wir den Systemverbrauch unter Windows Server 2008/R2 Enterprise x64 mit dem Energie-Schemata "Ausbalanciert". Die Prozessoren nutzen ihre Powermanagement-Features SpeedStep (Intel) und PowerNow! (AMD) aus.

Leerlauf: Das 4-Sockel-System Dell PowerEdge R815 zeigt, wie sparsam die Opteron-6100-Plattform sein kann. Der sehr identische 4-Sockel-Server PowerEdge R810 - bestückt mit zwei Xeon 7560 - genehmigt sich bereits gute 30 Watt mehr im Leerlauf. Der QSSC-S4R mit vier Xeon X7560 zollt der Auslegung auf hohe Betriebssicherheit Tribut.

Encryption/Decryption: openSSL 64 Bit

Die Leistungsfähigkeit der Prozessoren beim Verschlüsseln und Entschlüsseln von Daten unter Linux 64 Bit ermittelt das Open-Source-Programm openSSL in der 64-Bit-Version 0.9.8b. Der Code von openSSL ist single threaded programmiert. Durch den Start von multiplen Kopien summiert openSSL die Performance beim Verschlüsseln und Entschlüsseln von Daten.

Wir testen die Prozessoren bei openSSL mit dem RSA-Schlüssel und einer Schlüssellänge von 2048 Bit. Der synthetische Benchmark gibt einen guten Anhaltspunkt für die Geschwindigkeit der Prozessoren beim Verschlüsseln und Entschlüsseln von Daten. Spezielle, für die CPU-Architekturen optimierte Mathematik-Bibliotheken kommen beim mit gcc kompilierten openSSL-Benchmark nicht zum Einsatz.

RSA-2048 Encryption: Der Test läuft überwiegend im Cache ab. Die vier 12-Core-Opterons 6174 verschlüsseln 37 Prozent schneller als die mit ähnlicher Taktfrequenz agierenden 8-Core-Xeons X7560, die zusätzlich noch über Hyper-Threading verfügen. Die AES-Beschleunigung der 32-nm-Xeon-5600-Serie kommt hier nicht zum Einsatz.
RSA-2048 Decryption: Das Entschlüsseln erledigen die vier Opteron 6174 sogar 51 Prozent schneller als die vier Octa-Core-Xeons X7560. Der Speicherdurchsatz ist bei den openSSL-Workloads vernachlässigbar.

Speicherzugriff: Node Interleaving

Die 4-Sockel-Systeme mit Opteron 6100 oder Xeon 7500 basieren auf einer NUMA-Architektur. Jeder Prozessor besitzt über den integrierten Speicher-Controller seinen eigenen Arbeitsspeicher. Dabei kann jede CPU aber auch den Speicher der anderen Prozessoren "remote" benutzen, was aber langsamer im Zugriff ist. Die Herausforderung bei NUMA-Betriebssystemen wie Windows Server 2008/R2 ist daher, den Zugriff auf den Speicher und andere Ressourcen so zu optimieren, dass möglichst mit lokalen Ressourcen gearbeitet werden kann.

Der Scheduling-Mechanismus des Systems sorgt zunächst dafür, dass neue Prozesse beim Start möglichst gleichmäßig auf die verschiedenen CPUs verteilt werden. Neue Threads eines Prozesses erben dann die CPU-Affinität des Prozesses, sodass nach Möglichkeit alle Threads im gleichen Knoten ausgeführt werden und den lokalen Speicher nutzen.

Komplexer wird es bei multithreaded-optimierten Applikationen, die alle zur Verfügung stehenden CPUs ausnutzen. Hier hängt es auch von der Programmierung der Applikation ab, ob der Workload im Arbeitsspeicher möglichst lokal an eine CPU gebunden ist oder über alle Prozessoren verteilt wird. Bei Servern mit Opteron 6100 oder Xeon 7500 lässt sich durch die BIOS-Einstellung "Node Interleaving" Einfluss auf die Workload-Verteilung nehmen. Ist Node Interleaving deaktiviert, so wird NUMA-konform Threads primär der lokale Speicher des Prozessors verwendet, auf dem der Thread läuft. Beim aktiviertem Node Interleaving wird der Workload auf alle Speicherknoten im System verteilt.

Bei SPECjvm2008 läuft eine JVM (Java-Instanz), die alle verfügbaren Threads im System nutzt. Der Prozess nutzt bei vier Opteron 6174 alle 48 Threads, bei den vier Xeon X7560 alle 64 Threads. Aktiviertes Node Interleaving ist hier von Vorteil, weil der speicherintensive Workload von SPECjvm2008 über alle vier Prozessoren optimiert verteilt wird. In der Tabelle sehen Sie die Performance-Unterschiede:

SPECjvm2008 - Node Interleaving

CPUs

Node Interleaving disabled

Node Interleaving enabled

Performance-Unterschied

4x Opteron 6174

211 ops/m

359 ops/m

+ 70 %

4x Xeon X7540

286 ops/m

366 ops/m

+ 28 %

Ein anderes Beispiel sind die Workloads SPECint_rate_base2006 (Integer-Durchsatz) und SPECfp_rate_base2006 (Floating-Point-Durchsatz) der Benchmark-Suite CPU2006. Der Benchmark lässt parallele Kopien in der Anzahl der verfügbaren Prozessorkerne eines Systems laufen. Idealerweise arbeitet somit jede Kopie, die jeweils single-threaded ist, auf einem Kern und nutzt den zugehörigen lokalen Speicher. Ausgeschaltetes Node Interleaving sollte somit von Vorteil sein. Auf dem 4-Sockel-System mit Opteron-6174-CPUs ergeben sich folgende Unterschiede:

CPU2006 - Node Interleaving

4x Opteron 6174

Node Interleaving disabled

Node Interleaving enabled

Performance-Unterschied

SPECint_rate_base2006

341

321

+ 6,2 %

SPECfp_rate_base2006

308

296

+ 4,1 %

Prinzipiell lässt sich sagen: Läuft auf Ihrem Server primär eine multithread-optimierte Anwendung, wie bei HPC-Programmen, dann sorgt aktiviertes Node Interleaving für einen Performance-Gewinn. Haben Sie viele parallele Workloads im Betrieb, so sollte für eine bessere Gesamt-Performance Node Interleaving im BIOS ausgeschalten sein.

Rendering: CINEBENCH 11.5 64 Bit

Mit dem CINEBENCH 11.5 stellt Maxon die aktuelle Version des bekannten Benchmark-Tools bereit. CINEBENCH 11.5 basiert auf Cinema 4D Release 11.5 und führt Rendering-Tests durch. Maxon bietet CINEBENCH 11.5 als 32- und 64-Bit-Version zum Download an. Die Rendering-Engine von Cinemal 4D Release 11.5 unterstützt bis zu 64 Threads.

Beim Render-Test wird eine fotorealistische 3D-Szene mithilfe des Cinema-4D-Raytracers berechnet. Die Testszene enthält über 2000 Objekte mit mehr als 300.000 Polygonen, nutzt scharfe und weiche Spiegelungen, Flächenlichter und -schatten, prozedurale Shader, Kantenglättung und vieles mehr. Bei dem FPU-lastigen Test spielt die Leistungsfähigkeit der Grafikkarte keine Rolle. Auch höhere Speicher- und FSB-Bandbreiten nutzen beim Rendering von CINEBENCH 11.5 wenig - der Test läuft überwiegend in den Cache-Stufen ab.

1 Thread: Beim Rendering wird jetzt nur ein Prozessorkern verwendet - Multi-Core nutzt hier nichts. Durch seine geringere Taktfrequenz von 2,2 GHz muss der Opteron 6174 der Intel-Konkurrenz deutlich geschlagen geben. Durch die Turbo-Technologie arbeitet der Xeon X7560 jetzt mit 2,66 statt 2,26 GHz Taktfrequenz. Deswegen überholt der Xeon X7560 auch den Xeon X7460.
Alle Threads: Jetzt nutzt CINEBENCH alle verfügbaren Prozessorkerne. Die vier Opterons mit 12-Core-Architektur rendern mit 48 Threads. Bei den vier Xeon X7560 (8 Core plus Hyper-Threading) sind insgesamt 64 Threads aktiv.

AMD & Intel: Listenpreise Server-CPUs

In der Tabelle finden Sie die Preise der aktuellen Server-Prozessoren von AMD und Intel. Bei AMDs Preisliste gab es am 23. Juni 2010 die letzten Änderungen. Intels Preisliste wurde am 18. Juli 2010 aktualisiert.

OEM-Preise im Vergleich

Modell

Taktfrequenz [GHz]

Listenpreis [US-Dollar]

Intel Xeon-7500-Serie

Xeon X7560

2,26

3692

Xeon X7550

2,0

2729

Xeon X7542

2,66

1980

Xeon E7540

2,0

1980

Xeon E7530

1,86

1391

Xeon E7520

1,86

856

Xeon L7555

1,86

3157

Xeon L7545

1,86

2087

Intel Xeon-5600-Serie

Xeon X5680

3,33

1663

Xeon X5677

3,46

1663

Xeon X5670

2,93

1440

Xeon X5667

3,06

1440

Xeon X5660

2,80

1219

Xeon X5650

2,66

996

Xeon E5640

2,66

774

Xeon E5630

2,53

551

Xeon E5620

2,40

387

Xeon L5640

2,26

996

Xeon L5630

2,13

551

Xeon L5609

1,86

440

AMD Opteron-6100-Serie

Opteron 6176 SE

2,3

1386

Opteron 6174

2,2

1165

Opteron 6172

2,1

989

Opteron 6168

1,9

744

Opteron 6164 HE

1,7

744

Opteron 6136

2,4

744

Opteron 6134

2,3

523

Opteron 6128

2,0

266

Opteron 6128 HE

2,0

523

Opteron 6124 HE

1,8

455

AMD Opteron-4100-Serie

Opteron 4184

2,8

316

Opteron 4180

2,6

188

Opteron 4176 HE

2,4

377

Opteron 4174 HE

2,3

255

Opteron 4170 HE

2,1

174

Opteron 4164 EE

1,8

698

Opteron 4162 EE

1,8

316

Opteron 4130

2,6

125

Opteron 4122

2,2

99

Fazit

Geht es nur um die pure Performance, so muss sich AMDs Opteron-6174-Quartett den vier Xeon X7560 meist geschlagen geben. Allerdings sind die Abstände oft sehr gering. Es gibt jedoch zwei Argumente, die sehr für den Einsatz der 12-Core-CPUs in Verbindung mit einem 4-Sockel-Server sprechen.

Einerseits überzeugt der Opteron 6174 durch eine sehr gute Energieeffizienz. Egal ob im 2- oder 4-Sockel-Betrieb, die Socket-G34-Systeme gehen sehr genügsam mit der Energie um. Entsprechend liegt auch das 4-Sockel-System Dell PowerEdge R815 mit Opteron-6174-Quartett in der Performance pro Watt weit vor der Xeon-7500-Konkurrenz. Der Faktor Stromkosten wird bei der Anschaffung neuer Server für IT-Verantwortliche zunehmend wichtiger.

Gerade bei der Anschaffung neuer Server punktet das Opteron-6174-basierende 4-Sockel-System mit dem zweiten Argument, den Kosten. Am Beispiel von Dell, die sehr bauähnliche AMD- und Intel-basierende Server im Angebot haben, lassen sich die Unterschiede gut aufzeigen. Ein Dell PowerEdge R815 mit vier Opteron 6174 und 128 GByte RAM kostet zirka 15 Prozent mehr als ein 2-Sockel-Server mit Xeon-X5680-CPUs. Dells PowerEdge R810 mit vier 8-Core-Xeon-7500-CPUs und 128 GByte Arbeitsspeicher ist gegenüber dem Opteron-System gleich zirka 60 Prozent teurer.

Natürlich sprechen für die deutlich teureren Xeon-7500-Systeme die zusätzlichen RAS-Features wie MCA-Recovery, wofür sich vor allem Umsteiger von RISC-Maschinen interessieren dürften. Und einige Xeon-7500-Server bieten die doppelte Anzahl von DIMM-Steckplätzen an. Für umfangreiche Konsolidierungszwecke oder Workloads mit sehr hohem Speicherbedarf bleibt ein Intel-System deshalb die primäre Wahl.

Stehen aber maximaler Arbeitsspeicherausbau und zusätzliche RAS-Features nicht ganz oben auf der Prioritätsliste, sondern die Kosten und Energieeffizienz, lässt sich ein Opteron-6100-basierender 4-Sockel-Server empfehlen. Bei relativ geringem Aufpreis gegenüber einem ähnlich aufgebauten und ausgestatteten Xeon-5600-Server gibt es deutlich mehr Performance bei ebenfalls sehr guter Energieeffizienz.

Die sehr beliebten 2-Sockel-Rackserver mit Xeon-5600-CPUs sollten beim jeweiligen Serveranbieter somit durchaus mit den Kosten eines 4-Sockel-Opteron-6100-Systems verglichen werden, wenn dieses ebenfalls im Angebot ist. Bleibt der Mehrpreis bei vergleichbarer Ausstattung wie bei Dell überschaubar, empfehlen wir das AMD-System. (cvi)

Testsysteme im Detail

AMDs Opteron 6174 in der 4S-Konfiguration testen wir in dem 2U-Rackserver Dell PowerEdge R815. Der 2U-Rackserver setzt auf AMDs SR5670-Chipsatz. Jedem Prozessor stehen acht Registered DDR3-1333-DIMMs (zwei pro Channel) zur Verfügung. Die insgesamt 32 DIMM-Steckplätze ermöglichen mit 4-GByte-Riegeln 128 GByte Arbeitsspeicher.

Den Xeon X7560 in der 4S-Konfiguration testen wir in einem von Intel und Quanta Computer zusammen entwickelten 4-Sockel-Server QSSC-S4R. Dem 4U-System stehen 64 DIMM-Slots zur Verfügung. Die Registered DDR3-1066-Speicherriegel nehmen in acht Hot-Swap-fähigen Riser-Karten Platz. Die in unserem System verwendeten Samsung M393B5170FH0 mit 4 GByte ergeben durch die Vollbestückung 256 GByte RAM.

Opteron-6100-Plattform: Der Dell PowerEdge R815 für vier Opteron 6174 stellt jeder CPU bis zu acht DDR3-DIMMs zur Verfügung.

Intels Xeon X7560 in der 2S-Konfiguration testen wir in dem 4-Sockel-Server Dell PowerEdge R810. Der 2U-Server verwendet den Intel-7500-Chipsatz und bietet insgesamt 32 DIMM-Steckplätze. Pro CPU stehen somit acht Registered DDR3-1066-DIMMs zur Verfügung. Das System kann in der Vollbestückung mit 4-GByte-Modulen auf 128 GByte RAM zurückgreifen.

AMDs Opteron 6174 "Magny-Cours" testen wir in einem 2-Sockel-Referenzsystem von AMD. Das Tower-System verwendet das AMD-Referenz-Mainboard Dinar2 mit AMD SR5690-Chipsatz. Jeder Socket-G34-CPU stehen acht DIMM-Steckplätze zur Verfügung (zwei Speicherriegel pro Channel). Beide Opteron 6174 können im Testsystem auf jeweils vier 4-GByte-Registered-DIMMs zurückgreifen. Dem System stehen somit insgesamt 32 GByte RAM zur Verfügung.

Intels Xeon X5680 "Westmere-EP" testen wir in einem 2-Sockel-Server Asus RS700-E6/RS4. Der 1U-Server mit der neuen Tylersburg-EP-Plattform besitzt als Mainboard ein Asus Z8PS-D12-1U mit Chipsatz Intel 5520 und ICH10R. Jedem Prozessor steht pro Speicher-Channel ein 4 GByte Registered DIMM vom Typ Qimonda IMHH4GP12A1F1C-13H mit 1333 MHz Taktfrequenz zur Verfügung. Insgesamt besitzt das System damit 24 GByte Arbeitsspeicher - 12 GByte pro CPU mit drei Channels.

Opteron-6100-Plattform: Die AMD-Referenzplattform für G34-Prozessoren stellt jeder CPU bis zu acht DDR3-DIMMs zur Verfügung.

Um insbesondere für die Energiemessungen möglichst gleiche Vorraussetzungen für die AMD- und Intel-Server zu ermöglichen, arbeiten in den Systemen an der SAS/SATA-Backplane jeweils zwei SATA-RAID-Edition-Festplatten. Bei den Energiemessungen achten wir darauf, die minimale Anzahl von DIMMs zu verwenden, bei der noch alle Speicher-Channels belegt sind. Unterschiede gibt es bei den Netzteilen. Der Xeon-X5680-Server bezieht seine Energie aus zwei 770-Watt-Netzteilen. Im Opteron-6174-System befindet sich ein 1200-Watt-Netzteil. Dell PowerEdge R815 mit den vier Opteron 6174 wird von mit zwei 1100-Watt-Netzteilen mit Energie versorgt. Das Xeon-7500-System Dell PowerEdge R810 ist ebenfalls mit zwei 1100-Watt-Netzteilen ausgestattet. Der 4-Sockel-Server QSSC-S4R arbeitet dagegen mit vier 850-Watt-Netzteilen.

Als Betriebssystem setzen wir Windows Server 2008/R2 Enterprise x64 ein. Tests unter Linux erfolgen mit CentOS 5.4 in der 64-Bit-Version.