Nicht umsonst agiert AMDs Opteron in der Domäne von Systemen mit zwei und mehr x86-Prozessoren seit Jahren äußerst konkurrenzfähig gegen Intel: Durch integrierte Speicher-Controller und flexible und schnelle Interconnects zwischen den CPUs erwirkt AMDs Direct Connect Architecture in Mehrwegesystemen entscheidende Vorteile.
In Servern mit zwei Prozessoren befindet sich Intel seit März 2009 mit der Xeon-5500-Serie mit ähnlichem Konzept auf der Überholspur. Statt klassischer FSB/Chipsatz-Kombination setzen die Xeons mit Nehalem-Architektur auf drei integrierte DDR3-Speicher-Controller und das serielle QuickPath-Interface. Zusätzlich verfügen die Quad-Core-CPUs über Hyper-Threading – pro Xeon 5500 sind acht parallele Threads möglich. Die Performance und Energieeffizienz setzt Maßstäbe.
Grund genug für AMD, seine Quad-Core-Prozessoren Opteron Shanghai der Serien 2300 und 8300 kräftig aufzubohren. Als Nachfolger gibt es jetzt die neuen Opteron-Serien 2400 (2-Sockel-Systeme) und 8400 (4- und 8-Sockel-Systeme). Die Opterons mit Code-Namen „Istanbul“ sind AMDs erste Prozessoren mit sechs Kernen. Als Besonderheit arbeiten die 6-Core-Opterons weiterhin in AMDs aktuellen Plattformen mit Socket F – neue Systeme sind nicht notwendig, ein BIOS-Update genügt. Mit sechs Kernen will AMD besonders die Energieeffizienz des Opterons nochmals erheblich verbessern.
Im TecChannel-Testlabor überprüfen wir die Rechenleistung und die Performance pro Watt der neuen 6-Core-Opterons 2435 und 8435 (jeweils 2,6 GHz / 75 Watt). Als Vergleich für den Opteron 2435 im 2-Sockel-Server dienen möglichst identisch ausgestattete Systeme mit den Vorgängern Opteron 2356 „Barcelona“ (2,3 GHz / 75 Watt) und Opteron 2384 „Shanghai“ (2,7 GHz / 75 Watt). Von Intel tritt der Xeon X5570 „Nehalem-EP“ (2,93 GHz / 95 Watt) sowie die Xeon-5400-Serie an. In Servern mit vier Prozessoren vergleichen wir den neuen Opteron 8435 mit dem Quad-Core-Modell Opteron 8356 „Barcelona“ sowie Intels 6-Core-CPU Xeon X7460.
Wir überprüfen die Performance der CPUs bei Integer- und Floating-Point-Anwendungen sowie bei Verschlüsselung, Rendering und Simulation. Die Geschwindigkeit bei Java-Applikationen wird ebenso untersucht wie die Energieeffizienz der Systeme.
Details zum Opteron 2400 und 8400 „Istanbul“
Bei AMDs Istanbul handelt es sich um einen nativen 6-Core-Prozessor. AMD vereint alle sechs Kerne auf einem 45-nm-Siliziumplättchen. Die Server-CPU verricht in aktuellen Socket-F-Plattformen ihren Dienst.
Für den Istanbul-Opteron ist laut AMD deshalb nur ein BIOS-Update bei Socket-F-Servern, die bisher mit den 45-nm-Opterons „Shanghai“ arbeiten, notwendig. „Istanbul“ steuert wie der Opteron „Shanghai“ gepufferte DDR2-800-DIMMs im Dual-Channel-Modus an. Unverändert lässt AMD auch die Cache-Größen: Jeder Kern verfügt über einen dedizierten 512 KByte fassenden L2-Cache. Allen Kernen steht der gemeinsame 6 MByte große Datenpuffer zur Verfügung.
AMD bietet den Opteron „Istanbul“ für 2-, 4- und 8-Sockel-Systeme in den Serien 2400 und 8400 an. Zum Start der 6-Core-CPUs gibt es den für 2-Sockel-Systeme den Opteron 2427 (2,2 GHz), 2431 (2,4 GHz) und 2435 (2,6 GHz). Für Server mit vier oder acht Prozessoren bietet AMD den Opteron 8431 mit 2,4 GHz und 8435 mit 2,6 GHz Taktfrequenz. Die 8400er Serie unterscheidet sich durch einen zusätzlichen dritten HyperTransport-Link. Der Energiebedarf der neuen 6-Core-Opterons liegt unverändert zu den Quad-Core-Vorgängern bei 75 Watt ACP.
Im Laufe des dritten Quartals 2009 will AMD zusätzliche Opteron HE, SE und EE mit sechs Kernen ausliefern. Die besonders stromsparend ausgelegten Opteron-EE-Modelle spezifiziert AMD mit 40 Watt ACP. Mit „HE“ kennzeichnet AMD Opteron-Prozessoren mit 55 Watt ACP. Die Performance-Varianten „SE“ stuft der Hersteller dagegen mit 105 Watt ein.
Statt der TDP (Thermal Design Power), einem theoretischen Maximalwert, bei dem alle Transistoren der CPU gleichzeitig schalten, verwendet AMD bei der Energieeinstufung den ACP-Wert (Average CPU Power). Hier handelt es sich nach Ansicht des Herstellers um einen realistischen Maximalwert. Der ACP liegt jeweils unterhalb des TDP-Wertes, den es weiterhin für Entwickler gibt.
Modell |
Taktfrequenz [MHz] |
ACP [Watt] |
Listenpreis [US-Dollar] |
---|---|---|---|
45-nm-Hexa-Core |
|||
Neu: Opteron 2435 |
2600 |
75 |
1019 |
Neu: Opteron 2431 |
2400 |
75 |
-- |
Neu: Opteron 2427 |
2200 |
75 |
455 |
Neu: Opteron 8435 |
2600 |
75 |
2649 |
Neu: Opteron 8431 |
2400 |
75 |
1019 |
45-nm-Quad-Core |
|||
Opteron 2389 |
2900 |
75 |
698 |
Opteron 2387 |
2800 |
75 |
523 |
Opteron 2384 |
2700 |
75 |
523 |
Opteron 2382 |
2600 |
75 |
316 |
Opteron 2380 |
2500 |
75 |
316 |
Opteron 2378 |
2400 |
75 |
174 |
Opteron 2376 |
2300 |
75 |
147 |
Opteron 8389 |
2900 |
75 |
2149 |
Opteron 8387 |
2800 |
75 |
1865 |
Opteron 8384 |
2700 |
75 |
1514 |
Opteron 8382 |
2600 |
75 |
1165 |
Opteron 8380 |
2500 |
75 |
989 |
Opteron 8378 |
2400 |
75 |
873 |
65-nm-Quad-Core |
|||
Opteron 2356 |
2300 |
75 |
690 |
Opteron 2354 |
2200 |
75 |
455 |
Opteron 2352 |
2100 |
75 |
316 |
Opteron 2350 |
2000 |
75 |
255 |
Opteron 8356 |
2300 |
75 |
1514 |
Opteron 8354 |
2200 |
75 |
1165 |
Opteron 8350 |
2000 |
75 |
873 |
Details zu den Testsystemen
Um die Performance und vor allem die Energieeffizienz der verschiedenen Opteron- und Xeon-CPUs gut vergleichen zu können, verwenden wir möglichst bauähnliche Server.
AMDs Opteron 2435 und 8435 testen wir in einem 4-Sockel-Server Tyan Transport GT26. Der 1U-Rack-Server verwendet als Mainboard ein Tyan S4987 mit NVIDIA MCP55-Chipsatz. Das System eignet sich für den Betrieb mit zwei oder vier Prozessoren. Jedem Prozessor stehen zwei gepufferte 4-GByte-DIMMs in einer Dual-Channel-Konfiguration zur Verfügung. Insgesamt verfügt der Tyan-Server in der 2-Sockel-Konfiguration über 16 GByte Arbeitsspeicher, mit vier CPUs stehen 32 GByte RAM zur Verfügung.
AMDs Opteron 2384 „Shanghai“ und 2356 „Barcelona“ testen wir in einem 2-Sockel-Server Supermicro A+ 2021M-UR+B. Der Rack-Server verwendet als Mainboard das Supermicro H8DMU+ mit NVIDIA MCP55Pro-Chipsatz. Jedem Prozessor stehen vier gepufferte 2-GByte-DIMMs in einer Dual-Channel-Konfiguration zur Verfügung. Insgesamt verfügt der Opteron-Server somit über 16 GByte Arbeitsspeicher. Die Performance des Opteron 8356 „Barcelona“ wird im 4-Sockel-Server Transtec Calleo 501 ermittelt. Die Performance der Prozessoren ist in den unterschiedlichen Socket-F-Servern im Rahmen der Messtoleranzen auf gleichem Niveau – wie unsere Cross-Checks ergeben haben.
Intels Xeon X5570 „Nehalem-EP“ testen wir in einem 2-Sockel-Server Asus RS700-E6/RS4. Der 1U-Server mit der neuen Tylersburg-EP-Plattform besitzt als Mainboard ein Asus Z8PS-D12-1U mit Chipsatz Intel 5520 und ICH10R. Jedem Prozessor steht pro Speicher-Channel ein 4 GByte Registered DIMM vom Typ Qimonda IMHH4GP12A1F1C-13H mit 1333 MHz Taktfrequenz zur Verfügung. Insgesamt besitzt das System damit 24 GByte Arbeitsspeicher – 12 GByte pro CPU mit drei Channels.
Die Xeon-5400-CPUs nehmen in einem SuperServer 6025W-NTR+B von Supermicro Platz. Als Mainboard verwendet der Server ein Supermicro X7DWN+ mit Seaburg-Chipsatz. Vier FB-DIMM-Channels steuern insgesamt acht 2-GByte-Module vom Typ Nanya NT2GT72U4NB1BD-2C an. Die FB-DIMMs arbeiten bei der FSB1600-CPU Xeon E5472 mit DDR2-800-SDRAMs mit einem 5-5-5-Timing. Bei den FSB1333-Xeons steuert der Chipsatz den Speicher automatisch mit einer Geschwindigkeit von 667 MHz bei CL5 an. Den 6-Core-Prozessor Xeon X7460 testen wir in Intels 4-Sockel-System S7000FCUR mit auf. Details zum Testsystem finden Sie in unserem Artikel Test: Erste 6-Core-CPU von Intel.
Um insbesondere für die Energiemessungen gleiche Vorraussetzungen für den AMD- und Intel-Server zu ermöglichen, arbeiten in den Systemen an der SAS/SATA-Backplane jeweils zwei SATA-RAID-Edition-Festplatten von Samsung. Somit lassen sich bestmögliche Vergleiche zwischen den Prozessoren ziehen.
Als Betriebssystem setzen wir Windows Server 2008 Enterprise x64 ein. Tests unter Linux erfolgen mit CentOS 5 in der 64-Bit-Version.
Multitask Integer: SPECint_rate_base2006
Wir setzen die SPEC-Benchmarks unter Windows Server 2008 Enterprise x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 10.1 und Fortran 10.1 in der 64-Bit-Version sowie MS Visual Studio 2005 .NET für alle Integer-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz.
Bei den Integer-Berechnungen von SPECint_rate_base2006 ermittelt die Benchmark-Suite CPU2006 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Integer-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standardsoftware.
Intels 10.1-Compiler bieten mit dem Switch -QxO eine offizielle SSE3-Unterstützung für „Non-Intel-Processors“ (erstmals mit Version 10.0). Mit dieser Compiler-Option führten wir die CPU2006-Benchmarks für die Opteron-Prozessoren durch. Bei den Xeon-CPUs nutzten wir das Compiler-Flag -fast. Hier wählen die Intel-Compiler automatisch die optimale Befehlssatzunterstützung. Zusätzlich testen wir den Xeon X5570 für eine optimale Vergleichbarkeit mit dem Opteron 2435 ebenfalls mit -QxO.
Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECint_rate_base2006 der Anzahl der Prozessorkerne des Systems. Beispielsweise arbeiten beim Zwei-Sockel-Server mit Hexa-Core-Opterons zwölf Kopien parallel. Beim Nehalem-EP-System mit Xeon X5570 (Quad-Core) sind durch das zusätzliche Hyper-Threading 16 virtuelle Kerne vorhanden. Entsprechend laufen bei den Xeon-X5570-CPUs 16 parallele Kopien.
Multitask Floating Point: SPECfp_rate_base2006
Wir setzen die SPEC-Benchmarks unter Windows Server 2008 Enterprise x64 praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 10.1 und Fortran 10.1 in der 64-Bit-Version sowie MS Visual Studio 2005 .NET für alle Floating-Point-Tests. Spezielle Bibliotheken für die Optimierung auf den jeweiligen Prozessor kommen nicht zum Einsatz.
Bei den Floating-Point-Berechnungen von SPECfp_rate_base2006 ermittelt die Benchmark-Suite CPU2006 den maximalen Durchsatz durch Verwendung mehrerer Tasks. Dabei arbeiten multiple Kopien des Benchmarks parallel. Die Ergebnisse geben einen guten Anhaltspunkt für die Floating-Point-Leistungsfähigkeit der Prozessoren bei parallel arbeitender Standardsoftware.
Intels 10.1-Compiler bieten mit dem Switch -QxO eine offizielle SSE3-Unterstützung für „Non-Intel-Processors“ (erstmals mit Version 10.0). Mit dieser Compiler-Option führten wir die CPU2006-Benchmarks für die Opteron-Prozessoren durch. Bei den Xeon-CPUs nutzten wir das Compiler-Flag -fast. Hier wählen die Intel-Compiler automatisch die optimale Befehlssatzunterstützung. Zusätzlich testen wir den Xeon X5570 für eine optimale Vergleichbarkeit mit dem Opteron 2435 ebenfalls mit -QxO.
Typischerweise entspricht die Anzahl der Tasks/Kopien von SPECfp_rate_base2006 der Anzahl der Prozessorkerne des Systems. Bei den Zwei-Sockel-Servern mit Quad-Core-Prozessoren arbeiten acht Kopien parallel. Beim Nehalem-EP-System sind durch das zusätzliche Hyper-Threading 16 virtuelle Kerne vorhanden. Entsprechend arbeitet bei den Xeon-X5570-CPUs 16 parallele Kopien. Durch den CPU2006-Speicherbedarf von bis zu 2 GByte RAM pro Kopie erhöhen konnten wir SPECfp_rate_base2006 mit vier Opteron 8435 (24 Kopien) nicht durchführen. Das von AMD zur Verfügung gestellte Testsystem war nur mit 32 GByte RAM bestückt.
SPECjvm2008: Java Virtual Machine Performance
Mit SPECjvm2008 stellt die Standard Performance Evaluation Corporation (SPEC) einen Benchmark für die Performance von Systemen unter Java Runtime Environment (JRE) zur Verfügung. Die Evaluierungssoftware zur Ermittlung der Java-Performance wurde von SPEC in Zusammenarbeit mit AMD, Bea, Hewlett-Packard, IBM, Intel und Sun entwickelt.
Für die Performance des Systems in einer Java Virtual Machine zeigen sich neben der Wahl der Java-Engine die Prozessoren sowie die Speicherarchitektur verantwortlich. SPECjvm2008 startet eine JVM und führt einen Multithread-Workload durch. Alle Prozessorkerne eines Systems werden von SPECjvm2008 ausgenutzt.
SPECjvm2008 arbeitet mit einem Base-Run, bei dem keine speziellen Tuning-Maßnahmen durch Flags und Optimierungen erlaubt sind. Damit wird die Java-Performance der Systeme mit der installierten JVM ermittelt. Zehn verschiedene Tests wie Compilieren, Rendering, Verschlüsselung oder Komprimierung werden durchgeführt. Beim Peak-Run lassen sich für jeden Test Optimierungen für die JVM einstellen.
Wir führen SPECjvm2008 im Base-Run unter Windows Server 2008 Enterprise x64 mit der JRE Bea JRockit 6 R27 in der 64-Bit-Version durch:
SPECpower: Maximale Java-Performance
SPECpower_ssj2008 ermittelt neben der Energieeffizienz bei 100 Prozent Prozessorauslastung auch die maximale Java-Performance des Systems. Als Java-Engine unter Windows Server 2008 Enterprise x64 dient Bea JRockit in der 64-Bit-Version 6 R27.
SPECpower_ssj2008 nutzt einen anderen Workload als SPECjvm2008. Außerdem arbeiten bei SPECpower_ssj2008 nicht nur eine JVM, sondern mehrere virtuelle Java-Instanzen. Bei den getesteten Vier-Sockel-Systemen sind zwei JVMs aktiv. Jede JVM agiert multithreaded mit der Anzahl der CPU-Kerne pro Sockel. Bei diesem konfigurierbaren Setup erzielt SPECpower_ssj2008 bei Zwei-Sockel-Systemen die besten Ergebnisse.
Bei diesem Test sind die Energiesparoptionen der Prozessoren aktiv, die erreichbare Performance wird durch die Vollauslastung der CPUs allerdings nicht beeinflusst.
Dass beim Java-Workload von SPECpower hohe Speicher- und Busbandbreiten von Vorteil sind, zeigen auch die Xeon E5472. Trotz nur 3,0 GHz Taktfrequenz überholen die Xeon E5472 hier die 3,33-GHz-Xeon-X5470-CPUs, weil sie mit DDR2-800-Speicher und FSB1600 arbeiten (statt DDR2-667 und FSB1333).
SPECpower: Energieeffizienz Performance/Watt
Der Gesamtwert von SPECpower_ssj2008 steht für die Energieeffizienz des Systems. Der Benchmark gibt die gemittelte Performance pro Watt an, die über alle Lastzustände von zehn bis 100 Prozent gemessenen werden.
Um die Energiesparoptionen der Prozessoren zu nutzen, arbeitet Windows Server 2008 Enterprise x64 mit dem Energieschema „Ausbalanciert“. SpeedStep (Intel) und PowerNow! (AMD) zum dynamischen Regeln von Taktfrequenz und Core-Spannung je nach CPU-Auslastung sind bei dem SPECpower-Benchmark aktiv:
Jetzt wird bei den Energieoptionen von Windows Server 2008 das Schemata „Höchstleistung“ ausgewählt. Die Prozessoren arbeiten immer mit voller Taktfrequenz und Core-Spannung. Die dynamischen Powermanagement-Funktionen SpeedStep (Intel) und PowerNow! (AMD) sind beim Schemata „Höchstleistung“ nicht aktiv.
Im folgenden Diagramm sehen Sie die Auswirkungen des deaktivierten CPU-Powermanagements auf die Energieeffizienz der Systeme:
SPECpower: Kurven Energieeffizienz
Der Energieeffizienz-Benchmark SPECpower_ssj2008 ermittelt für jeden Lastzustand von zehn bis 100 Prozent die Performance/Watt-Werte der Systeme. Hier zeigt sich: Je höher die Prozessorauslastung, desto besser die Energieeffizienz des gesamten Systems.
In den Diagrammen wird die Performance pro Watt von zehn bis 100 Prozent in den roten Balken dargestellt. Die blaue Kurve zeigt zusätzlich den Energieverbrauch des Systems bei der entsprechenden Prozessorauslastung an. Links in den Bildern sehen Sie jeweils die Ergebnisse mit aktivem Prozessor-Powermanagement, rechts bei inaktivem SpeedStep (Intel) oder PowerNow! (AMD):
SPECpower: Maximaler Energieverbrauch
SPECpower_ssj2008 ringt dem Testsystem im Lastzustand 100 Prozent den maximalen Energieverbrauch ab. Alle Kerne der Prozessoren sind voll ausgelastet. Die aktiven JVMs fordern zusätzlich den Arbeitsspeicher der Systeme.
Arbeiten im Tyan-4-Sockel-Server statt zwei Opteron 2435 vier Opteron 8435, so erhöht sich der Energiebedarf um 169 Watt. Neben den zwei zusätzlichen 75-Watt-Opterons (zirka 150 Watt) sorgen pro CPU zwei 4-GByte-DIMMs sowie die höhere Netzteilbelastung für den Energieaufschlag. Zirka 90 Watt mehr genehmigt sich der bauähnliche Transtec-Server mit vier 65-nm-Quad-Core-Opterons – bei deutlich geringerer Performance.
Intels 4-Sockel-Server mit Xeon-X7460-CPUs (130 Watt TDP) benötigt unter Volllast sogar 283 Watt mehr Energie als der Tyan-4-Sockel-Server mit Opteron-8435-CPUs (75 Watt ACP). Neben der höheren Watt-Einstufung der CPUs sorgen beim Intel-S7000FCUR-Server die stromhungrigeren FB-DIMMs sowie zwei redundant ausgelegte 1570-Watt-Netzteile für den deutlichen Mehrverbrauch.
SPECpower: Minimaler Energieverbrauch
SPECpower_ssj2008 führt neben den Lasttests zusätzlich Kalibrierungsmessungen über den Energieverbrauch bei Leerlauf durch. Dabei wird der minimale Energiebedarf des Systems ermittelt.
Im folgenden Diagramm vergleichen wir den Systemverbrauch unter Windows Server 2008 Enterprise x64 mit dem Energie-Schemata „Ausbalanciert“. Die Prozessoren nutzen ihre Powermanagement-Features SpeedStep (Intel) und PowerNow! (AMD) aus:
Jetzt wird bei den Energieoptionen von Windows Server 2008 das Schemata „Höchstleistung“ ausgewählt. Die dynamischen Powermanagement-Funktionen SpeedStep (Intel) und PowerNow! (AMD) sind beim Schemata „Höchstleistung“ nicht aktiv:
Effizienz und Verbrauch: 1 vs. 2 Netzteile
Alle Energieeffizienz-Messungen der Opteron-Prozessoren 2435 und 8435 führen wie im 4-Sockel-Server Tyan Transport GT26 durch. Der 1U-Rack-Server ist mit einem 1000-Watt-Netzteil mit 80+ Spezifikation ausgestattet. Die 2-Sockel-Server für Intels Xeon-5400- und 5500-CPUs sowie AMDs Opteron 2356 und 2384 sind jeweils mit zwei redundant ausgelegten 700- beziehungsweise 770-Watt-Netzteilen ausgestattet. Wird ein Netzteil rausgezogen, so läuft der Server mit dem verbleibenden Netzteil problemlos weiter. Mit zwei Netzteilen lässt sich die Ausfallsicherheit des Servers deutlich erhöhen. Intels 4-Sockel-Server S7000FCUR für die Xeon-X7460-CPUs besitzt für eine redundante Stromversorgung zwei 1570-Watt-Netzteile.
Um den Einfluss der Netzteile auf die Energieeffizienz eines Systems zu zeigen, führen wir SPECpower_ssj2008 beim 2-Sockel-Server Asus RS700-E6/RS4 mit den Nehalem-CPUs Xeon X5570 mit einem und mit zwei Netzteilen durch. In der Tabelle zeigen wir die mit SPECpower ermittelten Energieaufnahmen und Performance/Watt-Werte:
Xeon-X5570-Server |
1 Netzteil im Betrieb |
2 Netzteile im Betrieb |
---|---|---|
Energieaufnahme Leerlauf |
115 |
155 |
Energieaufnahme Volllast |
341 |
361 |
SPECpower Performance/Watt |
1032 |
932 |
Wird auf ein Netzteil verzichtet, so benötigt der Nehalem-Server im Leerlauf 26 und unter Volllast sechs Prozent weniger Energie. Die Performance pro Watt des Servers erhöht sich um elf Prozent, wenn nur ein Netzteil verwendet wird.
Analyse: SunGard ACR
SunGards Adaptiv Credit Risk 4.0 ist ein Analysetool für den Finanzbereich. Basierend auf modifizierten Monte-Carlo-Simulationen berechnet das Programm den künftigen Wert einer Anlage auf Basis vorhandener Marktdaten.
SunGards Adaptiv Credit Risk wurde in C# für Microsofts .NET-Umgebung programmiert. Spezielle Mathematik-Bibliotheken wie Intels MKL oder AMDs Core Math Library ACML verwendet Adaptiv Credit Risk nicht. Das Analysetool arbeitet multithreaded und unterstützt Multiprozessor-Systeme optimal. SunGard rechnet überwiegend mit Integer-Operationen. Speicherzugriffe halten sich bei Adaptiv Credit Risk in Grenzen.
Linpack 64 Bit
Linpack dient als verbreitetes Tool zum Ermitteln der Floating-Point-Performance von Highend-Computern. Das Ergebnis wird in Flops (Fließkomma-Operationen pro Sekunde) angegeben.
Linpack löst komplexe lineare Gleichungssysteme. Die Anzahl der Gleichungen lässt sich dabei stark erhöhen, um auch massiv parallel operierende Systeme unter Last zu setzen. Der Bedarf an Arbeitsspeicher wächst entsprechend mit. Die Speicherzuweisung erfolgt über eine Matrix-Berechnung. Size x LDA x 8 (Anzahl der Gleichungen x Input x 8 bit) ergibt den zu allokierenden Speicher.
Unter Linux 64 Bit setzen wir die 64-Bit-Version von Linpack 2.1.2 ein. Der SMP-fähige Benchmark setzt EMT64-Prozessoren mit SSE3-Unterstützung voraus. AMDs Opteron-Prozessoren mit SSE3 arbeiten unter Linux ebenfalls problemlos mit der von Intel-Compilern erstellten Linpack-Version zusammen.
Bei unseren Tests löst Linpack in verschiedenen Durchläufen 5000, 10.000, 15.000, 18.000, 22.000 und 27.000 Gleichungssysteme. Damit benötigt der Benchmark zwischen 190 MByte (5000 Gleichungssysteme) und zirka 5,4 GByte Arbeitsspeicher (27.000 Gleichungssysteme). Im Diagramm finden Sie die von den Prozessoren maximal erreichten GFlops.
Encryption/Decryption: openSSL 64 Bit
Die Leistungsfähigkeit der Prozessoren beim Verschlüsseln und Entschlüsseln von Daten unter Linux 64 Bit ermittelt das Open-Source-Programm openSSL in der 64-Bit-Version 0.9.8b. Der Code von openSSL ist single threaded programmiert. Durch den Start von multiplen Kopien summiert openSSL die Performance beim Verschlüsseln und Entschlüsseln von Daten.
Wir testen die Prozessoren bei openSSL mit dem RSA-Schlüssel und einer Schlüssellänge von 2048 Bit. Der synthetische Benchmark gibt einen guten Anhaltspunkt für die Geschwindigkeit der Prozessoren beim Verschlüsseln und Entschlüsseln von Daten. Spezielle, für die CPU-Architekturen optimierte Mathematik-Bibliotheken kommen beim mit gcc kompilierten openSSL-Benchmark nicht zum Einsatz.
Rendering: SPECapc 3ds Max 2009 x64
Discreet/Autodesk bietet mit 3ds Max 2009 x64 eine professionelle Software für 3D-Modelling, Animation und Rendering an. Bei den Render-Vorgängen nutzt 3ds Max 9 2009 x64 Multiprocessing voll aus. Die Multi-Core-Technologie sowie ein zweiter Prozessor wirken somit beschleunigend.
Die gewählte Render-Szene „Space Flyby“ basiert auf der Benchmark-Suite SPECapc for 3ds Max von SPEC.org. Die Grafikkarten-Performance spielt beim Rendering keine Rolle, die OpenGL/DirectX-basierten Tests der SPECapc-Suite verwenden wir nicht.
Mit vier Opteron 8435 oder vier Xeon-X7460-CPUs lässt sich der Rendering-Test mit 3ds Max 2009 nicht durchführen. Die Rendering-Engine des Programms unterstützt maximal 16 CPU-Kerne. Beim Start von 3ds Max 2009 auf einem 4-Sockel-Server mit 24 Cores erfolgt eine Fehlermeldung der Engine.
Rendering: CINEBENCH 10 64 Bit
Mit dem CINEBENCH 10 stellt Maxon die aktuelle Version des bekannten Benchmark-Tools bereit. CINEBENCH 10 basiert auf Cinema 4D Release 10 und führt wieder Rendering-Tests durch. Maxon bietet CINEBENCH 10 als 32- und 64-Bit-Version zum Download an.
Beim Render-Teset wird eine fotorealistische 3D-Szene mithilfe des Cinema-4D-Raytracers berechnet. Die Szene enthält unter anderem Lichtquellen, Schatteneffekte sowie Multi-Level-Reflektionen. Bei dem FPU-lastigen Test spielt die Leistungsfähigkeit der Grafikkarte keine Rolle. Auch höhere Speicher- und FSB-Bandbreiten nutzen beim Rendering von CINEBENCH 10 wenig – der Test läuft überwiegend in den Cache-Stufen ab.
Die Rendering-Engine von Cinema 4D Release 10 unterstützt maximal 16 parallele Threads. Die 4-Sockel-Systeme mit Hexa-Core-CPUs (24 Kerne) werden nicht voll ausgenutzt. CINEBENCH 10 führen wir deshalb nur mit 2-Sockel-Konfigurationen durch.
Fazit
AMDs neue Opteron-Prozessoren 2435 und 8435 mit 2,6 GHz Taktfrequenz ermöglichen durch ihre Hexa-Core-Technologie zirka 30 Prozent mehr Performance gegenüber den 2,7-GHz-Quad-Core-Modellen. Der Leistungssprung der 6-Core-Opterons ging erfreulicherweise nicht zu Lasten der Energieeffizienz – im Gegenteil. AMD spezifiziert die Hexa-Core-CPUs unverändert zu den Quad-Core-Opterons mit 75 Watt ACP. Entsprechend steigern die neuen Opteron 2435 die Performance pro Watt wieder auf das Niveau der bisher überragenden Xeon-X5570-Systeme.
Geht es nur um die pure Performance, so haben AMDs 6-Core-Opterons jedoch weiterhin kaum Chancen gegen Intels Xeon X5570 mit Nehalem-Architektur. Allerdings schaffen es die Opteron-2435-CPUs, den Xeon X5570 wenigstens vereinzelt in den Schatten zu stellen.
Im Segment der 4-Sockel-Server kehrt sich das Performance-Verhältnis um. AMD legt mit den neuen Opteron-8435-CPUs die Messlatte für Intels 6-Core-Prozessor Xeon X7460 sehr hoch. Die vier 6-Core-Opterons bieten in Verbindung mit AMDs Direct Connect Architektur überwiegend deutlich mehr Rechenleistung. Intels 6-Core-Xeons kommunizieren alle noch „klassisch“ über den Chipsatz – auch mit dem Arbeitsspeicher. Selbst die immensen 25 MByte Cache pro Xeon X7460 kompensieren nicht den Nachteil der langsamen Speicherzugriffe über den Chipsatz. In der Energieeffizienz zeigt sich unser getesteter Tyan-1U-Rackserver mit vier Opteron 8435 sogar dreimal besser als das Intel System S7000FCUR. Der Xeon-X7460-Server ist allerdings durch seine redundanten Netzteile benachteiligt.
Ein weiterer Pluspunkt für die neuen Opteron-Serien 2400 und 8400 ist die Kompatibilität zu vorhandenen AMD-Plattformen mit Socket F. Durch die unveränderte Infrastruktur bieten sich die 6-Core-Opterons sogar für CPU-Upgrades in vorhandenen Systemen an. (cvi)