Server-CPUs

Test: Xeon 3,06 GHz L3 vs. Opteron 244

01.08.2003 von Christian Vilsbeck

AMDs 64-Bit-Prozessor Opteron bringt den Xeon selbst unter 32-Bit-Betriebssystemen in Bedrängnis. Eine dritte Cache-Stufe soll das Kräfteverhältnis bei den Server-/Workstation-CPUs wieder zu Gunsten von Intel zurechtrücken.

Den Test von 11.11.2007 des Intel Xeon finden Sie hier.

Der 64-Bit-Prozessor Opteron 244 überzeugte unter 32-Bit-Windows auf Anhieb. Bei einer deutlich niedrigeren Taktfrequenz als bei den konkurrierenden Xeon-DP-Prozessoren zeigt die AMD64-Architektur ihr Potenzial.

Jetzt legt Intel beim Xeon DP nach und greift zu einem Mittel, das bei den "großen" Server-Prozessoren Itanium 2 und Xeon MP längst Usus ist - ein integrierter L3-Cache. Unverändert bleibt dagegen die Taktfrequenz von 3,06 GHz. Die dritte 1024 KByte fassende Pufferstufe des Xeon DP soll große Workloads im Cache halten und langsame Speicherzugriffe reduzieren.

Flotte Speicherzugriffe gewährt AMDs Opteron durch seinen integrierten Memory-Controller. Und statt mit 512 KByte L2-Cache wie beim Xeon wartet der Opteron bereits mit einer 1024 KByte großen zweiten Cache-Stufe auf.

In diesem Artikel gehen wir der Frage nach dem Leistungspotenzial des neuen Xeon-Prozessors und des Opteron unter 32-Bit-Windows nach. Bei den gewählten Tests fokussieren wir auf die Integer- und die Floating-Point-Performance der CPUs und zeigen die Auswirkung des L3-Cache beim Xeon. Wie gut AMD die SSE2-Implementierung beim Opteron gelungen ist, wird dabei ebenso analysiert wie der Vorteil des integrierten Speicher-Controllers. Im Testlabor müssen sich die Xeons in einer 1- und 2-CPU-Konfiguration AMDs Opteron sowie dem Pentium 4 und Athlon-XP/MP-Prozessoren stellen.

Wie schnell der Opteron mit einem 64-Bit-Betriebssystem im Serverumfeld arbeitet, können Sie in einem separaten Artikel nachlesen. Praxisrelevante Server-Applikationen unter SuSe Linux 32 und SuSe Linux 64 loten das Leistungsvermögen der AMD64-CPU im Vergleich zum Xeon aus.

Details zum Opteron

Lateinisch optimus heißt übersetzt "der beste". AMD hat daraus den Namen Opteron abgeleitet. Mit dem Opteron adressiert AMD den Server/Workstation-Bereich und bietet ihn als 1-, 2- und 8-Wege-CPU an.

Zu Beginn gibt es den Opteron mit 1,4, 1,6 und 1,8 GHz Taktfrequenz. Die Fertigung erfolgt mit einer Strukturbreite von 0,13 µm unter Verwendung von SOI. Für das Topmodell gibt AMD einen TDP-Wert von 84,7 Watt an. Beim Opteron beherbergt das 193 mm² große Die 105,9 Millionen Transistoren. Zirka die Hälfte der Fläche beansprucht dabei der 16fach assoziativ ausgelegte 1024 KByte große L2-Cache. Die L1-Caches sind auf je 64 KByte für Daten und Befehle dimensioniert - unverändert zum Athlon XP. An der 2fach assoziativen Organisation hält AMD ebenfalls fest.

Neu für einen AMD-Prozessor ist die Implementierung von Intels SSE2-Befehlssatz. Allerdings hat AMD die Anzahl der 128 Bit breiten Register von 8 auf 16 erhöht. Von der Verdoppelung profitiert aber nur der 64-Bit-Mode. Unterstützung für Enhanced-3DNow!-Instruktionen kann der Opteron weiterhin bieten. Um die insgesamt neun Ausführungseinheiten optimal mit Befehlen zu versorgen, hat AMD eine verbesserte Sprungvorhersage realisiert und die TLBs einer Überarbeitung unterzogen. Je mehr Einträge ein TLB fassen kann, desto seltener muss bei der Berechnung der physikalischen Adresse die Translation-Tabelle aus dem Arbeitsspeicher geladen werden. Der L1-Daten- und Befehls-TLB des Opteron fasst je 40 Einträge und ist voll assoziativ ausgelegt. Beim Athlon XP kann nur der L1-Daten-TLB so viele Einträge speichern, für Befehle stehen lediglich 25 Einträge bereit. Die vierfach-assoziativen L2-TLBs können mit je 512 Einträgen beim Opteron doppelt so viel aufnehmen wie noch beim Athlon XP.

Niedrigere Latenzzeiten beim Speicherzugriff realisiert der Opteron mit einem integrierten Dual-Channel-DDR333-SDRAM-Controller. Über insgesamt acht DIMMs (vier pro Kanal) lassen sich dann pro CPU acht GByte Speicher ansprechen. Die Speicherbandbreite beträgt mit DualDDR333-Speicher 4,98 GByte/s. Neuland betritt AMD auch beim I/O-Konzept: Statt des üblichen parallelen FSB kommuniziert der Opteron über HyperTransport-Schnittstellen mit I/O-Bausteinen oder benachbarten CPUs.

Ausführliche Grundlagen über die AMD64-Architektur können Sie in einem separaten Artikel bei tecCHANNEL nachlesen.

Model Number

AMD führt mit dem Opteron eine weitere und völlig andere Variante der Model Number ein. Die Opterons für Dualprocessing mit 1,4, 1,6 und 1,8 GHz Taktfrequenz erhalten beispielsweise die Modell-Bezeichnungen 240, 242 und 244.

Laut John Crank, Senior Brand Associate bei AMD, gibt diese Performance-Einstufung aber nicht die relative Taktfrequenz zu anderen CPUs an, sondern ist eine eigenständige Einstufung innerhalb der Opteron-Reihe. Da es die CPU in Versionen für einfach-, zweifach- und achtfach-Multiprocessing geben wird, steht die erste Ziffer für die Skalierbarkeit der CPU. Ein 8-Wege-Opteron hat also beispielsweise eine Model Number, die mit 8 beginnt.

Die beiden verbleibenden Ziffern stufen die CPU innerhalb der Opteron-Reihe ein. Als Beispiel sei ein 2-Wege-Opteron mit der Model Number 242 genannt: Diese CPU wäre langsamer als ein Opteron mit der Model Number 244 und schneller als der Opteron 240. Einen Bezug zu der bisherigen Model Number der Athlon-XP-Reihe gibt es nicht

Model Number, Taktfrequenz und SMP-Fähigkeit
Prozessor	Taktfrequenz	Multiprocessing
Die Tabelle zeigt die Opteron-Modellpalette mit ihrer tatsächlichen Taktfrequenz.
Opteron 140	1400 MHz	nein
Opteron 142	1600 MHz	nein
Opteron 144	1800 MHz	nein


Opteron 240	1400 MHz	2fach
Opteron 242	1600 MHz	2fach
Opteron 244	1800 MHz	2fach

Opteron 840	1400 MHz	8fach
Opteron 842	1600 MHz	8fach
Opteron 844	1800 MHz	8fach

John Crank gab jedoch an, dass für den Athlon 64 eine Model Number verwendet werden soll, die eine Performance-Einstufung relativ zur Taktfrequenz anderer Prozessoren erlaubt.

Details zum Xeon mit L3-Cache

Die bisherigen Intel Xeon DPs für Single- und Dual-Prozessorsysteme basieren auf dem Prestonia-Core, der im Prinzip dem Northwood-Core des Pentium 4 entspricht. Die schnellste Xeon-Variante arbeitet mit 3,06 GHz und verwendet einen 533 MHz schnellen FSB. Wie der Pentium 4 beherrschen die Xeons Hyper-Threading und werden durch einen 512 KByte großen L2-Cache unterstützt.

Diese Eckdaten bleiben auch beim neuen Xeon 3,06 GHz unverändert. Nur spendierte ihm Intel zusätzlich einen 1024 KByte großen L3-Cache. Die dritte Pufferstufe ist auf dem in 0,13-µm-Technologie gefertigten Die integriert und arbeitet mit der vollen Core-Taktfrequenz. Wie der L2-Cache bietet sie eine 8fach assoziative Organisation und eine ECC-Unterstützung.

Der Xeon 3,06 GHz mit L3-Cache bleibt kompatibel zu Systemen mit Intel E7501- und E7505-Chipsätzen. Er verwendet weiterhin den Sockel 604. Einzig ein BIOS-Update für die korrekte Erkennung der weiteren Cache-Stufe ist vonnöten, so Christian Anderka, Pressereferent von Intel. Die Core-Spannung des neuen Xeon muss im Bereich von 1,348 bis 1,468 V liegen. Den TDP-Wert beziffert Intel mit 87 Watt. Damit benötigt die CPU im Extremfall zwei Watt mehr als der Xeon 3,06 GHz ohne L3-Cache.

Neben dem Topmodell mit L3-Cache bleibt die 3,06-GHz-Variante ohne dritte Pufferstufe im Programm. Einen Xeon 3,00 GHz mit FSB400 weist Intels Produktportfolio ebenfalls auf. Als Einstiegsmodell fungiert der Xeon DP mit 2,40 GHz - wahlweise mit FSB400 oder FSB533.

Listenpreise

Intels Xeon-DP-Prozessoren sind für Dual-Processing ausgelegt und konkurrieren hauptsächlich mit AMDs Opteron-CPUs der 200er Serie. Die Preise der CPUs liegen dabei auf dem gleichen Niveau.

Hinsichtlich der Preise empfiehlt es sich, gelegentlich einen Blick auf die offiziellen Listen der CPU-Hersteller zu werfen. Bei AMDs Preisliste gab es am 28. Juli 2003 die letzten Änderungen. Intels Preisliste wurde am 13. Juli 2003 mit der Vorstellung des Xeon 3,06 GHz L3 aktualisiert. Dabei senkte Intel die Preise der übrigen Xeon DPs um bis zu 34 Prozent.

OEM-Preise im Vergleich
Modell	Taktfrequenz [MHz]	Preis [US-Dollar]
Alle Preise in US-Dollar, bezogen auf eine Abnahmemenge von 1000 Stück. Stand: AMD-Preisliste vom 30.06.2003, Intel-Preisliste vom 13.07.2003
Opteron 240	1400	256
Opteron 242	1600	455
Opteron 244	1800	690


Athlon MP 2200+	1800	116
Athlon MP 2400+	2000	131
Athlon MP 2600+	2133	174


Xeon DP FSB400	2800	294
Xeon DP FSB533	3066	455
Xeon DP L3 FSB533	3066	690


Athlon XP 3000+	2167	265
Pentium 4 FSB533	3066	401
Pentium 4 FSB800	3000	417

Die 1000er Preise in den Tabellen sind auch ein Anhaltspunkt für die deutschen/europäischen Endkundenpreise in Euro. Unter Berücksichtigung der Mehrwertsteuer und einer Händlermarge ergibt sich annähernd dieses Preisgefüge. Nachfolgend finden Sie einen Link zu aktuellen Endkundenpreisen.

tecCHANNEL Preisvergleich & Shop
Produkte	Info-Link

Prozessoren	Preise & Händler

Benchmark-Vorbetrachtung

Der für den Server-/Workstation-Einsatz vorgesehene Xeon 3,06 GHz mit 1 MByte L3-Cache und der Opteron 244 mussten in unserem Testlabor zusätzlich gegen folgende Prozessoren antreten:

Athlon MP 2600+ (Thoroughbred-Core) mit DDR266-SDRAM

Athlon XP 2500+ (Barton-Core) mit Dual-Channel-DDR333-SDRAM

Athlon XP 3000+ (Barton) mit Dual-Channel-DDR333-SDRAM

Pentium 4 3000 FSB800 mit Dual-Channel-DDR400-SDRAM

Xeon DP 2800 FSB400 mit Dual-Channel-DDR266-SDRAM

Xeon DP 3066 FSB533 mit Dual-Channel-DDR266-SDRAM

Sowohl den Opteron als auch den Athlon MP und die Xeon-Prozessoren haben wir jeweils im Single- und Dual-Prozessorbetrieb getestet. Beim Pentium 4 und bei den Xeons wurden die Benchmarks mit deaktiviertem Hyper-Threading durchgeführt. Der Athlon XP 2500+ (mit Barton-Core) arbeitet bei 1833 MHz fast mit der gleichen Taktfrequenz wie der Opteron 244 mit seinen 1800 MHz. Damit können wir direkt den Vorteil der AMD64-Architektur gegenüber dem Athlon XP zeigen.

Um die Diagramme übersichtlich zu halten, haben wir die Multiprozessor-Benchmarks in einem eigenen Abschnitt zusammengefasst. Hier finden Sie auch Werte der Xeon-Prozessoren mit aktiviertem Hyper-Threading.

Das Betriebssystem Windows 2000 Server arbeitete bei allen Benchmarks (Single- und Multiprozessor) stets mit dem Multiprozessor-Kernel. Die Funktion und Besonderheiten von Multiprocessing können Sie hier nachlesen.

Bei unseren Performance-Tests haben wir Benchmarks gewählt, die keine oder nur eine geringe Grafikleistung voraussetzen. Dieses Handikap war uns vorgegeben, weil das Opteron-System als Server nur über PCI-X-Erweiterungssteckplätze verfügt. Um gleiche Testkonfigurationen zu gewährleisten, wurden alle Testsysteme deshalb mit einer PCI-Grafikkarte vom Typ GeForce2 MX400 ausgestattet. Einheit herrschte auch beim Arbeitsspeicher mit jeweils 2 GByte und bei den Massenspeichern, die aus Ultra320-SCSI-Festplatten mit 10.000 U/min bestanden.

SPEC CPU2000

Wir benutzen als Analyse-Instrument die Benchmark-Suite SPEC CPU2000 unter Windows 2000 Server. Das Benchmark-Paket verwendet Ganzzahlen- und Fließkomma-Programme und wird mit den Sourcecodes geliefert. Es handelt sich hierbei nicht um Lowlevel-Benchmarks, sondern um Software, die realitätsnahe Aufgabenstellungen bearbeitet. Vor dem Testlauf ist Programm für Programm zu kompilieren, was durch die Wahl der entsprechenden Parameter hervorragende Möglichkeiten zum Test einzelner CPU-Funktionsgruppen eröffnet.

Im SPEC-Komitee sitzen alle Prozessorhersteller, die im Workstation- und Server-Bereich das Sagen haben - auch einige große PC-Hersteller sind dabei. Die SPEC regelt den Gebrauch ihrer Benchmarks strikt und gibt exakt vor, in welcher Form die Ergebnisse an die Organisation zu melden sind. So müssen die verwendeten Compiler und die restliche Hard- und Software spätestens ein halbes Jahr nach dem Test für jedermann zu kaufen sein.

Die von den Herstellern eingereichten Ergebnisse werden auf der offiziellen CPU2000-Result-Seite veröffentlicht. Das alles schafft in der Theorie vergleichbare und faire Testbedingungen.

Tuning per Compiler

In der Praxis kompiliert jeder Hersteller die SPEC-Programme mit eigenen Parametern und selbst gewählten Compilern. Immerhin herrscht beispielsweise zwischen Intel und AMD bislang Einigkeit, dass wohl Intel C++ 7.0 mit MS Visual Studio (für die Libraries) zusammen mit der MicroQuill Smartheap-Library die beste Voraussetzung für gute Integer-Benchmark-Resultate sind. Soll die FPU besonders gut zur Geltung kommen, setzen beide Kontrahenten auch noch Intel Fortran 7.0 ein. AMD nimmt zusätzlich Compaq Visual Fortran 6.5A in Anspruch.

Damit ist das Dilemma der SPEC-Ergebnisse bereits detailliert erläutert: Jeder kann den SPEC-Benchmark optimieren, er muss es nur dokumentieren. Dazu darf er so viele Compiler einsetzen, wie er will. Allerdings ist zwischen dem Base-Rating und den Peak-Ergebnissen zu unterscheiden. Die 26 Programme des CPU2000-Pakets müssen in der Base-Wertung mit den gleichen Compiler-Parametern erzeugt werden. Das gilt jeweils für 12 Integer- und die 14 Fließkomma-Programme. Beim Peak-Rating dürfen sich die Hersteller richtig austoben und jedes Programm speziell tunen.

Sowohl nach den Regeln des Peak- als auch des Base-Ratings lassen sich Programme erzeugen, die nur auf dem gerade getesteten Prozessor laufen. Beispielsweise bringt ein Compiler-Lauf mit Intel C++ und der Option -QxW sehr schnellen Code zu Stande, der durch Verwendung von SSE2 aber nur ab dem Pentium 4, dem Xeon und neuerdings dem Opteron läuft. Ein Pentium III oder gar ein Athlon XP müssen mit der so präparierten Software passen.

Wir haben für diesen Test die jeweils besten Einstellungen für den Pentium 4, Xeon und Opteron (-QxW) sowie den Athlon XP/MP (-QxK) gewählt. Zum Vergleich haben wir den Opteron auch mit der QxK-Option getestet.

Ergebnisse: Integer

Wir setzen die SPEC-Benchmarks praxisnah ein und kompilieren sie deshalb mit dem geringeren Aufwand für das Base-Rating. Dazu verwenden wir Intel C++ 7.0 und MS Visual Studio für alle Integer-Tests. Auch AMD und Intel verwenden diese Compiler für das Base-Rating, wie man an den von beiden Firmen offiziell gemeldeten Integer-Resultaten sehen kann.

SPECint_base2000: Official Run
Prozessor	Opteron 244	Opteron 244	Athlon XP 2500+	Athlon XP 3000+	Pentium 4 3000	Xeon 3066	Xeon 3066 L3
Alle Angaben in Punkten. Höhere Werte sind besser. Bedeutung der Compiler-Optionen: -QxK = optimiert für Pentium III, lauffähig auch mit Pentium 4, Athlon XP, Opteron und Duron ab 1 GHz; -QxW = optimiert für Pentium 4 und Xeon und lauffähig auf dem Opteron.
Speichertyp	DDR333	DDR333	DDR333	DDR333	DDR400	DDR266	DDR266
Chipsatz	AMD-8000	AMD-8000	nForce2	nForce2	875P	E7505	E7505
Compiler	-QxW	-QxK	-QxK	-QxK	-QxW	-QxW	-QxW
Test
164.gzip	972	949	898	1050	1125	1144	1144
175.vpr	933	922	620	681	772	599	855
176.gcc	910	904	689	780	1465	1324	1561
181.mcf	575	576	404	412	924	586	682
186.crafty	1208	1210	1079	1269	1133	1125	1180
197.parser	991	976	811	910	1104	997	1123
252.eon	1307	1375	1300	1536	1097	1114	1119
253.perlbmk	1212	1187	1069	1238	1369	1339	1376
254.gap	1143	1079	949	1069	1583	1486	1535
255.vortex	1605	1601	1411	1578	1921	1741	1904
256.bzip2	942	956	751	833	934	758	920
300.twolf	1076	1086	638	688	838	639	1040
Gesamt	1044	1039	839	942	1148	1009	1160

Der Xeon 3,06 GHz profitiert vom L3-Cache mit einer insgesamt 15 Prozent höheren Integer-Performance im Vergleich zur Variante ohne dritte Pufferstufe. Dieses Ergebnis deckt sich mit den Aussagen von Intel. Im Extremfall wie der Routing-Simulation 300.twolf wirkt der L3-Cache um bis zu 63 Prozent beschleunigend. Das Gros der Daten kann im L3-Cache gehalten werden.

Der Opteron 244 ist mit den Pentium-4-optimierten -QxW-Compiler-Einstellungen nur geringfügig schneller als mit -QxK (ohne SSE2, wird bei SPECint aber nicht genutzt). Gegenüber dem gleich getakteten Athlon XP 2500+ zeigt der Opteron insgesamt einen Performance-Gewinn von 24 Prozent. AMD selbst hatte angegeben, der Opteron würde eine 20 bis 25 Prozent höhere Performance als ein Athlon-Prozessor erreichen: zirka 20 Prozent durch den integrierten Speicher-Controller und fünf Prozent durch die Erweiterungen am Core. Bei unserem Gesamtergebnis für SPECint_base2000 trifft diese Aussage zu.

Dem neuen Xeon 3,06 GHz mit L3-Cache muss sich der Opteron bei Integer-Berechnungen nun geschlagen geben. Sowohl der Opteron als auch der Xeon müssen sich aber dem Pentium 4 3,00 GHz beugen: Der Desktop-Prozessor profitiert hier deutlich von seinem schnellen DDR400-Speicher und FSB800, wie der Vergleich zum Xeon 3,06 GHz zeigt. Intels Server-/Workstation-CPU steht über den E7505-Chipsatz nur DDR266-SDRAM zur Verfügung.

Im folgenden Diagramm finden Sie das Gesamtergebnis des SPEC-CPU2000-Integer-Benchmarks der Prozessoren nochmals übersichtlich im grafischen Vergleich:

Ergebnisse: Floating Point

Wir setzen die SPEC-Benchmarks praxisnah ein und kompilieren sie deshalb mit dem geringeren Aufwand für das Base-Rating. Dazu verwenden wir Intel C++ 7.0 und MS Visual Studio sowie Intel Fortran für alle Fließkomma-Tests. Auch AMD und Intel verwenden diese Compiler für das Base-Rating bei den Fließkomma-Benchmarks, wie man an den von beiden Firmen offiziell gemeldeten FP-Resultaten sehen kann.

SPECfp_base2000: Official Run
Prozessor	Opteron 244	Opteron 244	Athlon XP 2500+	Athlon XP 3000+	Pentium 4 3000	Xeon 3066	Xeon 3066 L3
Alle Angaben in Punkten. Höhere Werte sind besser. Bedeutung der Compiler-Optionen: -QxK = optimiert für Pentium III, lauffähig auch mit Pentium 4, Athlon XP, Opteron und Duron ab 1 GHz; -QxW = optimiert für Pentium 4 sowie Xeon und lauffähig auf dem Opteron.
Speichertyp	DDR333	DDR333	DDR333	DDR333	DDR400	DDR266	DDR266
Chipsatz	AMD-8000	AMD-8000	nForce2	nForce2	875P	E7505	E7505
Compiler	-QxW	-QxK	-QxK	-QxK	-QxW	-QxW	-QxW
Test
168.wupwise	1108	1197	999	1103	1639	1434	1444
171.swim	1599	1164	853	936	1982	1278	1266
172.mgrid	1038	893	689	744	1207	870	1093
173.applu	856	773	600	642	1292	890	884
177.mesa	1203	1035	959	1124	1251	1259	1262
178.galgel	1382	984	659	709	2127	1546	1769
179.art	1314	1329	521	537	917	599	808
183.equake	807	818	565	593	1389	992	1009
187.facerec	1132	1062	930	1001	1579	1320	1353
188.ammp	1089	1070	746	820	828	624	889
189.lucas	1328	1179	776	828	1626	1135	1132
191.fma3d	1038	927	764	842	1251	1028	1042
200.sixtrack	452	449	456	536	559	560	562
301.apsi	1037	1045	630	691	895	702	937
Gesamt	1058	967	707	772	1250	966	1065

Bei den Fließkomma-Berechnungen profitiert der Xeon von seinem L3-Cache mit einer durchschnittlich 10 Prozent höheren Performance. Molekülberechnungen der Anwendung 188.ammp gehen 42 Prozent schneller vonstatten. Viele wiederholt benötigte Datensätze kann der L3-Cache hier bereithalten und umgeht den Zugriff auf den langsameren Arbeitsspeicher.

Der Opteron 244 ist mit den Pentium-4-optimierten -QxW-Compiler-Einstellungen teilweise deutlich schneller als mit -QxK (ohne SSE2). Besonders das Programm 178.galgel, das Flüssigkeitsströmungen berechnet, profitiert mit bis zu 40 Prozent Performance-Gewinn, wenn SSE2 genutzt wird.

In der Gesamtwertung platziert sich der Xeon 3,06 GHz mit L3-Cache knapp vor dem Opteron 244. Der Desktop-Prozessor Pentium 4 3,00 GHz mit FSB800 nutzt den Vorteil seines schnellen DDR400-Speichers voll aus. Die Berechnung finiter Wasserelemente des Programms 171.swim profitiert stark von schnellem Speicher: Der Pentium 4 ist 54 Prozent flotter als der Xeon 3,06 GHz mit DDR266. Auch der Opteron mit DDR333 ist dem Xeon bei dieser Anwendung um 25 Prozent überlegen.

Im folgenden Diagramm finden Sie das Gesamtergebnis des SPEC-CPU2000-Integer-Benchmarks übersichtlich im grafischen Vergleich:

Systemleistung: SYSmark2002

Opteron- und Xeon-Systeme sind für Server- und Workstations vorgesehen, deren Einsatzgebiete und verwendete Software sich von Desktop-PCs stark unterscheiden. Zur Beurteilung der Leistungsfähigkeit des Prozessors und der Plattform im Allgemeinen kann jedoch auch der Test mit Desktop-Programmen interessant sein. Einer dieser Fälle ist das Benchmark-Paket SYSmark2002. Es soll auf Desktop-PCs die Performance mit oft genutzten Standardanwendungen ermitteln. Dazu gehören nicht nur Programme wie Word und Excel, sondern auch MPEG-Encoder, 3D-, Video- und Sound-Software.

Interessant ist SYSmark2002 auch deshalb, weil AMD dem Programm eine heimliche und praxisferne Optimierung zugunsten des Pentium 4 und seines SSE2-Befehlssatzes nachsagt. Mit dem Opteron und später dem Athlon 64 sollte dieser Vorteil für Intel entfallen - wenn AMD ganze Arbeit bei seinen neuen CPUs geleistet hat.

SYSmark2002 soll auch das parallele Arbeiten mit mehreren Programmen gleichzeitig simulieren. So arbeitet beispielsweise im Vordergrund eine Office-Applikation, während im Hintergrund der Virenscanner auf die Suche geht. Der Tester hat so jedoch leider keinen Überblick, welches Programm einer CPU nun besonders zu schaffen macht. Aus welchen Einzelwerten sich die beiden Ergebnisse für Office Productivity und Internet Content Creation errechnen, bleibt deshalb das Geheimnis der BAPCo.

Die klassischen 2D-Anwendungen für den Bürobereich profitieren fast ausschließlich von der Integer-Performance einer CPU. Diese Software-Sparte repräsentiert der Testblock Office Productivity von SYSmark 2002.

Immer größer wird die Zahl der Sound- und Grafikprogramme, die wie Spiele eine schnelle FPU oder Befehlserweiterungen wie MMX, SSE oder 3DNow! bevorzugen. Die Anwendungen im Testblock Internet Content Creation von SYSmark2002 unterstützen überwiegend SSE2.

Raytracing: Lightwave 3D

Das 3D-Programm Lightwave 3D 7.5 von NewTek ist für den Pentium 4 optimiert. Laut NewTek betrifft das speziell den SSE2-Befehlssatz. Neben Intel-CPUs werden auch die AMD-Prozessoren besonders unterstützt. NewTek selbst hat die Athlon-Prozessoren für Lightwave 3D bereits im März 2001 zertifiziert. Von der SSE2-Optimierung in Lightwave 3D sollte auch der Opteron profitieren. Die Grafikkartenleistung und Speicher-Performance spielen bei diesem Test keine Rolle.

Raytracing: CINEBENCH 2000

Cinema 4D XL von Maxon ist ein professionelles 3D-Modelling- und Animationswerkzeug. Eigens für Performance-Tests entwickelte Maxon den CINEBENCH 2000. Er basiert auf Cinema 4D XL und führt Shading- und Raytracing-Tests durch. Die verwendete Version des Benchmarks unterstützt noch nicht den SSE2-Befehlssatz.

Beim Raytracing-Leistungstest fordert CINEBENCH 2000 besonders die FPU des Prozessors. Der Benchmark verwendet eine Szene, die stark von Anti-Aliasing, Schatten, Transparenzen und Spiegelungen Gebrauch macht. Die Leistungsfähigkeit der Grafikkarte und des Speichers spielen hier kaum eine Rolle.

IPC steht für Instructions per clock. Der Wert gibt an, wieviele Befehle ein Prozessor pro Taktzyklus gleichzeitig abarbeiten kann. Je höher der Wert ist, desto effizienter ist die Architektur. Bei deutlich geringerer Taktfrequenz erreichen die AMD-CPUs in diesem Test eine höhere Performance.

Raytracing: CINEBENCH 2003

Mit dem CINEBENCH 2003 stellt Maxon eine neue Version des bekannten Benchmark-Tools bereit. CINEBENCH 2003 basiert auf Cinema 4D Release 8 und führt wieder Shading- und Raytracing-Tests durch. Die aktuelle Version unterstützt nun SSE2 sowie Intels Hyper-Threading-Technologie. Intel selbst unterstützte Maxon bei der Optimierung von Cinema 4D.

Der Raytracing-Test von CINEBENCH 2003 überprüft die Renderleistung des Prozessores. Eine Szene "Daylight" wird mit Hilfe des Cinema-4D-Raytracers berechnet. Sie enthält 35 Lichtquellen, wovon 16 mit Shadowmaps behaftet sind und sogenannte weiche Schatten werfen. Bei dem FPU-lastigen Test spielt die Leistungsfähigkeit der Grafikkarte und die Speicher-Bandbreite eine untergeordnete Rolle.

Das Ergebnis wirft allerdings die Frage auf, ob CINEBENCH 2003 den Opteron überhaupt als SSE2-fähige CPU erkennt und entsprechend unterstützt.

Rendern: SPECapc

3D Studio Max 5 von Discreet/Autodesk ist eine professionelle Software für 3D-Modellierung, Animation und Rendering. Um die Leistungsfähigkeit von 3D Studio Max auf verschiedenen Hardware-Plattformen standardisiert testen zu können, gibt es vom Benchmark-Konsortium SPEC das Benchmark-Paket SPECapc for 3D Studio Max. Die umfangreichen Tests von SPECapc spiegeln die typischen Berechnungen bei der Erstellung von Animationen wider. Dabei wird die Grafik- und CPU-Leistung getrennt bewertet und aufgelistet. Die Werte für die Grafikleistung lassen wir aber außen vor, weil die verwendete PCI-Grafikkarte als Bremse wirkt und für eine Grafik-Workstation unterdimensioniert ist.

Simulation: Molecular Dynamics

Die Benchmark-Suite Science Mark 2.0 bietet unterschiedliche Berechnungen aus dem mathematischen und physikalischen Bereich. Über die Simulation der Molecular Dynamics untersucht man das thermodynamische Verhalten von Materialen. Science Mark erlaubt die Simulation von fünf Edelgasen in drei verschiedenen kristallgraphischen Konfigurationen mit einer variablen Anzahl von Atomen bei einer wählbaren Temperatur.

Die Berechnungen der Simulation basieren auf komplexen mathematischen Formeln und fordern die CPUs in hohem Maße.

Simulation: Primordia

Die Primordia-Simulation (lateinisch Uranfang, Atom) aus der Science-Mark-Benchmark-Suite berechnet die atomaren Umlaufbahnen jedes Elektrons für beliebige Elemente des Periodensystems. Für die Kalkulation verwendet Science Mark eine eingeschränkte Hartee-Fock-Methode. Als Ergebnis wird die Gesamtenergie der Elektronen eines Atoms ausgegeben.

Um die Leistungsfähigkeit der Prozessoren bei den komplexen Berechnungen einzuordnen, gibt Science Mark die benötigte Simulationszeit an. Die Primordia-Simulation profitiert von hohen Speicherbandbreiten.

Encryption

Das US-Handelsministerium hat im Dezember 2001 grünes Licht für das symmetrische Kryptographieverfahren AES (Advanced Encryption Standard) gegeben. AES ist der Nachfolger von DES und nutzt Schlüssellängen von 128, 192 und 256 Bit.

Bei AES handelt es sich um einen frei verfügbaren symmetrischen 128-Bit-Blockchiffre. Die Verschlüsselung übernimmt der RIJNDAEL-Algorithmus, der eine variable Block- und Schlüssellänge nutzt. In der Benchmark Suite Science Mark 2.0 ermittelt der AES-Test den Durchsatz an verschlüsselten Daten in MByte/s.

IPC steht für Instructions per clock. Der Wert gibt an, wie viele Befehle ein Prozessor pro Taktzyklus gleichzeitig abarbeiten kann. Je höher der Wert ist, desto effizienter ist die Architektur. Bei deutlich geringerer Taktfrequenz erreichen die AMD-CPUs in diesem Test eine höhere Performance.

Encoding

Bei kommerziellen Programmen kennt man in den meisten Fällen nicht den Grad der Optimierung für den SSE/SSE2-Befehlssatz. Bei Freeware-Programmen mit Sourcecode ist das dagegen leicht feststellbar. Wir verwenden den MP3-Encoder GoGo, den Sie hier kostenlos downloaden können. Er basiert auf dem verbreiteten Lame-Encoder, ist jedoch weiter optimiert.

Wir haben die Version 3.10 des Encoders verwendet, die über SSE2-Support verfügt. Als Vergleich dient die Version 2.39, die MMX, 3DNow! und SSE, jedoch nicht SSE2 unterstützt. Mit diesen beiden Programmen lässt sich das Leistungsvermögen des SSE2-Befehlssatzes einer CPU ausloten. Da der Speichertyp bei der geringen Datenmenge kaum eine Rolle spielt, wird ein Großteil der Arbeit im Cache erledigt.

32-Bit-Transfer

Die Cache- und Speicherperformance der Prozessoren überprüfen wir mit unserem Programm tecMem aus der tecCHANNEL Benchmark Suite Pro. tecMem misst die effektiv genutzte Speicherbandbreite zwischen der Load/Store-Unit der CPU und den unterschiedlichen Ebenen der Speicherhierarchie (L1-, L2-, L3-Cache und RAM). Die Ergebnisse erlauben eine getrennte Analyse von Load-, Store- und Move-Operationen.

64-Bit-Transfer

Hier testen wir mit tecMem die Performance mit den 64-Bit-Load und -Store-Kommandos aus dem MMX-Befehlsatz. Die Transferrate ist hier schon deutlich höher als bei den 32-Bit-Kommandos, da die CPU mit jedem Befehl mehr Daten transferieren kann.

128-Bit-Transfer

Mit den 128-Bit-SSE-Befehlen lässt sich die maximale Cache- und Speicher-Performance ermitteln, die ein PC-Prozessor erreichen kann.

Speicherperformance XFire

In einem Dual-Opteron-System verfügt jeder Prozessor mit seinen zwei DDR333-Speicherkanälen über eine lokale Speicherbandbreite von 5,3 GByte/s (1000er Basis). Sind zwei Opterons via HyperTransport miteinander verbunden, kann jede CPU auch auf den Speicher der benachbarten zugreifen. Diese von AMD als XFire bezeichnete Speicherbandbreite beträgt laut Hersteller zusätzlich 3,53 GByte/s (1000er Basis). In einem Dual-Opteron-System steht jedem Prozessor somit eine Speicherbandbreite von 8,83 GByte/s zur Verfügung (lokal + XFire).

Um die XFire-Speicher-Performance mit tecMEM zu messen, haben wir folgendes Szenario eingestellt: Der aktiven CPU 0 des Dual-Opteron-System haben wir den lokalen Speicher entfernt und nur den CPU 1 mit DIMMs bestückt. Da wir Windows 2000 Server für diesen Test in der Uniprozessor-Konfiguration gestartet haben, ist nur CPU 0 aktiv. Der Speicherzugriff kann jetzt ausschließlich via HyperTransport auf das DDR-SDRAM der inaktiven CPU 1 erfolgen.

Speicher-Performance Opteron lokal und XFire
DualDDR333-Speicher	Load 32 [MByte/s]	Store 32 [MByte/s]	Move 32 [MByte/s]	Load 64 [MByte/s]	Load 128 [MByte/s]	Store 128 [MByte/s]

Lokal	1227	997	777	2184	2232	1249
XFire	917	813	678	1566	1601	1040

Kann der Opteron nur auf den Speicher der benachbarten CPU zugreifen, so sinken die Transferraten um bis zu 28 Prozent. Dass die Bandbreite geringer ausfällt als die lokale, liegt an den zusätzliche Latenzzeiten beim Speicherzugriff via HyperTransport.

Latenzzeit

Zu den wesentlichen Neuerungen des Opteron zählt der integrierte Speicher-Controller. Der Vorteil der Integration liegt in den deutlich reduzierten Latenzzeiten bei Zugriffen auf den Speicher. Den Umweg über eine "klassische" externe Northbridge umgeht der Prozessor so. Eine geringe Latenzzeit ist vor allem dann wichtig, wenn der Speicherzugriff überwiegend auf verteilt liegenden Stellen erfolgt. Hier ist die reine Speicherbandbreite oft gar nicht der entscheidende Faktor. Anders hingegen, wenn die Daten zusammenhängend im Speicher liegen und die CPU im Burst-Modus große Mengen ausliest - hier zählt die Bandbreite. Unsere tecCHANNEL Benchmark Suite Pro arbeitet wie viele andere Speicher-Benchmarks mit zusammenhängenden Datenblöcken im Speicher.

Die Benchmark Suite Science Mark 2.0 erlaubt auch die Messung der Latenzzeiten beim Zugriff auf den Arbeitsspeicher.

Latenzzeiten beim Zugriff auf den Speicher in Taktzyklen / ns
Prozessor	Speicher	Latency Speicher
Im Speicher erfolgen 512 Byte große Zugriffe
Opteron 244	DDR333 CL2.5 lokal	166 / 93,6
Opteron 244	DDR333 CL2.5 XFire	232 / 129,0
Athlon XP 2500+	DDR333 CL2.5	204 / 110,7
Athlon MP 2600+	DDR266 CL2.0	408 / 190,7
Pentium 4 3000	DDR400 CL3.0	254 / 85,12
Xeon 3066	DDR266 CL2.0	313 / 102,4

Mit einer Latenzzeit von 166 Taktzyklen erfolgt beim Opteron der Speicherzugriff deutlich schneller als bei den Athlons und den Intel-Prozessoren. Die Integration des Speicher-Controllers zahlt sich hier aus. Interessant ist, wie sich die Latenzzeit erhöht, wenn dem Opteron nur der Speicher der benachbarten CPU zur Verfügung steht: Statt 166 vergehen nun 232 Taktzyklen.

Allerdings relativieren sich diese Zahlen, wenn man die Latenzzeiten in ns und nicht in Taktzyklen betrachtet. Die Intel-Prozessoren arbeiten mit 3 GHz Taktfrequenz und ein Taktzyklus ist damit deutlich kürzer ist als beim Opteron mit 1,8 GHz.

SSE-Performance

Eine detaillierte Analyse der SSE-Performance erlaubt die Benchmark-Suite Science Mark 2.0. Hier werden Matrizen mit einer Größe von bis zu 1536 x 1536 berechnet. Die Matrizen-Multiplikation mit einfacher Genauigkeit ermittelt dabei die MFLOPS des Prozessors. Die Multiplikation nutzt die SSE-Unterstützung der CPUs.

Zusätzlich ermittelt der Benchmark die durchschnittliche Anzahl von FLOPS pro Taktzyklus. Bei Prozessoren wird in diesem Zusammenhang gerne auf den IPC-Wert verwiesen. Damit lässt sich eine Aussage über die Effizienz der Architektur treffen.

SSE2-Performance

Die Benchmark-Suite ScienceMark 2.0 erlaubt auch eine dedizierte Analyse der SSE2-Performance der Prozessoren. Jetzt werden die bis zu 1536 x 1536 großen Matrizen mit doppelter Genauigkeit berechnet. Die Matrix-Mulitplikation ermittelt wieder die MFLOPS des Prozessors und nutzt die SSE2-Unterstützung der CPUs.

Multiprozessor-Benchmarks

AMD spricht beim Opteron von Glueless-Multiprocessing. Ohne zusätzlichen Chipsatz lassen sich die CPUs via Hyper-Transport direkt zusammenschalten.

Beim Dual-Opteron-System steigt auch die zur Verfügung stehende Speicher-Bandbreite. Jeder Opteron kann auf sein eigenes Dual-Channel-DDR-SDRAM zugreifen. Außerdem steht der jeweils lokale Speicher der benachbarten CPU über die HyperTransport-Schnittstelle zur Verfügung. Bei den Dual-Athlon-MP- und Dual-Xeon-Systemen müssen sich die CPUs dagegen einen gemeinsamen Speicher teilen. Außerdem erfolgt die Kommunikation zwischen den Prozessoren über einen separaten Chipsatz (Northbridge oder bei Intel MCH)

Sowohl den Opteron als auch den Athlon MP und die Xeon-Prozessoren haben wir jeweils im Single- und Dual-Prozessorbetrieb mit SMP-fähigen Anwendungen getestet. Bei den Xeons wurden die Tests einmal mit und ohne Hyper-Threading durchgeführt.

SMP: Lightwave 3D

Bei Lightwave 3D von NewTek lässt sich die Anzahl der Threads in den Schritten 1, 2, 4 und 8 einstellen. Das Programm teilt bei mehreren Threads eine Render-Szene in entsprechend viele Bereiche auf. Perfekt ist das Thread-Handling von Lightwave 3D allerdings nicht, wie sich in früheren tecCHANNEL-Tests herausstellte.

In der folgenden Tabelle finden Sie die unterschiedlichen Renderzeiten zusammengefasst, wenn bei Lightwave 1, 2, 4 oder 8 Threads eingestellt sind.

Lightwave 3D: Render-Geschwindigkeit bei unterschiedlicher Thread-Anzahl
Prozessor	Render-Zeit 1 Thread [Sek.]	Render-Zeit 2 Threads [Sek.]	Render-Zeit 4 Threads [Sek.]	Render-Zeit 8 Threads [Sek.]

1 x A-MP 2600+ DDR266	620	620	621	621
2 x A-MP 2600+ DDR266	616	524	356	326


1 x Opteron 244 DualDDR333	510	510	510	511
2 x Opteron 244 QuadDDR333	519	438	289	270


1 x Xeon 2800 DualDDR266	502	503	501	501
2 x Xeon 2800 DualDDR266	502	426	284	258


1 x Xeon 3066 DualDDR266	458	458	459	459
2 x Xeon 3066 DualDDR266	456	390	262	235


1 x Xeon 3066 L3 DualDDR266	447	446	448	448
2 x Xeon 3066 L3 DualDDR266	448	382	257	231


1 x Xeon 3066 L3 HT DualDDR266	602	537	408	381
2 x Xeon 3066 L3 HT DualDDR266	452	436	322	213

Dass die Performance bei vier und acht Threads weiter steigt, auch wenn nur zwei Prozessoren vorhanden sind, hat folgenden Grund: Ist die Render-Szene nur in zwei Bereiche aufgeteilt (zwei Threads), so sind diese durch die im Regelfall unterschiedliche Komplexität verschieden schnell berechnet. Ist ein Thread fertig, wird der andere durch die zweite CPU noch berechnet. Da Lightwave nicht über ein ausgeklügeltes Multithreading verfügt, wird dieser "Rest-Thread" nicht nochmals auf beide CPUs aufgeteilt - eine liegt also brach. Ist die komplette Render-Szene aber beispielsweise in vier Threads aufgeteilt, wird einer sich im Leerlauf befindenden CPU gleich der nächste anstehende Thread zugewiesen. Erst bei den beiden letzten verbliebenen Threads liegt eine CPU wieder brach, falls sie schneller fertig sein sollte.

SMP: CINEBENCH 2000

Der Raytracing-Leistungstest von Maxons CINEBENCH 2000 fordert besonders die FPU des Prozessors und unterstützt SMP. Der Benchmark verwendet eine Szene, die stark von Anti-Aliasing, Schatten, Transparenzen und Spiegelungen Gebrauch macht. Die Leistungsfähigkeit der Grafikkarte und des Speichers spielen hier kaum eine Rolle.

SMP: CINEBENCH 2003

CINEBENCH 2003 basiert auf Maxons Cinema 4D Release 8 und besitzt neben Multiprozessorunterstützung eine Optimierung für Intels Hyper-Threading-Technologie optimiert.

Der Multiprozessor-Raytracing-Test von CINEBENCH 2003 überprüft die Renderleistung der Prozessoren. Dabei wird wieder die Szene "Daylight" verwendet. Sie enthält 35 Lichtquellen, wovon 16 mit Shadowmaps behaftet sind und sogenannte weiche Schatten werfen. Bei dem FPU-lastigen Test spielt die Leistungsfähigkeit der Grafikkarte und die Speicher-Bandbreite eine untergeordnete Rolle.

SMP: SPECapc

Der auf 3D Studio Max basierende SPECapc-Benchmark spiegelt die typischen Berechnungen bei der Erstellung von Animationen wider. Unerlässlich für ein Profiwerkzeug wie 3D Studio Max, dass eine hohe Rechenleistung verlangt, ist die Unterstützung von SMP.

SPECapc generiert bei seinen Test einen Indexwert CPU Mean, der die Prozessor-Leistung widerspiegelt.

Der Performance-Vorteil zweier Prozessoren gegenüber nur einem ist beim SPECapc-Test mit zirka 12 Prozent relativ klein. Allerdings setzt sich der Gesamtwert CPU Mean aus 10 einzelnen Schritten zusammen. Beim Vergleich einzelner Zwischenergebnisse sind die Dual-Prozessoren teilweise um bis zu 39 Prozent schneller als eine einzelne CPU, beispielsweise beim Test "rendering one frame" oder "play particle scene in facet shading".

SMP: Moleclar Simulation

Bei der Molecular Simulation aus der Benchmark-Suite Science Mark 2.0 wird das thermodynamische Verhalten von Materialen berechnet. Die Simulation basiert auf komplexen mathematischen Formeln und unterstützt Mehrprozessorsysteme.

Fazit

Der Xeon 3,06 GHz stellt durch seinen 1024 KByte großen L3-Cache wieder einen gebührenden Abstand zum Opteron 244 her. Die Integer- und Floating-Point-Performance steigt mit der dritten Pufferstufe um bis zu 15 Prozent - im Vergleich zum Xeon ohne L3-Cache. Mit diesem konnte der Opteron 244 noch gut konkurrieren.

Der "optimus" Opteron kann unter Windows 32 Bit somit nur noch teilweise mit dem neuen Xeon-Prozessor Schritt halten. Dieses Kunststück schafft der Opteron immerhin mit nur 1,8 GHz, während der Xeon bereits mit 3,06 GHz Taktfrequenz arbeitet. Die Erweiterungen wie integrierter Speicher-Controller, SSE2, 1 MByte L2-Cache und verbesserte Prefetch-Logik beschleunigen den Opteron 244 um zirka 25 Prozent im Vergleich zu einem gleich getakteten Athlon XP 2500+. Auch dem mit 2167 MHz Taktfrequenz arbeitenden Athlon XP 3000+ oder einem vergleichbar schnellen zukünftigen Athlon MP kann der Opteron Paroli bieten.

Das erklärte Designziel der AMD64-Architektur - pro Takt mehr Befehle zu berechnen - ist mit dem Opteron im Vergleich zum Athlon gelungen. Die architektonischen Vorteile der Plattform kann AMD aber nur bedingt nutzen. Denn der hohe Takt der Intel-CPUs gleicht deren geringeren IPC-Wert wieder aus. Zwingend erforderlich beim Opteron wären jetzt höhere Taktfrequenzen - Gerüchten zufolge wird AMD auch bald nachlegen.

Die Notwendigkeit dazu zeigt auch ein Blick auf Intels Roadmap: Im vierten Quartal 2003 debütiert der mit dem Code-Namen Nocona versehene Nachfolger der Xeon DPs. Der Nocona basiert auf dem Prescott-Core und wird mit 3,46 GHz Taktfrequenz arbeiten. Einen Trumpf hat AMD aber noch in der Hinterhand, denn die 64-Bit-Features des Opteron liegen unter Windows bislang brach. Leider gibt es von Microsoft noch keine konkreten Zeitpläne für native AMD 64-Bit-Versionen von Windows XP und Windows 2003 Server.

Was der Opteron im Server-Umfeld unter 32- und 64-Bit-Linux leistet, können Sie hier nachlesen. Ausführliche Grundlagen zur AMD64-Architektur finden Sie ebenfalls bei TecChannel. (cvi)