Server-CPUs

Test: Xeon 3,06 GHz L3 vs. Opteron 244

01.08.2003 von Christian Vilsbeck
AMDs 64-Bit-Prozessor Opteron bringt den Xeon selbst unter 32-Bit-Betriebssystemen in Bedrängnis. Eine dritte Cache-Stufe soll das Kräfteverhältnis bei den Server-/Workstation-CPUs wieder zu Gunsten von Intel zurechtrücken.

Den Test von 11.11.2007 des Intel Xeon finden Sie hier.

Der 64-Bit-Prozessor Opteron 244 überzeugte unter 32-Bit-Windows auf Anhieb. Bei einer deutlich niedrigeren Taktfrequenz als bei den konkurrierenden Xeon-DP-Prozessoren zeigt die AMD64-Architektur ihr Potenzial.

Jetzt legt Intel beim Xeon DP nach und greift zu einem Mittel, das bei den "großen" Server-Prozessoren Itanium 2 und Xeon MP längst Usus ist - ein integrierter L3-Cache. Unverändert bleibt dagegen die Taktfrequenz von 3,06 GHz. Die dritte 1024 KByte fassende Pufferstufe des Xeon DP soll große Workloads im Cache halten und langsame Speicherzugriffe reduzieren.

Flotte Speicherzugriffe gewährt AMDs Opteron durch seinen integrierten Memory-Controller. Und statt mit 512 KByte L2-Cache wie beim Xeon wartet der Opteron bereits mit einer 1024 KByte großen zweiten Cache-Stufe auf.

In diesem Artikel gehen wir der Frage nach dem Leistungspotenzial des neuen Xeon-Prozessors und des Opteron unter 32-Bit-Windows nach. Bei den gewählten Tests fokussieren wir auf die Integer- und die Floating-Point-Performance der CPUs und zeigen die Auswirkung des L3-Cache beim Xeon. Wie gut AMD die SSE2-Implementierung beim Opteron gelungen ist, wird dabei ebenso analysiert wie der Vorteil des integrierten Speicher-Controllers. Im Testlabor müssen sich die Xeons in einer 1- und 2-CPU-Konfiguration AMDs Opteron sowie dem Pentium 4 und Athlon-XP/MP-Prozessoren stellen.

Wie schnell der Opteron mit einem 64-Bit-Betriebssystem im Serverumfeld arbeitet, können Sie in einem separaten Artikel nachlesen. Praxisrelevante Server-Applikationen unter SuSe Linux 32 und SuSe Linux 64 loten das Leistungsvermögen der AMD64-CPU im Vergleich zum Xeon aus.

Details zum Opteron

Lateinisch optimus heißt übersetzt "der beste". AMD hat daraus den Namen Opteron abgeleitet. Mit dem Opteron adressiert AMD den Server/Workstation-Bereich und bietet ihn als 1-, 2- und 8-Wege-CPU an.

Zu Beginn gibt es den Opteron mit 1,4, 1,6 und 1,8 GHz Taktfrequenz. Die Fertigung erfolgt mit einer Strukturbreite von 0,13 µm unter Verwendung von SOI. Für das Topmodell gibt AMD einen TDP-Wert von 84,7 Watt an. Beim Opteron beherbergt das 193 mm² große Die 105,9 Millionen Transistoren. Zirka die Hälfte der Fläche beansprucht dabei der 16fach assoziativ ausgelegte 1024 KByte große L2-Cache. Die L1-Caches sind auf je 64 KByte für Daten und Befehle dimensioniert - unverändert zum Athlon XP. An der 2fach assoziativen Organisation hält AMD ebenfalls fest.

Neu für einen AMD-Prozessor ist die Implementierung von Intels SSE2-Befehlssatz. Allerdings hat AMD die Anzahl der 128 Bit breiten Register von 8 auf 16 erhöht. Von der Verdoppelung profitiert aber nur der 64-Bit-Mode. Unterstützung für Enhanced-3DNow!-Instruktionen kann der Opteron weiterhin bieten. Um die insgesamt neun Ausführungseinheiten optimal mit Befehlen zu versorgen, hat AMD eine verbesserte Sprungvorhersage realisiert und die TLBs einer Überarbeitung unterzogen. Je mehr Einträge ein TLB fassen kann, desto seltener muss bei der Berechnung der physikalischen Adresse die Translation-Tabelle aus dem Arbeitsspeicher geladen werden. Der L1-Daten- und Befehls-TLB des Opteron fasst je 40 Einträge und ist voll assoziativ ausgelegt. Beim Athlon XP kann nur der L1-Daten-TLB so viele Einträge speichern, für Befehle stehen lediglich 25 Einträge bereit. Die vierfach-assoziativen L2-TLBs können mit je 512 Einträgen beim Opteron doppelt so viel aufnehmen wie noch beim Athlon XP.

Niedrigere Latenzzeiten beim Speicherzugriff realisiert der Opteron mit einem integrierten Dual-Channel-DDR333-SDRAM-Controller. Über insgesamt acht DIMMs (vier pro Kanal) lassen sich dann pro CPU acht GByte Speicher ansprechen. Die Speicherbandbreite beträgt mit DualDDR333-Speicher 4,98 GByte/s. Neuland betritt AMD auch beim I/O-Konzept: Statt des üblichen parallelen FSB kommuniziert der Opteron über HyperTransport-Schnittstellen mit I/O-Bausteinen oder benachbarten CPUs.

Ausführliche Grundlagen über die AMD64-Architektur können Sie in einem separaten Artikel bei tecCHANNEL nachlesen.

Model Number

AMD führt mit dem Opteron eine weitere und völlig andere Variante der Model Number ein. Die Opterons für Dualprocessing mit 1,4, 1,6 und 1,8 GHz Taktfrequenz erhalten beispielsweise die Modell-Bezeichnungen 240, 242 und 244.

Laut John Crank, Senior Brand Associate bei AMD, gibt diese Performance-Einstufung aber nicht die relative Taktfrequenz zu anderen CPUs an, sondern ist eine eigenständige Einstufung innerhalb der Opteron-Reihe. Da es die CPU in Versionen für einfach-, zweifach- und achtfach-Multiprocessing geben wird, steht die erste Ziffer für die Skalierbarkeit der CPU. Ein 8-Wege-Opteron hat also beispielsweise eine Model Number, die mit 8 beginnt.

Die beiden verbleibenden Ziffern stufen die CPU innerhalb der Opteron-Reihe ein. Als Beispiel sei ein 2-Wege-Opteron mit der Model Number 242 genannt: Diese CPU wäre langsamer als ein Opteron mit der Model Number 244 und schneller als der Opteron 240. Einen Bezug zu der bisherigen Model Number der Athlon-XP-Reihe gibt es nicht

Model Number, Taktfrequenz und SMP-Fähigkeit

Prozessor

Taktfrequenz

Multiprocessing

Die Tabelle zeigt die Opteron-Modellpalette mit ihrer tatsächlichen Taktfrequenz.

Opteron 140

1400 MHz

nein

Opteron 142

1600 MHz

nein

Opteron 144

1800 MHz

nein

Opteron 240

1400 MHz

2fach

Opteron 242

1600 MHz

2fach

Opteron 244

1800 MHz

2fach

Opteron 840

1400 MHz

8fach

Opteron 842

1600 MHz

8fach

Opteron 844

1800 MHz

8fach

John Crank gab jedoch an, dass für den Athlon 64 eine Model Number verwendet werden soll, die eine Performance-Einstufung relativ zur Taktfrequenz anderer Prozessoren erlaubt.

Details zum Xeon mit L3-Cache

Die bisherigen Intel Xeon DPs für Single- und Dual-Prozessorsysteme basieren auf dem Prestonia-Core, der im Prinzip dem Northwood-Core des Pentium 4 entspricht. Die schnellste Xeon-Variante arbeitet mit 3,06 GHz und verwendet einen 533 MHz schnellen FSB. Wie der Pentium 4 beherrschen die Xeons Hyper-Threading und werden durch einen 512 KByte großen L2-Cache unterstützt.

Diese Eckdaten bleiben auch beim neuen Xeon 3,06 GHz unverändert. Nur spendierte ihm Intel zusätzlich einen 1024 KByte großen L3-Cache. Die dritte Pufferstufe ist auf dem in 0,13-µm-Technologie gefertigten Die integriert und arbeitet mit der vollen Core-Taktfrequenz. Wie der L2-Cache bietet sie eine 8fach assoziative Organisation und eine ECC-Unterstützung.

Der Xeon 3,06 GHz mit L3-Cache bleibt kompatibel zu Systemen mit Intel E7501- und E7505-Chipsätzen. Er verwendet weiterhin den Sockel 604. Einzig ein BIOS-Update für die korrekte Erkennung der weiteren Cache-Stufe ist vonnöten, so Christian Anderka, Pressereferent von Intel. Die Core-Spannung des neuen Xeon muss im Bereich von 1,348 bis 1,468 V liegen. Den TDP-Wert beziffert Intel mit 87 Watt. Damit benötigt die CPU im Extremfall zwei Watt mehr als der Xeon 3,06 GHz ohne L3-Cache.

Neben dem Topmodell mit L3-Cache bleibt die 3,06-GHz-Variante ohne dritte Pufferstufe im Programm. Einen Xeon 3,00 GHz mit FSB400 weist Intels Produktportfolio ebenfalls auf. Als Einstiegsmodell fungiert der Xeon DP mit 2,40 GHz - wahlweise mit FSB400 oder FSB533.

Listenpreise

Intels Xeon-DP-Prozessoren sind für Dual-Processing ausgelegt und konkurrieren hauptsächlich mit AMDs Opteron-CPUs der 200er Serie. Die Preise der CPUs liegen dabei auf dem gleichen Niveau.

Hinsichtlich der Preise empfiehlt es sich, gelegentlich einen Blick auf die offiziellen Listen der CPU-Hersteller zu werfen. Bei AMDs Preisliste gab es am 28. Juli 2003 die letzten Änderungen. Intels Preisliste wurde am 13. Juli 2003 mit der Vorstellung des Xeon 3,06 GHz L3 aktualisiert. Dabei senkte Intel die Preise der übrigen Xeon DPs um bis zu 34 Prozent.

OEM-Preise im Vergleich

Modell

Taktfrequenz [MHz]

Preis [US-Dollar]

Alle Preise in US-Dollar, bezogen auf eine Abnahmemenge von 1000 Stück. Stand: AMD-Preisliste vom 30.06.2003, Intel-Preisliste vom 13.07.2003

Opteron 240

1400

256

Opteron 242

1600

455

Opteron 244

1800

690

Athlon MP 2200+

1800

116

Athlon MP 2400+

2000

131

Athlon MP 2600+

2133

174

Xeon DP FSB400

2800

294

Xeon DP FSB533

3066

455

Xeon DP L3 FSB533

3066

690

Athlon XP 3000+

2167

265

Pentium 4 FSB533

3066

401

Pentium 4 FSB800

3000

417

Die 1000er Preise in den Tabellen sind auch ein Anhaltspunkt für die deutschen/europäischen Endkundenpreise in Euro. Unter Berücksichtigung der Mehrwertsteuer und einer Händlermarge ergibt sich annähernd dieses Preisgefüge. Nachfolgend finden Sie einen Link zu aktuellen Endkundenpreisen.

tecCHANNEL Preisvergleich & Shop

Produkte

Info-Link

Prozessoren

Preise & Händler

Benchmark-Vorbetrachtung

Der für den Server-/Workstation-Einsatz vorgesehene Xeon 3,06 GHz mit 1 MByte L3-Cache und der Opteron 244 mussten in unserem Testlabor zusätzlich gegen folgende Prozessoren antreten:

Sowohl den Opteron als auch den Athlon MP und die Xeon-Prozessoren haben wir jeweils im Single- und Dual-Prozessorbetrieb getestet. Beim Pentium 4 und bei den Xeons wurden die Benchmarks mit deaktiviertem Hyper-Threading durchgeführt. Der Athlon XP 2500+ (mit Barton-Core) arbeitet bei 1833 MHz fast mit der gleichen Taktfrequenz wie der Opteron 244 mit seinen 1800 MHz. Damit können wir direkt den Vorteil der AMD64-Architektur gegenüber dem Athlon XP zeigen.

Um die Diagramme übersichtlich zu halten, haben wir die Multiprozessor-Benchmarks in einem eigenen Abschnitt zusammengefasst. Hier finden Sie auch Werte der Xeon-Prozessoren mit aktiviertem Hyper-Threading.

Das Betriebssystem Windows 2000 Server arbeitete bei allen Benchmarks (Single- und Multiprozessor) stets mit dem Multiprozessor-Kernel. Die Funktion und Besonderheiten von Multiprocessing können Sie hier nachlesen.

Bei unseren Performance-Tests haben wir Benchmarks gewählt, die keine oder nur eine geringe Grafikleistung voraussetzen. Dieses Handikap war uns vorgegeben, weil das Opteron-System als Server nur über PCI-X-Erweiterungssteckplätze verfügt. Um gleiche Testkonfigurationen zu gewährleisten, wurden alle Testsysteme deshalb mit einer PCI-Grafikkarte vom Typ GeForce2 MX400 ausgestattet. Einheit herrschte auch beim Arbeitsspeicher mit jeweils 2 GByte und bei den Massenspeichern, die aus Ultra320-SCSI-Festplatten mit 10.000 U/min bestanden.

SPEC CPU2000

Wir benutzen als Analyse-Instrument die Benchmark-Suite SPEC CPU2000 unter Windows 2000 Server. Das Benchmark-Paket verwendet Ganzzahlen- und Fließkomma-Programme und wird mit den Sourcecodes geliefert. Es handelt sich hierbei nicht um Lowlevel-Benchmarks, sondern um Software, die realitätsnahe Aufgabenstellungen bearbeitet. Vor dem Testlauf ist Programm für Programm zu kompilieren, was durch die Wahl der entsprechenden Parameter hervorragende Möglichkeiten zum Test einzelner CPU-Funktionsgruppen eröffnet.

Im SPEC-Komitee sitzen alle Prozessorhersteller, die im Workstation- und Server-Bereich das Sagen haben - auch einige große PC-Hersteller sind dabei. Die SPEC regelt den Gebrauch ihrer Benchmarks strikt und gibt exakt vor, in welcher Form die Ergebnisse an die Organisation zu melden sind. So müssen die verwendeten Compiler und die restliche Hard- und Software spätestens ein halbes Jahr nach dem Test für jedermann zu kaufen sein.

Die von den Herstellern eingereichten Ergebnisse werden auf der offiziellen CPU2000-Result-Seite veröffentlicht. Das alles schafft in der Theorie vergleichbare und faire Testbedingungen.

Tuning per Compiler

In der Praxis kompiliert jeder Hersteller die SPEC-Programme mit eigenen Parametern und selbst gewählten Compilern. Immerhin herrscht beispielsweise zwischen Intel und AMD bislang Einigkeit, dass wohl Intel C++ 7.0 mit MS Visual Studio (für die Libraries) zusammen mit der MicroQuill Smartheap-Library die beste Voraussetzung für gute Integer-Benchmark-Resultate sind. Soll die FPU besonders gut zur Geltung kommen, setzen beide Kontrahenten auch noch Intel Fortran 7.0 ein. AMD nimmt zusätzlich Compaq Visual Fortran 6.5A in Anspruch.

Damit ist das Dilemma der SPEC-Ergebnisse bereits detailliert erläutert: Jeder kann den SPEC-Benchmark optimieren, er muss es nur dokumentieren. Dazu darf er so viele Compiler einsetzen, wie er will. Allerdings ist zwischen dem Base-Rating und den Peak-Ergebnissen zu unterscheiden. Die 26 Programme des CPU2000-Pakets müssen in der Base-Wertung mit den gleichen Compiler-Parametern erzeugt werden. Das gilt jeweils für 12 Integer- und die 14 Fließkomma-Programme. Beim Peak-Rating dürfen sich die Hersteller richtig austoben und jedes Programm speziell tunen.

Sowohl nach den Regeln des Peak- als auch des Base-Ratings lassen sich Programme erzeugen, die nur auf dem gerade getesteten Prozessor laufen. Beispielsweise bringt ein Compiler-Lauf mit Intel C++ und der Option -QxW sehr schnellen Code zu Stande, der durch Verwendung von SSE2 aber nur ab dem Pentium 4, dem Xeon und neuerdings dem Opteron läuft. Ein Pentium III oder gar ein Athlon XP müssen mit der so präparierten Software passen.

Wir haben für diesen Test die jeweils besten Einstellungen für den Pentium 4, Xeon und Opteron (-QxW) sowie den Athlon XP/MP (-QxK) gewählt. Zum Vergleich haben wir den Opteron auch mit der QxK-Option getestet.

Ergebnisse: Integer

Wir setzen die SPEC-Benchmarks praxisnah ein und kompilieren sie deshalb mit dem geringeren Aufwand für das Base-Rating. Dazu verwenden wir Intel C++ 7.0 und MS Visual Studio für alle Integer-Tests. Auch AMD und Intel verwenden diese Compiler für das Base-Rating, wie man an den von beiden Firmen offiziell gemeldeten Integer-Resultaten sehen kann.

SPECint_base2000: Official Run

Prozessor

Opteron 244

Opteron 244

Athlon XP 2500+

Athlon XP 3000+

Pentium 4 3000

Xeon 3066

Xeon 3066 L3

Alle Angaben in Punkten. Höhere Werte sind besser. Bedeutung der Compiler-Optionen: -QxK = optimiert für Pentium III, lauffähig auch mit Pentium 4, Athlon XP, Opteron und Duron ab 1 GHz; -QxW = optimiert für Pentium 4 und Xeon und lauffähig auf dem Opteron.

Speichertyp

DDR333

DDR333

DDR333

DDR333

DDR400

DDR266

DDR266

Chipsatz

AMD-8000

AMD-8000

nForce2

nForce2

875P

E7505

E7505

Compiler

-QxW

-QxK

-QxK

-QxK

-QxW

-QxW

-QxW

Test

164.gzip

972

949

898

1050

1125

1144

1144

175.vpr

933

922

620

681

772

599

855

176.gcc

910

904

689

780

1465

1324

1561

181.mcf

575

576

404

412

924

586

682

186.crafty

1208

1210

1079

1269

1133

1125

1180

197.parser

991

976

811

910

1104

997

1123

252.eon

1307

1375

1300

1536

1097

1114

1119

253.perlbmk

1212

1187

1069

1238

1369

1339

1376

254.gap

1143

1079

949

1069

1583

1486

1535

255.vortex

1605

1601

1411

1578

1921

1741

1904

256.bzip2

942

956

751

833

934

758

920

300.twolf

1076

1086

638

688

838

639

1040

Gesamt

1044

1039

839

942

1148

1009

1160

Der Xeon 3,06 GHz profitiert vom L3-Cache mit einer insgesamt 15 Prozent höheren Integer-Performance im Vergleich zur Variante ohne dritte Pufferstufe. Dieses Ergebnis deckt sich mit den Aussagen von Intel. Im Extremfall wie der Routing-Simulation 300.twolf wirkt der L3-Cache um bis zu 63 Prozent beschleunigend. Das Gros der Daten kann im L3-Cache gehalten werden.

Der Opteron 244 ist mit den Pentium-4-optimierten -QxW-Compiler-Einstellungen nur geringfügig schneller als mit -QxK (ohne SSE2, wird bei SPECint aber nicht genutzt). Gegenüber dem gleich getakteten Athlon XP 2500+ zeigt der Opteron insgesamt einen Performance-Gewinn von 24 Prozent. AMD selbst hatte angegeben, der Opteron würde eine 20 bis 25 Prozent höhere Performance als ein Athlon-Prozessor erreichen: zirka 20 Prozent durch den integrierten Speicher-Controller und fünf Prozent durch die Erweiterungen am Core. Bei unserem Gesamtergebnis für SPECint_base2000 trifft diese Aussage zu.

Dem neuen Xeon 3,06 GHz mit L3-Cache muss sich der Opteron bei Integer-Berechnungen nun geschlagen geben. Sowohl der Opteron als auch der Xeon müssen sich aber dem Pentium 4 3,00 GHz beugen: Der Desktop-Prozessor profitiert hier deutlich von seinem schnellen DDR400-Speicher und FSB800, wie der Vergleich zum Xeon 3,06 GHz zeigt. Intels Server-/Workstation-CPU steht über den E7505-Chipsatz nur DDR266-SDRAM zur Verfügung.

Im folgenden Diagramm finden Sie das Gesamtergebnis des SPEC-CPU2000-Integer-Benchmarks der Prozessoren nochmals übersichtlich im grafischen Vergleich:

Ergebnisse: Floating Point

Wir setzen die SPEC-Benchmarks praxisnah ein und kompilieren sie deshalb mit dem geringeren Aufwand für das Base-Rating. Dazu verwenden wir Intel C++ 7.0 und MS Visual Studio sowie Intel Fortran für alle Fließkomma-Tests. Auch AMD und Intel verwenden diese Compiler für das Base-Rating bei den Fließkomma-Benchmarks, wie man an den von beiden Firmen offiziell gemeldeten FP-Resultaten sehen kann.

SPECfp_base2000: Official Run

Prozessor

Opteron 244

Opteron 244

Athlon XP 2500+

Athlon XP 3000+

Pentium 4 3000

Xeon 3066

Xeon 3066 L3

Alle Angaben in Punkten. Höhere Werte sind besser. Bedeutung der Compiler-Optionen: -QxK = optimiert für Pentium III, lauffähig auch mit Pentium 4, Athlon XP, Opteron und Duron ab 1 GHz; -QxW = optimiert für Pentium 4 sowie Xeon und lauffähig auf dem Opteron.

Speichertyp

DDR333

DDR333

DDR333

DDR333

DDR400

DDR266

DDR266

Chipsatz

AMD-8000

AMD-8000

nForce2

nForce2

875P

E7505

E7505

Compiler

-QxW

-QxK

-QxK

-QxK

-QxW

-QxW

-QxW

Test

168.wupwise

1108

1197

999

1103

1639

1434

1444

171.swim

1599

1164

853

936

1982

1278

1266

172.mgrid

1038

893

689

744

1207

870

1093

173.applu

856

773

600

642

1292

890

884

177.mesa

1203

1035

959

1124

1251

1259

1262

178.galgel

1382

984

659

709

2127

1546

1769

179.art

1314

1329

521

537

917

599

808

183.equake

807

818

565

593

1389

992

1009

187.facerec

1132

1062

930

1001

1579

1320

1353

188.ammp

1089

1070

746

820

828

624

889

189.lucas

1328

1179

776

828

1626

1135

1132

191.fma3d

1038

927

764

842

1251

1028

1042

200.sixtrack

452

449

456

536

559

560

562

301.apsi

1037

1045

630

691

895

702

937

Gesamt

1058

967

707

772

1250

966

1065

Bei den Fließkomma-Berechnungen profitiert der Xeon von seinem L3-Cache mit einer durchschnittlich 10 Prozent höheren Performance. Molekülberechnungen der Anwendung 188.ammp gehen 42 Prozent schneller vonstatten. Viele wiederholt benötigte Datensätze kann der L3-Cache hier bereithalten und umgeht den Zugriff auf den langsameren Arbeitsspeicher.

Der Opteron 244 ist mit den Pentium-4-optimierten -QxW-Compiler-Einstellungen teilweise deutlich schneller als mit -QxK (ohne SSE2). Besonders das Programm 178.galgel, das Flüssigkeitsströmungen berechnet, profitiert mit bis zu 40 Prozent Performance-Gewinn, wenn SSE2 genutzt wird.

In der Gesamtwertung platziert sich der Xeon 3,06 GHz mit L3-Cache knapp vor dem Opteron 244. Der Desktop-Prozessor Pentium 4 3,00 GHz mit FSB800 nutzt den Vorteil seines schnellen DDR400-Speichers voll aus. Die Berechnung finiter Wasserelemente des Programms 171.swim profitiert stark von schnellem Speicher: Der Pentium 4 ist 54 Prozent flotter als der Xeon 3,06 GHz mit DDR266. Auch der Opteron mit DDR333 ist dem Xeon bei dieser Anwendung um 25 Prozent überlegen.

Im folgenden Diagramm finden Sie das Gesamtergebnis des SPEC-CPU2000-Integer-Benchmarks übersichtlich im grafischen Vergleich:

Systemleistung: SYSmark2002

Opteron- und Xeon-Systeme sind für Server- und Workstations vorgesehen, deren Einsatzgebiete und verwendete Software sich von Desktop-PCs stark unterscheiden. Zur Beurteilung der Leistungsfähigkeit des Prozessors und der Plattform im Allgemeinen kann jedoch auch der Test mit Desktop-Programmen interessant sein. Einer dieser Fälle ist das Benchmark-Paket SYSmark2002. Es soll auf Desktop-PCs die Performance mit oft genutzten Standardanwendungen ermitteln. Dazu gehören nicht nur Programme wie Word und Excel, sondern auch MPEG-Encoder, 3D-, Video- und Sound-Software.

Interessant ist SYSmark2002 auch deshalb, weil AMD dem Programm eine heimliche und praxisferne Optimierung zugunsten des Pentium 4 und seines SSE2-Befehlssatzes nachsagt. Mit dem Opteron und später dem Athlon 64 sollte dieser Vorteil für Intel entfallen - wenn AMD ganze Arbeit bei seinen neuen CPUs geleistet hat.

SYSmark2002 soll auch das parallele Arbeiten mit mehreren Programmen gleichzeitig simulieren. So arbeitet beispielsweise im Vordergrund eine Office-Applikation, während im Hintergrund der Virenscanner auf die Suche geht. Der Tester hat so jedoch leider keinen Überblick, welches Programm einer CPU nun besonders zu schaffen macht. Aus welchen Einzelwerten sich die beiden Ergebnisse für Office Productivity und Internet Content Creation errechnen, bleibt deshalb das Geheimnis der BAPCo.

Die klassischen 2D-Anwendungen für den Bürobereich profitieren fast ausschließlich von der Integer-Performance einer CPU. Diese Software-Sparte repräsentiert der Testblock Office Productivity von SYSmark 2002.

Immer größer wird die Zahl der Sound- und Grafikprogramme, die wie Spiele eine schnelle FPU oder Befehlserweiterungen wie MMX, SSE oder 3DNow! bevorzugen. Die Anwendungen im Testblock Internet Content Creation von SYSmark2002 unterstützen überwiegend SSE2.

Raytracing: Lightwave 3D

Das 3D-Programm Lightwave 3D 7.5 von NewTek ist für den Pentium 4 optimiert. Laut NewTek betrifft das speziell den SSE2-Befehlssatz. Neben Intel-CPUs werden auch die AMD-Prozessoren besonders unterstützt. NewTek selbst hat die Athlon-Prozessoren für Lightwave 3D bereits im März 2001 zertifiziert. Von der SSE2-Optimierung in Lightwave 3D sollte auch der Opteron profitieren. Die Grafikkartenleistung und Speicher-Performance spielen bei diesem Test keine Rolle.

Raytracing: CINEBENCH 2000

Cinema 4D XL von Maxon ist ein professionelles 3D-Modelling- und Animationswerkzeug. Eigens für Performance-Tests entwickelte Maxon den CINEBENCH 2000. Er basiert auf Cinema 4D XL und führt Shading- und Raytracing-Tests durch. Die verwendete Version des Benchmarks unterstützt noch nicht den SSE2-Befehlssatz.

Beim Raytracing-Leistungstest fordert CINEBENCH 2000 besonders die FPU des Prozessors. Der Benchmark verwendet eine Szene, die stark von Anti-Aliasing, Schatten, Transparenzen und Spiegelungen Gebrauch macht. Die Leistungsfähigkeit der Grafikkarte und des Speichers spielen hier kaum eine Rolle.

IPC steht für Instructions per clock. Der Wert gibt an, wieviele Befehle ein Prozessor pro Taktzyklus gleichzeitig abarbeiten kann. Je höher der Wert ist, desto effizienter ist die Architektur. Bei deutlich geringerer Taktfrequenz erreichen die AMD-CPUs in diesem Test eine höhere Performance.

Raytracing: CINEBENCH 2003

Mit dem CINEBENCH 2003 stellt Maxon eine neue Version des bekannten Benchmark-Tools bereit. CINEBENCH 2003 basiert auf Cinema 4D Release 8 und führt wieder Shading- und Raytracing-Tests durch. Die aktuelle Version unterstützt nun SSE2 sowie Intels Hyper-Threading-Technologie. Intel selbst unterstützte Maxon bei der Optimierung von Cinema 4D.

Der Raytracing-Test von CINEBENCH 2003 überprüft die Renderleistung des Prozessores. Eine Szene "Daylight" wird mit Hilfe des Cinema-4D-Raytracers berechnet. Sie enthält 35 Lichtquellen, wovon 16 mit Shadowmaps behaftet sind und sogenannte weiche Schatten werfen. Bei dem FPU-lastigen Test spielt die Leistungsfähigkeit der Grafikkarte und die Speicher-Bandbreite eine untergeordnete Rolle.

Das Ergebnis wirft allerdings die Frage auf, ob CINEBENCH 2003 den Opteron überhaupt als SSE2-fähige CPU erkennt und entsprechend unterstützt.

Rendern: SPECapc

3D Studio Max 5 von Discreet/Autodesk ist eine professionelle Software für 3D-Modellierung, Animation und Rendering. Um die Leistungsfähigkeit von 3D Studio Max auf verschiedenen Hardware-Plattformen standardisiert testen zu können, gibt es vom Benchmark-Konsortium SPEC das Benchmark-Paket SPECapc for 3D Studio Max. Die umfangreichen Tests von SPECapc spiegeln die typischen Berechnungen bei der Erstellung von Animationen wider. Dabei wird die Grafik- und CPU-Leistung getrennt bewertet und aufgelistet. Die Werte für die Grafikleistung lassen wir aber außen vor, weil die verwendete PCI-Grafikkarte als Bremse wirkt und für eine Grafik-Workstation unterdimensioniert ist.

Simulation: Molecular Dynamics

Die Benchmark-Suite Science Mark 2.0 bietet unterschiedliche Berechnungen aus dem mathematischen und physikalischen Bereich. Über die Simulation der Molecular Dynamics untersucht man das thermodynamische Verhalten von Materialen. Science Mark erlaubt die Simulation von fünf Edelgasen in drei verschiedenen kristallgraphischen Konfigurationen mit einer variablen Anzahl von Atomen bei einer wählbaren Temperatur.

Die Berechnungen der Simulation basieren auf komplexen mathematischen Formeln und fordern die CPUs in hohem Maße.

Simulation: Primordia

Die Primordia-Simulation (lateinisch Uranfang, Atom) aus der Science-Mark-Benchmark-Suite berechnet die atomaren Umlaufbahnen jedes Elektrons für beliebige Elemente des Periodensystems. Für die Kalkulation verwendet Science Mark eine eingeschränkte Hartee-Fock-Methode. Als Ergebnis wird die Gesamtenergie der Elektronen eines Atoms ausgegeben.

Um die Leistungsfähigkeit der Prozessoren bei den komplexen Berechnungen einzuordnen, gibt Science Mark die benötigte Simulationszeit an. Die Primordia-Simulation profitiert von hohen Speicherbandbreiten.

Encryption

Das US-Handelsministerium hat im Dezember 2001 grünes Licht für das symmetrische Kryptographieverfahren AES (Advanced Encryption Standard) gegeben. AES ist der Nachfolger von DES und nutzt Schlüssellängen von 128, 192 und 256 Bit.

Bei AES handelt es sich um einen frei verfügbaren symmetrischen 128-Bit-Blockchiffre. Die Verschlüsselung übernimmt der RIJNDAEL-Algorithmus, der eine variable Block- und Schlüssellänge nutzt. In der Benchmark Suite Science Mark 2.0 ermittelt der AES-Test den Durchsatz an verschlüsselten Daten in MByte/s.

IPC steht für Instructions per clock. Der Wert gibt an, wie viele Befehle ein Prozessor pro Taktzyklus gleichzeitig abarbeiten kann. Je höher der Wert ist, desto effizienter ist die Architektur. Bei deutlich geringerer Taktfrequenz erreichen die AMD-CPUs in diesem Test eine höhere Performance.

Encoding

Bei kommerziellen Programmen kennt man in den meisten Fällen nicht den Grad der Optimierung für den SSE/SSE2-Befehlssatz. Bei Freeware-Programmen mit Sourcecode ist das dagegen leicht feststellbar. Wir verwenden den MP3-Encoder GoGo, den Sie hier kostenlos downloaden können. Er basiert auf dem verbreiteten Lame-Encoder, ist jedoch weiter optimiert.

Wir haben die Version 3.10 des Encoders verwendet, die über SSE2-Support verfügt. Als Vergleich dient die Version 2.39, die MMX, 3DNow! und SSE, jedoch nicht SSE2 unterstützt. Mit diesen beiden Programmen lässt sich das Leistungsvermögen des SSE2-Befehlssatzes einer CPU ausloten. Da der Speichertyp bei der geringen Datenmenge kaum eine Rolle spielt, wird ein Großteil der Arbeit im Cache erledigt.

32-Bit-Transfer

Die Cache- und Speicherperformance der Prozessoren überprüfen wir mit unserem Programm tecMem aus der tecCHANNEL Benchmark Suite Pro. tecMem misst die effektiv genutzte Speicherbandbreite zwischen der Load/Store-Unit der CPU und den unterschiedlichen Ebenen der Speicherhierarchie (L1-, L2-, L3-Cache und RAM). Die Ergebnisse erlauben eine getrennte Analyse von Load-, Store- und Move-Operationen.

64-Bit-Transfer

Hier testen wir mit tecMem die Performance mit den 64-Bit-Load und -Store-Kommandos aus dem MMX-Befehlsatz. Die Transferrate ist hier schon deutlich höher als bei den 32-Bit-Kommandos, da die CPU mit jedem Befehl mehr Daten transferieren kann.

128-Bit-Transfer

Mit den 128-Bit-SSE-Befehlen lässt sich die maximale Cache- und Speicher-Performance ermitteln, die ein PC-Prozessor erreichen kann.

Speicherperformance XFire

In einem Dual-Opteron-System verfügt jeder Prozessor mit seinen zwei DDR333-Speicherkanälen über eine lokale Speicherbandbreite von 5,3 GByte/s (1000er Basis). Sind zwei Opterons via HyperTransport miteinander verbunden, kann jede CPU auch auf den Speicher der benachbarten zugreifen. Diese von AMD als XFire bezeichnete Speicherbandbreite beträgt laut Hersteller zusätzlich 3,53 GByte/s (1000er Basis). In einem Dual-Opteron-System steht jedem Prozessor somit eine Speicherbandbreite von 8,83 GByte/s zur Verfügung (lokal + XFire).

Um die XFire-Speicher-Performance mit tecMEM zu messen, haben wir folgendes Szenario eingestellt: Der aktiven CPU 0 des Dual-Opteron-System haben wir den lokalen Speicher entfernt und nur den CPU 1 mit DIMMs bestückt. Da wir Windows 2000 Server für diesen Test in der Uniprozessor-Konfiguration gestartet haben, ist nur CPU 0 aktiv. Der Speicherzugriff kann jetzt ausschließlich via HyperTransport auf das DDR-SDRAM der inaktiven CPU 1 erfolgen.

Speicher-Performance Opteron lokal und XFire

DualDDR333-Speicher

Load 32 [MByte/s]

Store 32 [MByte/s]

Move 32 [MByte/s]

Load 64 [MByte/s]

Load 128 [MByte/s]

Store 128 [MByte/s]

Lokal

1227

997

777

2184

2232

1249

XFire

917

813

678

1566

1601

1040

Kann der Opteron nur auf den Speicher der benachbarten CPU zugreifen, so sinken die Transferraten um bis zu 28 Prozent. Dass die Bandbreite geringer ausfällt als die lokale, liegt an den zusätzliche Latenzzeiten beim Speicherzugriff via HyperTransport.

Latenzzeit

Zu den wesentlichen Neuerungen des Opteron zählt der integrierte Speicher-Controller. Der Vorteil der Integration liegt in den deutlich reduzierten Latenzzeiten bei Zugriffen auf den Speicher. Den Umweg über eine "klassische" externe Northbridge umgeht der Prozessor so. Eine geringe Latenzzeit ist vor allem dann wichtig, wenn der Speicherzugriff überwiegend auf verteilt liegenden Stellen erfolgt. Hier ist die reine Speicherbandbreite oft gar nicht der entscheidende Faktor. Anders hingegen, wenn die Daten zusammenhängend im Speicher liegen und die CPU im Burst-Modus große Mengen ausliest - hier zählt die Bandbreite. Unsere tecCHANNEL Benchmark Suite Pro arbeitet wie viele andere Speicher-Benchmarks mit zusammenhängenden Datenblöcken im Speicher.

Die Benchmark Suite Science Mark 2.0 erlaubt auch die Messung der Latenzzeiten beim Zugriff auf den Arbeitsspeicher.

Latenzzeiten beim Zugriff auf den Speicher in Taktzyklen / ns

Prozessor

Speicher

Latency Speicher

Im Speicher erfolgen 512 Byte große Zugriffe

Opteron 244

DDR333 CL2.5 lokal

166 / 93,6

Opteron 244

DDR333 CL2.5 XFire

232 / 129,0

Athlon XP 2500+

DDR333 CL2.5

204 / 110,7

Athlon MP 2600+

DDR266 CL2.0

408 / 190,7

Pentium 4 3000

DDR400 CL3.0

254 / 85,12

Xeon 3066

DDR266 CL2.0

313 / 102,4

Mit einer Latenzzeit von 166 Taktzyklen erfolgt beim Opteron der Speicherzugriff deutlich schneller als bei den Athlons und den Intel-Prozessoren. Die Integration des Speicher-Controllers zahlt sich hier aus. Interessant ist, wie sich die Latenzzeit erhöht, wenn dem Opteron nur der Speicher der benachbarten CPU zur Verfügung steht: Statt 166 vergehen nun 232 Taktzyklen.

Allerdings relativieren sich diese Zahlen, wenn man die Latenzzeiten in ns und nicht in Taktzyklen betrachtet. Die Intel-Prozessoren arbeiten mit 3 GHz Taktfrequenz und ein Taktzyklus ist damit deutlich kürzer ist als beim Opteron mit 1,8 GHz.

SSE-Performance

Eine detaillierte Analyse der SSE-Performance erlaubt die Benchmark-Suite Science Mark 2.0. Hier werden Matrizen mit einer Größe von bis zu 1536 x 1536 berechnet. Die Matrizen-Multiplikation mit einfacher Genauigkeit ermittelt dabei die MFLOPS des Prozessors. Die Multiplikation nutzt die SSE-Unterstützung der CPUs.

Zusätzlich ermittelt der Benchmark die durchschnittliche Anzahl von FLOPS pro Taktzyklus. Bei Prozessoren wird in diesem Zusammenhang gerne auf den IPC-Wert verwiesen. Damit lässt sich eine Aussage über die Effizienz der Architektur treffen.

SSE2-Performance

Die Benchmark-Suite ScienceMark 2.0 erlaubt auch eine dedizierte Analyse der SSE2-Performance der Prozessoren. Jetzt werden die bis zu 1536 x 1536 großen Matrizen mit doppelter Genauigkeit berechnet. Die Matrix-Mulitplikation ermittelt wieder die MFLOPS des Prozessors und nutzt die SSE2-Unterstützung der CPUs.

Zusätzlich ermittelt der Benchmark die durchschnittliche Anzahl von FLOPS pro Taktzyklus. Bei Prozessoren wird in diesem Zusammenhang gerne auf den IPC-Wert verwiesen. Damit lässt sich eine Aussage über die Effizienz der Architektur treffen.

Multiprozessor-Benchmarks

AMD spricht beim Opteron von Glueless-Multiprocessing. Ohne zusätzlichen Chipsatz lassen sich die CPUs via Hyper-Transport direkt zusammenschalten.

Beim Dual-Opteron-System steigt auch die zur Verfügung stehende Speicher-Bandbreite. Jeder Opteron kann auf sein eigenes Dual-Channel-DDR-SDRAM zugreifen. Außerdem steht der jeweils lokale Speicher der benachbarten CPU über die HyperTransport-Schnittstelle zur Verfügung. Bei den Dual-Athlon-MP- und Dual-Xeon-Systemen müssen sich die CPUs dagegen einen gemeinsamen Speicher teilen. Außerdem erfolgt die Kommunikation zwischen den Prozessoren über einen separaten Chipsatz (Northbridge oder bei Intel MCH)

Sowohl den Opteron als auch den Athlon MP und die Xeon-Prozessoren haben wir jeweils im Single- und Dual-Prozessorbetrieb mit SMP-fähigen Anwendungen getestet. Bei den Xeons wurden die Tests einmal mit und ohne Hyper-Threading durchgeführt.

SMP: Lightwave 3D

Bei Lightwave 3D von NewTek lässt sich die Anzahl der Threads in den Schritten 1, 2, 4 und 8 einstellen. Das Programm teilt bei mehreren Threads eine Render-Szene in entsprechend viele Bereiche auf. Perfekt ist das Thread-Handling von Lightwave 3D allerdings nicht, wie sich in früheren tecCHANNEL-Tests herausstellte.

In der folgenden Tabelle finden Sie die unterschiedlichen Renderzeiten zusammengefasst, wenn bei Lightwave 1, 2, 4 oder 8 Threads eingestellt sind.

Lightwave 3D: Render-Geschwindigkeit bei unterschiedlicher Thread-Anzahl

Prozessor

Render-Zeit 1 Thread [Sek.]

Render-Zeit 2 Threads [Sek.]

Render-Zeit 4 Threads [Sek.]

Render-Zeit 8 Threads [Sek.]

1 x A-MP 2600+ DDR266

620

620

621

621

2 x A-MP 2600+ DDR266

616

524

356

326

1 x Opteron 244 DualDDR333

510

510

510

511

2 x Opteron 244 QuadDDR333

519

438

289

270

1 x Xeon 2800 DualDDR266

502

503

501

501

2 x Xeon 2800 DualDDR266

502

426

284

258

1 x Xeon 3066 DualDDR266

458

458

459

459

2 x Xeon 3066 DualDDR266

456

390

262

235

1 x Xeon 3066 L3 DualDDR266

447

446

448

448

2 x Xeon 3066 L3 DualDDR266

448

382

257

231

1 x Xeon 3066 L3 HT DualDDR266

602

537

408

381

2 x Xeon 3066 L3 HT DualDDR266

452

436

322

213

Dass die Performance bei vier und acht Threads weiter steigt, auch wenn nur zwei Prozessoren vorhanden sind, hat folgenden Grund: Ist die Render-Szene nur in zwei Bereiche aufgeteilt (zwei Threads), so sind diese durch die im Regelfall unterschiedliche Komplexität verschieden schnell berechnet. Ist ein Thread fertig, wird der andere durch die zweite CPU noch berechnet. Da Lightwave nicht über ein ausgeklügeltes Multithreading verfügt, wird dieser "Rest-Thread" nicht nochmals auf beide CPUs aufgeteilt - eine liegt also brach. Ist die komplette Render-Szene aber beispielsweise in vier Threads aufgeteilt, wird einer sich im Leerlauf befindenden CPU gleich der nächste anstehende Thread zugewiesen. Erst bei den beiden letzten verbliebenen Threads liegt eine CPU wieder brach, falls sie schneller fertig sein sollte.

SMP: CINEBENCH 2000

Der Raytracing-Leistungstest von Maxons CINEBENCH 2000 fordert besonders die FPU des Prozessors und unterstützt SMP. Der Benchmark verwendet eine Szene, die stark von Anti-Aliasing, Schatten, Transparenzen und Spiegelungen Gebrauch macht. Die Leistungsfähigkeit der Grafikkarte und des Speichers spielen hier kaum eine Rolle.

SMP: CINEBENCH 2003

CINEBENCH 2003 basiert auf Maxons Cinema 4D Release 8 und besitzt neben Multiprozessorunterstützung eine Optimierung für Intels Hyper-Threading-Technologie optimiert.

Der Multiprozessor-Raytracing-Test von CINEBENCH 2003 überprüft die Renderleistung der Prozessoren. Dabei wird wieder die Szene "Daylight" verwendet. Sie enthält 35 Lichtquellen, wovon 16 mit Shadowmaps behaftet sind und sogenannte weiche Schatten werfen. Bei dem FPU-lastigen Test spielt die Leistungsfähigkeit der Grafikkarte und die Speicher-Bandbreite eine untergeordnete Rolle.

SMP: SPECapc

Der auf 3D Studio Max basierende SPECapc-Benchmark spiegelt die typischen Berechnungen bei der Erstellung von Animationen wider. Unerlässlich für ein Profiwerkzeug wie 3D Studio Max, dass eine hohe Rechenleistung verlangt, ist die Unterstützung von SMP.

SPECapc generiert bei seinen Test einen Indexwert CPU Mean, der die Prozessor-Leistung widerspiegelt.

Der Performance-Vorteil zweier Prozessoren gegenüber nur einem ist beim SPECapc-Test mit zirka 12 Prozent relativ klein. Allerdings setzt sich der Gesamtwert CPU Mean aus 10 einzelnen Schritten zusammen. Beim Vergleich einzelner Zwischenergebnisse sind die Dual-Prozessoren teilweise um bis zu 39 Prozent schneller als eine einzelne CPU, beispielsweise beim Test "rendering one frame" oder "play particle scene in facet shading".

SMP: Moleclar Simulation

Bei der Molecular Simulation aus der Benchmark-Suite Science Mark 2.0 wird das thermodynamische Verhalten von Materialen berechnet. Die Simulation basiert auf komplexen mathematischen Formeln und unterstützt Mehrprozessorsysteme.

Fazit

Der Xeon 3,06 GHz stellt durch seinen 1024 KByte großen L3-Cache wieder einen gebührenden Abstand zum Opteron 244 her. Die Integer- und Floating-Point-Performance steigt mit der dritten Pufferstufe um bis zu 15 Prozent - im Vergleich zum Xeon ohne L3-Cache. Mit diesem konnte der Opteron 244 noch gut konkurrieren.

Der "optimus" Opteron kann unter Windows 32 Bit somit nur noch teilweise mit dem neuen Xeon-Prozessor Schritt halten. Dieses Kunststück schafft der Opteron immerhin mit nur 1,8 GHz, während der Xeon bereits mit 3,06 GHz Taktfrequenz arbeitet. Die Erweiterungen wie integrierter Speicher-Controller, SSE2, 1 MByte L2-Cache und verbesserte Prefetch-Logik beschleunigen den Opteron 244 um zirka 25 Prozent im Vergleich zu einem gleich getakteten Athlon XP 2500+. Auch dem mit 2167 MHz Taktfrequenz arbeitenden Athlon XP 3000+ oder einem vergleichbar schnellen zukünftigen Athlon MP kann der Opteron Paroli bieten.

Das erklärte Designziel der AMD64-Architektur - pro Takt mehr Befehle zu berechnen - ist mit dem Opteron im Vergleich zum Athlon gelungen. Die architektonischen Vorteile der Plattform kann AMD aber nur bedingt nutzen. Denn der hohe Takt der Intel-CPUs gleicht deren geringeren IPC-Wert wieder aus. Zwingend erforderlich beim Opteron wären jetzt höhere Taktfrequenzen - Gerüchten zufolge wird AMD auch bald nachlegen.

Die Notwendigkeit dazu zeigt auch ein Blick auf Intels Roadmap: Im vierten Quartal 2003 debütiert der mit dem Code-Namen Nocona versehene Nachfolger der Xeon DPs. Der Nocona basiert auf dem Prescott-Core und wird mit 3,46 GHz Taktfrequenz arbeiten. Einen Trumpf hat AMD aber noch in der Hinterhand, denn die 64-Bit-Features des Opteron liegen unter Windows bislang brach. Leider gibt es von Microsoft noch keine konkreten Zeitpläne für native AMD 64-Bit-Versionen von Windows XP und Windows 2003 Server.

Was der Opteron im Server-Umfeld unter 32- und 64-Bit-Linux leistet, können Sie hier nachlesen. Ausführliche Grundlagen zur AMD64-Architektur finden Sie ebenfalls bei TecChannel. (cvi)