Test: Athlon 64 FX-55 & 4000+

19.10.2004 von Christian Vilsbeck
AMD dreht beim Athlon 64 FX-55 die Taktfrequenz auf 2,6 GHz hoch. Zusätzlich gibt es den Athlon 64 4000+. Enteilen die Neulinge Intels Pentium-4-Prozessoren und rechtfertigen die teuren Highend-CPUs ihren Aufpreis?

Vier Monate nach Intels Plattform-Offensive im Juni 2004 schickt AMD wieder schnellere Varianten ins Rennen. Der neue Athlon 64 FX-55 für den Socket 939 arbeitet bei 2,6 GHz Taktfrequenz um 200 MHz schneller als sein Vorgänger. Die CPU zielt klar gegen Intels Pentium 4 3,40 GHz Extreme Edition. Neu ist auch der Athlon 64 4000+. Die ebenfalls im Socket 939 Platz nehmende CPU soll dem Pentium 4 560 mit 3,60 GHz Einhalt gebieten.

Während AMDs Athlon 64 FX-55 mit seiner höheren Taktrate als echte Neuheit gilt, ist der Athlon 64 4000+ ein alter Bekannter. Der AMD64-Prozessor arbeitet mit 2,4 GHz Taktfrequenz, besitzt ein Dual-Channel-Speicher-Interface und greift auf 1 MByte L2-Cache zurück. Mit diesen Eckdaten ging bisher der Athlon 64 FX-53 hausieren. So wartet der Athlon 64 4000+ nur mit neuem Namen auf. Auch der bisherige Athlon 64 3800+ arbeitet mit 2,4 GHz Taktfrequenz. Allerdings stehen ihm lediglich 512 KByte L2-Cache zur Seite.

Besitzer von Mainboards mit dem Socket 754 oder 940 profitieren von AMDs neuen CPUs nicht. Der Athlon FX-53 bleibt die schnellste Variante für den 940er Steckplatz, der 3700+ ist das 754er Topmodell. Im tecCHANNEL-Labor treten der Athlon 64 FX-55 und 4000+ gegen die 754er und 940er AMD64-CPUs und die Pentium-4-Modelle an. Wir zeigen, ob die neuen Topmodelle ihr Geld wert sind.

Anhand einer Beta-Version von Windows XP 64 Bit Edition geben wir Ihnen zudem einen Einblick in die Leistungsfähigkeit des Athlon 64 FX im 64-Bit-Betrieb. Ausführliche Informationen zu den einzelnen CPUs haben wir im Artikel Desktop-Prozessoren im Detail für Sie zusammengefasst. Grundlagen zur AMD64-Architektur sowie zum Pentium 4 "Prescott" finden Sie ebenfalls bei tecCHANNEL.

Athlon-64-Modelle im Überblick

AMD bietet seine AMD64-Prozessoren für Desktop-PCs in zwei Modellreihen an. Das High-End-Segment bedient der Athlon 64 FX für den Socket 940, für Mainstream-PCs ist der Athlon 64 im Socket 754 vorgesehen. Seit Juni 2004 gibt es beide Modellreihen auch für den gemeinsamen Socket 939.

Neben dem Sockel unterscheiden sich die Prozessoren durch den integrierten Memory Controller, die L2-Cache-Größe und die Busgeschwindigkeit. Während die Athlon-64-Modelle für den Socket 754 über einen Single-Channel-DDR400-SDRAM-Controller verfügen, bieten die 939er-Modelle und alle Athlon 64 FX eine Dual-Channel-Variante. Der Athlon 64 FX für den Socket 940 benötigt dabei Registered DIMMs als Arbeitsspeicher. Differenzen weisen die CPUs auch bei den L2-Cache-Größen auf. Der Athlon 64 FX und die Topmodelle des Athlon 64 für den Socket 754 und 939 können auf einen 1-MByte-L2-Cache zurückgreifen.

Bei den 754er-Einsteigervarianten mit Code-Namen Newcastle kappte AMD den L2-Cache auf 512 KByte. Neben dem Modell Athlon 64 3000+ gibt es seit Mitte März 2004 den Athlon 64 3200+ jetzt auch mit 512 KByte L2-Cache. Während die ursprüngliche 3200er-Variante (1 MByte L2-Cache) mit 2,0 GHz Taktfrequenz arbeitet, hat die neue Version einen Arbeitstakt von 2,2 GHz. Trotz halbiertem L2-Cache soll die CPU damit der Modellbezeichnung weiterhin gerecht werden. Speziell für das OEM-Geschäft fertigt AMD zusätzlich den Athlon 64 2800+ mit 1,8 GHz Taktfrequenz.

Bei den Athlon-64-Modellen für den Socket 939 verwendet AMD bis auf das Topmodell 4000+ den Newcastle-Core mit 512 KByte L2-Cache. Der Athlon 64 und Athlon 64 FX für den Socket 939 besitzen außerdem einen HyperTransport-Bus mit 1000 MHz Taktfrequenz. Bei den 754er- und 940er-Modellen arbeitet der serielle Prozessorbus mit 800 MHz.

In der Tabelle haben wir für Sie alle Athlon-64-Modelle zusammengefasst.

AMDs Athlon-64-Modelle im Überblick

Modell

L2-Cache

Taktfrequenz

Speicher

HT-Bus

Steckplatz

Athlon 64 FX-55

1 MByte

2,6 GHz

DualDDR400

1000 MHz

Socket 939

Athlon 64 FX-53

1 MByte

2,4 GHz

DualDDR400

1000 MHz

Socket 939

Athlon 64 FX-53

1 MByte

2,4 GHz

Reg. DualDDR400

800 MHz

Socket 940

Athlon 64 FX-51

1 MByte

2,2 GHz

Reg. DualDDR400

800 MHz

Socket 940

Athlon 64 4000+

1 MByte

2,4 GHz

DualDDR400

1000 MHz

Socket 939

Athlon 64 3800+

512 KByte

2,4 GHz

DualDDR400

1000 MHz

Socket 939

Athlon 64 3700+

1 MByte

2,4 GHz

DDR400

800 MHz

Socket 754

Athlon 64 3500+

512 KByte

2,2 GHz

DualDDR400

1000 MHz

Socket 939

Athlon 64 3400+

1 MByte

2,2 GHz

DDR400

800 MHz

Socket 754

Athlon 64 3200+

1 MByte

2,0 GHz

DDR400

800 MHz

Socket 754

Athlon 64 3200+

512 KByte

2,2 GHz

DDR400

800 MHz

Socket 754

Athlon 64 3000+

512 KByte

2,0 GHz

DDR400

800 MHz

Socket 754

Athlon 64 2800+ (OEM)

512 KByte

1,8 GHz

DDR400

800 MHz

Socket 754

Ausführliche Details zur AMD64-Architektur finden Sie in diesem Artikel bei tecCHANNEL. Informationen über alle aktuellen Prozessoren von AMD und Intel können Sie hier nachlesen.

Pentium-4-Modelle im Überblick

Intel bietet den Pentium 4 für den LGA775-Sockel als Modell 520, 530, 540, 550 und 560 an. Die CPUs verwenden den Prescott-Core und arbeiten mit Taktfrequenzen von 2,80, 3,00, 3,20, 3,40 und 3,60 GHz. Allen Modellen gemein ist Intels Hyper-Threading-Technologie sowie der FSB800. Zusätzlich fertigt Intel den seit Februar 2004 erhältlichen Pentium 4 3,40 GHz Extreme Edition für den LGA775-Steckplatz.

Den Pentium 4 mit Prescott-Core für den Socket 478 gibt es mit Taktfrequenzen von 2,80, 3,00, 3,20 und 3,40 GHz. Mit den gleichen Taktfrequenzen ist der Pentium 4 mit Northwood-Core im 478er Sockel erhältlich.

Zur Kennzeichnung der Prescott-Varianten fügt Intel bei gleicher Taktfrequenz ein "E" an die Taktzahl an. Allen CPUs gemein ist der 800-MHz-FSB sowie die Unterstützung der Hyper-Threading-Technologie. Beim Prescott mit 2,80 GHz Taktfrequenz fertigt Intel zusätzlich eine Variante mit FSB533 und deaktiviertem Hyper-Threading. Diesen Prozessor tituliert Intel mit Pentium 4 2,80A GHz. Mit dieser Taktfrequenz gibt es zudem zwei Pentium-4-Modelle mit Northwood-Core: Die Variante mit FSB800 und Hyper-Threading erhält die Bezeichnung 2,80C GHz. Das Modell mit FSB533 und ohne HT besitzt nur die Taktfrequenzangabe ohne Zusatzbuchstaben.

Durch diese Vielfalt von Pentium-4-Prozessoren - teilweise mit gleicher Taktfrequenz - wird das Angebot zusehends unübersichtlicher. Die neuen LGA775-Modelle sollen mit ihrer Prozessor-Nummer die Unterscheidung vereinfachen. Modelle mit "J" an der Prozessor-Nummer verfügen mit dem E-0-Stepping über zusätzliche Features. In der Tabelle haben wir für Sie die aktuellen Pentium-4-Modelle zusammengefasst.

Intels Pentium-4-Modelle im Überblick

Modell

Steckplatz

Cache

Core

FSB

HT

Pentium 4 560/560J / 3,60 GHz

LGA775

1M L2

Prescott

800 MHz

ja

Pentium 4 550/550J / 3,40 GHz

LGA775

1M L2

Prescott

800 MHz

ja

Pentium 4 540/540J / 3,20 GHz

LGA775

1M L2

Prescott

800 MHz

ja

Pentium 4 530/530J / 3,00 GHz

LGA775

1M L2

Prescott

800 MHz

ja

Pentium 4 520/520J / 2,80 GHz

LGA775

1M L2

Prescott

800 MHz

ja

Pentium 4 3,40XE GHz

LGA775

512K L2 / 2M L3

Northwood+

800 MHz

ja

Pentium 4 3,40E GHz

Socket 478

1M L2

Prescott

800 MHz

ja

Pentium 4 3,40XE GHz

Socket 478

512K L2 / 2M L3

Northwood+

800 MHz

ja

Pentium 4 3,40 GHz

Socket 478

512K L2

Northwood

800 MHz

ja

Pentium 4 3,20E GHz

Socket 478

1M L2

Prescott

800 MHz

ja

Pentium 4 3,20XE GHz

Socket 478

512K L2 / 2M L3

Northwood+

800 MHz

ja

Pentium 4 3,20 GHz

Socket 478

512K L2

Northwood

800 MHz

ja

Pentium 4 3,06 GHz

Socket 478

512K L2

Northwood

533 MHz

ja

Pentium 4 3,00E GHz

Socket 478

1M L2

Prescott

800 MHz

ja

Pentium 4 3,00 GHz

Socket 478

512K L2

Northwood

800 MHz

ja

Pentium 4 2,80E GHz

Socket 478

1M L2

Prescott

800 MHz

ja

Pentium 4 2,80A GHz

Socket 478

1M L2

Prescott

533 MHz

nein

Pentium 4 2,80C GHz

Socket 478

512K L2

Northwood

800 MHz

ja

Pentium 4 2,80 GHz

Socket 478

512K L2

Northwood

533 MHz

nein

Pentium 4 2,66 GHz

Socket 478

512K L2

Northwood

533 MHz

nein

Pentium 4 2,60 GHz

Socket 478

512K L2

Northwood

800 MHz

ja

Ausführliche Details zur Prescott-Architektur finden Sie in diesem Artikel bei tecCHANNEL. Informationen über alle aktuellen Prozessoren von AMD und Intel können Sie hier nachlesen.

Listenpreise

Hinsichtlich der Preise empfiehlt es sich, gelegentlich einen Blick auf die offiziellen Listen der CPU-Hersteller zu werfen. Bei AMDs Preisliste gab es am 19. Oktober 2004 die letzten Änderungen. Intels Preisliste wurde am 17. Oktober 2004 aktualisiert.

OEM-Preise im Vergleich

Modell

Taktfrequenz /FSB [MHz]

Preis [US-Dollar]

Alle Preise in US-Dollar, bezogen auf eine Abnahmemenge von 1000 Stück. Stand: AMD-Preisliste vom 19.10.2004, Intel-Preisliste vom 17.10.2004

Athlon XP 2800+ Barton

2083 / 333

150

Athlon XP 3000+ Barton

2167 / 333

164

Athlon XP 3200+ Barton

2200 / 400

204

Athlon 64 2800+ S754

1800 / 800

144

Athlon 64 3000+ S754

2000 / 800

163

Athlon 64 3200+ S754

2000 / 800

208

Athlon 64 3400+ S754

2200 / 800

238

Athlon 64 3500+ S939

2200 / 1000

288

Athlon 64 3700+ S754

2400 / 800

470

Athlon 64 3800+ S939

2400 / 1000

643

Athlon 64 4000+ S939

2400 / 1000

729

Athlon 64 FX-55 S939

2600 / 1000

827

Pentium 4 2,80C GHz

2800 / 800

178

Pentium 4 3,00 GHz

3000 / 800

178

Pentium 4 3,06 GHz

3066 / 533

178

Pentium 4 3,20 GHz

3200 / 800

218

Pentium 4 3,40 GHz

3400 / 800

278

Pentium 4 2,80A GHz

2800 / 533

163

Pentium 4 2,80E GHz

2800 / 800

178

Pentium 4 3,00E GHz

3000 / 800

178

Pentium 4 3,20E GHz

3200 / 800

218

Pentium 4 3,40E GHz

3400 / 800

278

Pentium 4 3,20XE GHz

3200 / 800

925

Pentium 4 3,40XE GHz

3400 / 800

999

Pentium 4 3,40XE GHz LGA775

3400 / 800

999

Pentium 4 520

2800 / 800

163

Pentium 4 530

3000 / 800

178

Pentium 4 540

3200 / 800

218

Pentium 4 550

3400 / 800

278

Pentium 4 560

3600 / 800

417

Die 1000er Preise in den Tabellen sind auch ein Anhaltspunkt für die deutschen/europäischen Endkundenpreise in Euro. Unter Berücksichtigung der Mehrwertsteuer und einer Händlermarge ergibt sich annähernd dieses Preisgefüge. Nachfolgend finden Sie einen Link zu aktuellen Endkundenpreisen.

tecCHANNEL Preisvergleich & Shop

Produkte

Info-Link

Prozessoren

Preise & Händler

Benchmark-Vorbetrachtung

Bei unseren CPU-Benchmarks mussten die neuen Socket-939-CPUs Athlon 64 FX-55 und Athlon 64 4000+ gegen folgende Prozessoren antreten:

Wir haben die Benchmarks der Pentium-4-Prozessoren mit aktiviertem Hyper-Threading durchgeführt. Das Betriebssystem Windows XP Professional SP1a arbeitete mit dem Multiprozessor-Kernel. Damit werden die von den CPUs zur Verfügung gestellten SMP-Features ausgenutzt. Die AMD-Prozessoren verwenden Windows XP Professional SP1a mit installiertem Single-Kernel.

Alle getesteten Prozessoren sind Socket-Modelle, die gemäß ihren technischen Spezifikationen betrieben werden. Auch der Speicher, das Mainboard und die restlichen Komponenten sind nicht übertaktet, sondern arbeiten exakt nach den Vorgaben.

Testplattformen

Intels LGA775-Prozessoren testen wir in einem Intel Desktop-Board D925XCV mit 925X-Chipsatz. Als Arbeitsspeicher steht DDR2-533-SDRAM mit CL4 in einer Dual-Channel-Konfiguration zur Verfügung. Die Intel-CPUs für den Socket 478 können in einem Intel Desktop-Board D875PBZ mit 875P-Chipsatz auf DualDDR400-SDRAM mit CL2 zugreifen.

Als Socket-754-Testplattform für den Athlon 64 dient das MSI K8T Neo mit VIAs K8T800-Chipsatz. Ebenfalls auf diesem Chipsatz basiert das Socket-940-Mainboard K8T Master1 von MSI - wir verwenden es zum Test des Athlon 64 FX-51. Durch den identischen Chipsatz sowie den gleichen Mainboard-Hersteller sind die Performance-Unterschiede zwischen beiden AMD64-CPUs sehr aussagekräftig.

AMDs Socket-939-Prozessoren nehmen in einem MSI 6702E mit VIAs K8T800 Pro Platz. Der Chipsatz unterstützt HyperTransport-Taktfrequenzen bis 1000 MHz. Auf dem MSI-Mainboard können die AMD64-CPUs auf DualDDR400-SDRAM CL2 zurückgreifen.

Als Referenzplattform für die Athlon-XP-Prozessoren haben wir als Mainboard das MSI K7N2 Delta mit NVIDIAs nForce2-Chipsatz gewählt. Es unterstützt offiziell einen FSB-Takt von bis zu 400 MHz.

Um gleiche Testbedingungen zu gewährleisten, wurden alle Testsysteme mit AGP-8x-Steckplatz mit einer GeForce 6800 GT von MSI bestückt. Intels D925XCV-Mainboard für LGA775-Prozessoren arbeitet mit einer PCI-Express-x16-Variante. Beiden Grafikkarten mit 256 MByte GDDR3-Speicher identisch stand der ForceWare-Treiber 61.34 zur Seite. Einheit herrschte auch beim Arbeitsspeicher mit jeweils 1 GByte und den Massenspeichern, die aus SCSI-Festplatten mit 10.000 U/min bestanden.

SPEC CPU2000

Wir benutzen als Analyse-Instrument die Benchmark-Suite SPEC CPU2000 unter Windows XP Professional SP1a. Das Benchmark-Paket verwendet Ganzzahlen- und Fließkomma-Programme und wird mit den Sourcecodes geliefert. Es handelt sich hierbei nicht um Lowlevel-Benchmarks, sondern um Software, die realitätsnahe Aufgabenstellungen bearbeitet. Vor dem Testlauf ist Programm für Programm zu kompilieren, was durch die Wahl der entsprechenden Parameter hervorragende Möglichkeiten zum Test einzelner CPU-Funktionsgruppen eröffnet.

Im SPEC-Komitee sitzen alle Prozessorhersteller, die im Workstation- und Server-Bereich das Sagen haben - auch einige große PC-Hersteller sind dabei. Die SPEC regelt den Gebrauch ihrer Benchmarks strikt und gibt exakt vor, in welcher Form die Ergebnisse an die Organisation zu melden sind. So müssen die verwendeten Compiler und die restliche Hard- und Software spätestens ein halbes Jahr nach dem Test für jedermann zu kaufen sein.

Die von den Herstellern eingereichten Ergebnisse werden auf der offiziellen CPU2000-Result-Seite veröffentlicht. Das alles schafft in der Theorie vergleichbare und faire Testbedingungen.

Tuning per Compiler

In der Praxis kompiliert jeder Hersteller die SPEC-Programme mit eigenen Parametern und selbst gewählten Compilern.

Damit ist das Dilemma der SPEC-Ergebnisse bereits erläutert: Jeder kann den SPEC-Benchmark optimieren, er muss es nur dokumentieren. Dazu darf er so viele Compiler einsetzen, wie er will. Allerdings ist zwischen dem Base-Rating und den Peak-Ergebnissen zu unterscheiden. Die 26 Programme des CPU2000-Pakets müssen in der Base-Wertung mit den gleichen Compiler-Parametern erzeugt werden. Das gilt jeweils für die 12 Integer- und die 14 Fließkomma-Programme. Beim Peak-Rating dürfen sich die Hersteller richtig austoben und jedes Programm speziell tunen.

Sowohl nach den Regeln des Peak- als auch des Base-Ratings lassen sich Programme erzeugen, die nur auf dem gerade getesteten Prozessor laufen. So bringt beispielsweise ein Compiler-Lauf mit Intel C++ und der Option -QxW sehr schnellen Code zustande, der durch die Verwendung von SSE2 aber nur mit dem Pentium 4, Pentium M, dem Xeon und neuerdings mit den AMD64-Prozessoren läuft. Ein Pentium III oder gar ein Athlon XP müssen mit der so präparierten Software passen.

Wir haben für diesen Test die jeweils besten Einstellungen für den Pentium 4 und den Athlon 64/FX (-QxW) sowie den Athlon XP (-QxK) gewählt. Zum Vergleich haben wir die Athlon-64-CPUs auch mit der QxK-Option getestet.

Bei allen Prozessoren kompilieren wir die SPEC-Programme mit den Intel-Compilern C++ 7.1 und Fortran 7.1 und nutzen Microsofts Visual Studio 6.0. Um den Einfluss der Compiler-Version auf die Performance zu testen, verwenden wir in separaten Testläufen die neuen Intel-Compiler der Version 8.0 sowie Microsofts Visual Studio .NET 2002.

Ergebnisse: Integer

Wir setzen die SPEC-Benchmarks praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 7.1 und MS Visual Studio für alle Integer-Tests. Auch AMD und Intel verwenden diese Compiler für das Base-Rating, wie man an den von beiden Firmen offiziell gemeldeten Integer-Resultaten sehen kann.

SPECint_base2000: Official Run

Prozessor

Athlon 64 3800+

Athlon 64 4000+

Athlon 64 FX-53

Athlon 64 FX-55

Pentium 4 3,40XE GHz

Pentium 4 550

Pentium 4 560

Alle Angaben in Punkten. Höhere Werte sind besser. Bedeutung der Compiler-Optionen: -QxW = optimiert für Pentium 4 und lauffähig auf dem Athlon 64 und dem Athlon 64 FX.

Taktfrequenz

2,4 GHz

2,4 GHz

2,4 GHz

2,6 GHz

3,4 GHz

3,4 GHz

3,6 GHz

Sockel

S939

S939

S939

S939

775

775

775

Core

AMD64

AMD64

AMD64

AMD64

Northwood+

Prescott

Prescott

Speichertyp

DDR400

DDR400

DDR400

DDR400

DDR2-533

DDR2-533

DDR2-533

Chipsatz

K8T800 Pro

K8T800 Pro

K8T800 Pro

K8T800 Pro

925X

925X

925X

Compiler

-QxW

-QxW

-QxW

-QxW

-QxW

-Qxw

-Qxw

Test

164.gzip

1303

1319

1317

1424

1275

1073

1127

175.vpr

1100

1338

1338

1425

1237

983

1031

176.gcc

1214

1301

1299

1401

1984

1783

1891

181.mcf

1128

1210

1210

1248

1360

1092

1114

186.crafty

1617

1640

1637

1772

1322

1240

1320

197.parser

1369

1450

1449

1555

1396

1255

1328

252.eon

1757

1735

1734

1879

1479

1382

1472

253.perlbmk

1594

1609

1608

1735

1559

1565

1664

254.gap

1667

1686

1668

1807

1814

1732

1812

255.vortex

2241

2329

2323

2492

2392

2164

2277

256.bzip2

1205

1326

1324

1409

1333

1059

1109

300.twolf

1120

1503

1500

1601

1620

1181

1239

Gesamt

1409

1513

1510

1619

1534

1336

1406

Im folgenden Diagramm finden Sie das Gesamtergebnis des SPEC-CPU2000-Integer-Benchmarks der Prozessoren nochmals übersichtlich im grafischen Vergleich:

Analyse: Integer

Gegenüber dem Athlon 64 FX-53 zeigt der um 200 MHz höher getaktete Athlon 64 FX-55 insgesamt einen Performance-Gewinn von 7,2 Prozent. Dies entspricht fast der Taktfrequenzerhöhung von 8,3 Prozent und zeugt von der anhaltend guten Skalierung der CPU. Mit einem SPECint_base2000-Wert von 1619 liegt der Athlon 64 FX-55 sogar deutlich vor dem bisherigen Spitzenreiter Pentium 4 3,40 GHz Extreme Edition.

AMDs Athlon 64 4000+ liefert wie zu erwarten die Performance des Athlon 64 FX-53 - beide 2,4-GHz-CPUs unterscheiden sich nur durch ihre Namen. Auch der Athlon 3800+ für den Socket 939 arbeitet mit 2,4 GHz Taktfrequenz. Allerdings besitzt der 3800er nur 512 KByte L2-Cache statt 1 MByte wie der Athlon 64 4000+ und FX-53. Durch den kleineren Puffer büßt der Athlon 64 3800+ insgesamt sieben Prozent Performance ein. Bei speicherlastigen und somit auch Cache-intensiven Anwendungen wie der Routing-Simulation 300.twolf bremst der kleinere L2-Cache um bis zu 25 Prozent. Überwiegend im L1-Cache ablaufende Raytracer wie die Anwendung 252.eon profitieren dagegen vom kleineren L2-Cache. Das Befüllen und Leeren größerer Caches dauert durch mehr verfügbare Cache-Lines erstmals länger. Werden diese dann nicht benötigt, ist die CPU mit dem größeren L2-Cache im Nachteil.

Den Vergleich des Athlon 64 FX-53 in der 940er- und 939er-Version entscheidet Letzterer für sich. Da beim SPEC CPU2000 die Grafik-Performance keine Rolle spielt, nutzt dem Athlon 64 FX-53 in der 939er-Variante der schnellere 1000-MHz-HyperTransport-Bus hier nichts. Dafür liefert die Socket-939-Version eine höhere Speicher-Performance. Der Athlon 64 FX-53 für den Socket 940 ist hier im Nachteil, weil er Registered DIMMs benötigt. Bei diesen gepufferten Modulen ist pro Speicherzugriff ein zusätzlicher Taktzyklus für die Signalaufbereitung notwendig. Die Auswirkung ist beispielsweise in der speicherintensiven Routing-Simulation 300.twolf zu erkennen. Der Athlon 64 FX-53 im Socket 940 ist hier knapp drei Prozent langsamer als die 939er-Version. Laufen die Applikation überwiegend im Cache ab und der Speicher ist außen vor, so bieten beide Versionen die gleiche Performance. Dies zeigen die Komprimier-Anwendung 164.gzip oder der Raytracer 252.eon.

Die Pentium-4-Prozessoren im LGA775-Sockel müssen sich trotz DDR2-533-Speicher ihren Socket-478-Pendants mit DDR400-SDRAM beugen. So ist beispielsweise der Pentium 4 550 ein knappes Prozent langsamer als der Pentium 4 3,40E GHz. Das gleiche Bild zeigt sich bei den niedriger getakteten Pentium-4-Modellen und der Extreme Edition.

Der DDR2-533-Speicher bietet im Dual-Channel-Betrieb mit 7,95 GByte/s zwar eine deutlich höhere theoretische Bandbreite als DDR400-SDRAM mit 5,96 GByte/s. Der Bandbreitenvorteil verpufft in der Praxis aber durch die höheren Latenzzeiten von DDR2-SDRAM. So verstreichen bei DDR2-533-Speicher vier Taktzyklen zwischen dem Anlegen der Spaltenadresse und dem Bereitliegen der Daten am Ausgang. DDR400-SDRAM arbeitet dagegen inzwischen mit einer CAS-Latency von nur zwei Taktzyklen. Dem Nachteil der höheren Latenzzeit obliegt DDR2-533-SDRAM bei jedem Speicherzugriff. Nur im Burst-Modus, wenn die CPU lange zusammenhängende Speicherbereiche ausliest, ermöglicht DDR2-Speicher einen Vorteil.

Durch die bei den Testläufen verwendete Compiler-Option -QxW profitieren die Pentium-4-Prozessoren mit Prescott-Core nicht von SSE3. Die insgesamt sechs Prozent höhere Performance des Pentium 4 3,40E GHz gegenüber dem 3,40-GHz-Northwood resultiert hier aus den größeren Caches sowie seiner verbesserten Sprungvorhersage. In einzelnen Fällen wie bei der Komprimieranwendung 164.gzip ist der Prescott aber deutlich langsamer als der Northwood. Ein größerer Cache nutzt hier wenig, wie der Vergleich des Northwood mit der Extreme Edition bei gleicher Taktfrequenz zeigt.

Die Erklärung für die geringere Performance liegt in der deutlich längeren Pipeline des Prescott. Intel verlängerte sie von 20 auf 31 Stufen. Falsche Sprungvorhersagen haben bei dieser Pipeline-Tiefe erheblich negativere Auswirkungen auf die Performance. Diesen Nachteil wiegt auch nicht die verbesserte Sprungvorhersage des Prescott auf. Hinzu kommt, dass der 1 MByte große L2-Cache beim Prescott langsamer ist als der 512-KByte-L2-Cache des Pentium 4 Northwood.

Immerhin kann der 3,20-GHz-Prescott den 3,40-GHz-Northwood in der Integer-Leistung knapp schlagen. Der Pentium 4 Extreme Edition mit 3,40 GHz zieht dem Konkurrenzfeld dagegen deutlich davon. Der zusätzliche 2 MByte große L3-Cache steigert die Integer-Leistung bei der Extreme Edition um 22 Prozent (gegenüber Northwood-Core). Im Extremfall wie der Routing-Simulation 300.twolf wirkt der L3-Cache um bis zu 87 Prozent beschleunigend. Das Gros der Daten kann im L3-Cache gehalten werden.

Ergebnisse: Floating Point

Wir setzen die SPEC-Benchmarks praxisnah ein und kompilieren sie für das Base-Rating. Dazu verwenden wir Intel C++ 7.1 und MS Visual Studio sowie Intel Fortran 7.1 für alle Fließkomma-Tests. Auch AMD und Intel benutzen diese Compiler für das Base-Rating bei den Fließkomma-Benchmarks, wie man an den von beiden Firmen offiziell gemeldeten FP-Resultaten sehen kann.

SPECfp_base2000: Official Run

Prozessor

Athlon 64 3800+

Athlon 64 4000+

Athlon 64 FX-53

Athlon 64 FX-55

Pentium 4 3,40XE GHz

Pentium 4 550

Pentium 4 560

Alle Angaben in Punkten. Höhere Werte sind besser. Bedeutung der Compiler-Optionen: -QxW = optimiert für Pentium 4 und lauffähig auf dem Athlon 64 und Athlon 64 FX.

Taktfrequenz

2,4 GHz

2,4 GHz

2,4 GHz

2,6 GHz

3,4 GHz

3,4 GHz

3,6 GHz

Sockel

S939

S939

S939

S939

775

775

775

Core

AMD64

AMD64

AMD64

AMD64

Northwood+

Prescott

Prescott

Speichertyp

DDR400

DDR400

DDR400

DDR400

DDR2-533

DDR2-533

DDR2-533

Chipsatz

K8T800 Pro

K8T800 Pro

K8T800 Pro

K8T800 Pro

925X

925X

925X

Compiler

-QxW

-QxW

-QxW

-QxW

-QxW

-Qxw

-Qxw

Test

168.wupwise

1644

1649

1646

1756

1769

1791

1958

171.swim

2195

2186

2187

2224

2188

2538

2557

172.mgrid

1191

1235

1232

1307

1289

1355

1440

173.applu

1298

1256

1255

1290

1404

1551

1598

177.mesa

1665

1669

1666

1802

1401

1342

1426

178.galgel

2092

2234

2230

2333

3132

2472

2564

179.art

1307

1881

1877

1916

2215

1366

1363

183.equake

1338

1337

1334

1382

1424

1700

1741

187.facerec

1746

1784

1781

1872

1840

1947

2028

188.ammp

1238

1511

1508

1618

1472

1090

1137

189.lucas

1910

1902

1898

1944

1787

2175

2174

191.fma3d

1471

1457

1455

1538

1347

1439

1505

200.sixtrack

598

604

600

657

641

583

554

301.apsi

1181

1450

1446

1546

1320

1277

1328

Gesamt

1427

1517

1514

1592

1566

1524

1570

Im folgenden Diagramm finden Sie das Gesamtergebnis des SPEC-CPU2000-Integer-Benchmarks übersichtlich im grafischen Vergleich:

Analyse: Floating Point

AMDs Athlon 64 FX-55 münzt seine Taktfrequenzerhöhung in eine insgesamt 5,2 Prozent höhere Fließkomma-Performance um. In einzelnen Fällen wie der 3D-Grafikbibliothek 177.mesa skaliert die Performance direkt mit der höheren Taktfrequenz von 8,3 Prozent. Der Athlon 64 4000+ liefert wieder erwartungsgemäß die Leistung des Athlon 64 FX-53 - beide CPUs sind bis auf die Bezeichnung identisch.

Der Athlon 64 3800+ mit 512 KByte L2-Cache ist um durchschnittlich sechs Prozent langsamer als der Athlon 64 4000+ und FX-53 mit 1 MByte L2-Cache. Die Taktfrequenz von 2,4 GHz und die Speicherkonfiguration ist bei diesen Socket-939-CPUs identisch. Im Extremfall wie bei der Bilderkennung der Anwendung 179.art bremst der kleinere Cache sogar um 30 Prozent. Viele wiederholt benötigte Datensätze kann der 512-KByte-Cache nicht mehr bereithalten, die 1-MByte-Version dagegen schon. Wie bei den Integer-Anwendungen gibt es aber auch im Fließkommabereich Fälle, in denen der Athlon 64 durch den kleineren Cache schneller ist.

Der Athlon 64 FX-53 für den Socket 939 ist bei den Fließkommaberechnungen insgesamt wieder schneller als die 940er-Version. Wie bei den Integer-Benchmarks obliegt der Athlon 64 FX-53 S940 dem Nachteil der langsameren Registered DIMMs. Pro Speicherzugriff ist ein zusätzlicher Taktzyklus für die Signalaufbereitung erforderlich. Deutlich wird dieses Ergebnis bei der speicherintensiven Berechnung von Flüssigkeitsströmungen der Anwendung 178.galgel. Überwiegend im Cache ablaufende Applikationen sind dagegen in beiden Sockel-Versionen gleich schnell.

Die AMD64-CPUs sind mit den Pentium-4-optimierten -QxW-Compiler-Einstellungen teilweise deutlich schneller als mit -QxK (ohne SSE2). Besonders das Programm 178.galgel, das Flüssigkeitsströmungen berechnet, profitiert mit über 40 Prozent Performance-Gewinn, wenn SSE2 genutzt wird.

Bei den speicherintensiven Fließkommaberechnungen arbeitet der Pentium 4 550 mit DDR2-533 um durchschnittlich vier Prozent schneller als die 3,40-GHz-Variante mit DDR400. Die Floating-Point-Benchmarks führen viele 128-Bit-SSE-Zugriffe durch. Wegen der längeren Bursts im Vergleich zu 32-Integer-Befehlen macht sich die höhere Latenzzeit des DDR2-533-Speichers weniger bemerkbar. So liest die CPU beispielsweise in der Flachwasser-Simulation 171.swim mit einem 1335 x 1335 großen Datenarray eine Vielzahl von Datenblöcken im Burst-Modus aus. DDR2-533-SDRAM erwirkt hier sogar einen Performance-Vorteil von 26 Prozent gegenüber DDR400-Speicher.

Den Pentium 4 3,40 GHz Extreme Edition beschleunigt DDR2-Speicher dagegen weniger, wie der Vergleich der Socket-478- und LGA775-Version zeigt. Der 2 MByte großer L3-Cache der CPU puffert bereits genügend Speicherzugriffe ab.

Durch die bei den Testläufen verwendete Compiler-Option -QxW profitiert der Pentium 4 mit Prescott-Core nicht von SSE3. Die insgesamt 12 Prozent höhere Performance des Pentium 4 3,40E GHz gegenüber dem 3,40-GHz-Northwood (13 Prozent bei den 3,20er Versionen) resultiert hier wieder aus den größeren Caches sowie seiner verbesserten Sprungvorhersage. Wie bei den Integer-Anwendungen gibt es aber auch hier Fälle, in denen der Prescott langsamer ist.

Der 2 MByte große L3-Cache beschleunigt die Extreme Edition gegenüber einem mit gleicher Taktfrequenz arbeitenden Northwood um zirka 20 Prozent. Die Bilderkennung der Anwendung 179.art geht mit der Extreme Edition sogar um zirka 152 Prozent schneller vonstatten als beim Pentium 4 Northwood. Der L3-Cache hält das Gros der wiederholt benötigten Daten bereit. Bei dieser Anwendung profitiert auch der Pentium 4 3,40E GHz von seinem 1 MByte großen L2-Cache und ist um 45 Prozent schneller als der Northwood-Core mit 512 KByte L2-Cache.

Ergebnisse: Compiler-Vergleich

Intel bietet seit Dezember 2003 die achte Generation seiner Compiler für C++ und Fortran an. Die Compiler der Version 8.0 erzeugen unter anderem optimierten Code für den Pentium 4, Pentium 4 Prescott und auch den Pentium M.

Um den Performance-Unterschied zwischen Intels Compiler-Version 7.1 und 8.0 zu ermitteln, nutzen wir für den CPU2000-Benchmark jeweils die Option -QxW. Mit dieser Pentium-4-optimierten Einstellung (SSE2) testen wir die 3,20-GHz-Varianten des Northwood und Prescott sowie den Athlon 64 FX-53 Socket 940. Zusammen mit den Intel-Compilern verwenden wir das erforderliche Microsoft Visual Studio .NET 2002 Version 7.

In den Tabellen finden Sie die SPEC-CPU2000-Ergebnisse des Pentium 4 3,20 GHz und Pentium 4 3,20E GHz mit jeweils beiden Compiler-Versionen im Vergleich.

SPEC-CPU2000-Integer-Ergebnisse mit Intel-Compiler Version 7.1 und 8.0

Prozessor

Athlon 64 FX-53

Athlon 64 FX-53

Pentium 4 3,20 GHz

Pentium 4 3,20 GHz

Pentium 4 3,20E GHz

Pentium 4 3,20E GHz

Alle Angaben in Punkten. Höhere Werte sind besser Die Werte sind mit der Pentium-4-optimierten Compiler-Einstellung -QxW ermittelt

Core

AMD64

AMD64

Northwood

Northwood

Prescott

Prescott

Sockel

940

940

478

478

478

478

Compiler

V7.1

V8.0

V7.1

V8.0

V7.1

V8.0

Test

164.gzip

1317

1303

1203

1278

1017

1054

175.vpr

1306

1328

777

784

942

950

176.gcc

1289

1244

1542

1579

1692

1737

181.mcf

1145

1142

897

927

1068

1071

186.crafty

1636

1702

1198

1193

1169

1139

197.parser

1428

1494

1149

1219

1190

1239

252.eon

1739

1867

1399

1464

1312

1341

253.perlbmk

1589

1597

1429

1402

1513

1497

254.gap

1658

1662

1652

1640

1675

1694

255.vortex

2269

2404

2009

2353

2098

2480

256.bzip2

1294

1291

944

993

1012

1039

300.twolf

1461

1623

833

916

1134

1279

Gesamt

1487

1523

1204

1256

1280

1326

Insgesamt erwirken die Compiler der Version 8.0 bei Integer-Anwendungen eine Performance-Steigerung von vier Prozent - beim Northwood und Prescott. Beim Athlon 64 FX-53 sind es 2,4 Prozent. Im Einzelfall wie bei der in C programmierten objektorientierten Datenbank 255.vortex beschleunigt der 8.0er Compiler die Anwendung um 17 bis 18 Prozent. Allerdings gibt es auch Fälle mit einem leichten Geschwindigkeitseinbruch.

SPEC-CPU2000-Floating-Point-Ergebnisse mit Intel-Compiler Version 7.1 und 8.0

Prozessor

Athlon 64 FX-53

Athlon 64 FX-53

Pentium 4 3,20 GHz

Pentium 4 3,20 GHz

Pentium 4 3,20E GHz

Pentium 4 3,20E GHz

Alle Angaben in Punkten. Höhere Werte sind besser Die Werte sind mit der Pentium-4-optimierten Compiler-Einstellung -QxW ermittelt

Core

AMD64

AMD64

Northwood

Northwood

Prescott

Prescott

Compiler

V7.1

V8.0

V7.1

V8.0

V7.1

V8.0

Test

168.wupwise

1604

1591

1712

1733

1806

1820

171.swim

2163

2187

1884

2122

2021

2222

172.mgrid

1212

1208

1154

1195

1283

1285

173.applu

1198

1184

1268

1305

1392

1356

177.mesa

1663

1707

1328

1429

1265

1418

178.galgel

2133

2128

2091

2059

2389

2389

179.art

1802

1855

880

909

1295

1311

183.equake

1265

1495

1369

1531

1627

1713

187.facerec

1698

1811

1648

1696

1842

1857

188.ammp

1487

1199

827

791

1055

1019

189.lucas

1828

1811

1584

1706

1874

1872

191.fma3d

1424

1392

1260

1230

1359

1345

200.sixtrack

605

633

595

616

562

576

301.apsi

1427

1378

899

876

1167

1096

Gesamt

1475

1479

1251

1291

1419

1438

Bei den Floating-Point-Anwendungen der SPEC-CPU2000-Benchmark-Suite arbeiten die Intel-Prozessoren mit den 8.0er Compilern insgesamt um ein bis drei Prozent schneller. Die AMD64-CPU profitiert dagegen im Durchschnitt kaum vom neuen Compiler. Im Maximum steigert die Version 8.0 die Performance um 12 Prozent bei den Intel-CPUs, wie beim Prescott in der 3D-Grafik-Bibliothek 177.mesa. Der Athlon 64 FX-53 erfährt in der seismischen Wellensimulation der Anwendung 183.equake sogar eine Beschleunigung um 18 Prozent. Deutliche Geschwindigkeitseinbußen sind in Fällen wie bei Molekülberechnungen der Anwendung 188.ammp aber ebenfalls zu verzeichnen.

Ergebnisse: SSE2 vs. SSE3

Die Intel-Compiler C++ 8.0 und Fortran 8.0 erlauben bereits optimierte Einstellungen für den Pentium 4 Prescott. Mit der Compiler-Option -QxP wird spezieller SSE3-optimierter Code erzeugt, der nur auf Prescott-CPUs lauffähig ist.

Zusätzlich kompilieren wir für den Prescott die SPEC-Programme mit den 8.0er Compilern mit der bekannten Option -QxW. Mit -QxW erzeugen die Compiler optimierten Code für den Pentium 4 und dessen SSE2-Unterstützung. Durch den Vergleich beider Compiler-Optionen ermitteln wir beim Pentium 4 Prescott den direkten Vorteil von SSE3.

In der SPEC-CPU2000-Benchmark-Suite machen laut Intel drei Floating-Point-Anwendungen starken Gebrauch von komplexen arithmetischen Funktionen. Von den 13 neuen Befehlen der SSE3-Erweiterung dienen fünf zum Beschleunigen komplexer Arithmetik: addsubps, addsubpd, movsldup, movshdup und movddup. Details zu diesen Befehlen finden Sie in unserem Grundlagen-Artikel zum Prescott.

Bei der SPEC-CPU2000-Benchmark-Suite nutzen die 8.0er Compiler diese SSE3-Befehle für die Anwendungen 168.wupwise, 189.lucas und 187.facerec. Das mit Fortran erstellten 168.wupwise führt Berechnungen aus dem Bereich der Quanten-Chromodynamik durch. Dabei kommen komplexe Matrix-Multiplikationen zum Einsatz. Während die Anwendung 189.lucas Mersenne-Primzahlen ermittelt, führt 187.facerec eine Bildbearbeitung zur Gesichtserkennung durch. Beide Anwendungen verwenden Fast-Fourier-Transformationen.

Die Tabelle zeigt die SPEC-CPU2000-Floating-Point-Ergebnisse des Pentium 4 3,20E GHz mit den Compiler-Optionen -QxW und -QxP im Vergleich.

SPEC-CPU2000-Floating-Point-Ergebnisse mit SSE2 (-QxW) und SSE3 (-QxP)

Prozessor

Pentium 4 3,20E GHz

Pentium 4 3,20E GHz

Optionen: -QxW = optimiert für Pentium 4, lauffähig auf Pentium 4 Prescott. -QxP = optimiert für den Pentium 4 Prescott.

Core

Prescott

Prescott

Compiler

V8.0

V8.0

Option

-QxW (SSE2)

-QxP (SSE3)

Test

168.wupwise

1820

2271

171.swim

2222

2222

172.mgrid

1285

1284

173.applu

1356

1354

177.mesa

1418

1417

178.galgel

2389

2406

179.art

1311

1307

183.equake

1713

1718

187.facerec

1857

1879

188.ammp

1019

1022

189.lucas

1872

1878

191.fma3d

1345

1378

200.sixtrack

576

575

301.apsi

1096

1097

Gesamt

1438

1465

Im Fall der Anwendung 168.wupwise erwirkt die SSE3-Erweiterung des Pentium 4 3,20E GHz einen Performance-Vorteil von 25 Prozent. Diese Steigerung übertrifft sogar die Angabe von Intel, die bei dieser Anwendung eine 10 bis 15 Prozent höhere Performance durch SSE3 angeben. Allerdings basieren die Intel-Angaben wohl auf einen bereits besser SSE2-optimierten -QxW-Code. Bei den ebenfalls von Intel genannten Anwendungen 187.facerec und 189.lucas bleibt der Vorteil durch SSE3 aber im Bereich von einem Prozent.

32-Bit-Transfer

Die Cache- und Speicher-Performance der Prozessoren überprüfen wir mit unserem Programm tecMem aus der tecCHANNEL Benchmark Suite Pro. tecMem misst die effektiv genutzte Speicherbandbreite zwischen der Load/Store-Unit der CPU und den unterschiedlichen Ebenen der Speicherhierarchie (L1-, L2-Cache und RAM). Die Ergebnisse erlauben eine getrennte Analyse von Load-, Store- und Move-Operationen.

64-Bit-Transfer

Hier testen wir mit tecMem die Performance mit den 64-Bit-Load und -Store-Kommandos aus dem MMX-Befehlssatz. Die Transferrate ist hier schon deutlich höher als bei den 32-Bit-Kommandos, da die CPU mit jedem Befehl mehr Daten transferieren kann.

128-Bit-Transfer

Mit den 128-Bit-SSE-Befehlen lässt sich die maximale Cache- und Speicher-Performance ermitteln, die eine CPU erreichen kann.

SYSmark2002

Im täglichen Einsatz ist die Performance bei Standardanwendungen am wichtigsten. Dazu gehören nicht nur Programme wie Word und Excel, sondern auch MPEG-Encoder, 3D-, Video- und Sound-Software. Die Leistungsfähigkeit der Prozessoren überprüfen wir mit dem Benchmark-Paket SYSmark2002, das ein Mix aus den genannten Programmen ist.

Interessant ist SYSmark2002 auch deshalb, weil AMD dem Programm eine heimliche und praxisferne Optimierung zu Gunsten des Pentium 4 und seines SSE2-Befehlssatzes nachsagt. Mit den Athlon-64-Prozessoren sollte dieser Vorteil für Intel entfallen - wenn AMD ganze Arbeit bei seinen neuen CPUs geleistet hat.

SYSmark2002 soll auch das parallele Arbeiten mit mehreren Programmen gleichzeitig simulieren. Der Tester hat so jedoch keinen Überblick, welches Programm einer CPU nun besonders zu schaffen macht. Aus welchen Einzelwerten sich die beiden Ergebnisse für Office Productivity und Internet Content Creation errechnen, bleibt deshalb das Geheimnis der BAPCo.

Die klassischen 2D-Anwendungen für den Bürobereich profitieren fast ausschließlich von der Integer-Performance einer CPU. Diese Software-Sparte repräsentiert der Testblock Office Productivity von SYSmark 2002.

Immer größer wird die Zahl der Sound- und Grafikprogramme, die wie Spiele eine schnelle FPU oder Befehlserweiterungen wie MMX, SSE oder 3DNow! bevorzugen. Die Anwendungen im Testblock Internet Content Creation von SYSmark2002 unterstützen überwiegend SSE2.

SYSmark2004

Mit dem Benchmark-Paket SYSmark2004 bietet BAPCo den Nachfolger von SYSmark2002 an. Die Suite verwendet 17 aktualisierte Anwendungen und merzt Kritikpunkte des Vorgängers aus. So öffnet SYSmark2004 nicht nur mehrere Programme gleichzeitig, sondern lässt die Applikationen auch im Hintergrund arbeiten. Somit profitieren Dual-Prozessor-Systeme stärker von der zweiten CPU. Auch der Vorteil von Intels Hyper-Threading-Technologie sollte beim SYSmark2004 stärker zum Tragen kommen.

Beim SYSmark2002 kritisierte AMD auch eine mangelnde Unterstützung der Athlon-XP-Prozessoren. Script-Funktionen, bei denen die AMD-Prozessoren besonders gut zur Geltung kommen, seien in der 2002er Version nicht enthalten. Das nachzuvollziehen ist jedoch auf Grund des geschlossen Systems von SYSmark2002 kaum möglich. Seit August 2002 ist AMD deshalb dem Benchmark-Konsortium BAPCo beigetreten um aktiv neue Versionen von SYSmark mitzuentwickeln. Damit befindet sich neben Intel ein zweiter x86-Prozessor-Hersteller im Gremium.

Beim SYSmark2004 legt BAPCo auch offen, wie die Ergebnisse der einzelnen Applikationen prozentual in das Gesamtergebnis einfließen. Neben einem Gesamtwert für die Systemleistung bietet SYSmark2004 detaillierte Ergebnisse in den Kategorien Office Productivity und Internet Content Creation an.

Von Hyper-Threading profitieren die Pentium-4-CPUs mit 11 (Northwood) bis 13 Prozent (Prescott) deutlich stärker als beim SYSmark2002 mit durchschnittlich drei Prozent. So liegt der Pentium 4 3,40 GHz Extreme Edition bei deaktiviertem HT mit 181 Punkten unter dem Niveau des Athlon 64 FX-53. Der 3,20-GHz-Prescott erreicht ohne Hyper-Threading nur 167 Punkte und liegt nur knapp über dem Athlon 64 3200+.

SYSmark2004: Office Productivity

Der Workload Office Productivity in SYSmark2004 verwendet insgesamt 10 verschiedene Applikationen. Hierzu zählen Microsofts Word, Excel, PowerPoint, Access und Outlook in der Version 2002, McAfee VirusScan 7.0, ScanSoft Dragon Naturally Speaking 6, WinZip 8.1, Adobe Acrobat 5.0.5 sowie der Internet Explorer 6.0.

Neben einem Gesamtwert für die Office-Performance erstellt SYSmark2004 zusätzlich die Kategorien Communications, Document Creation und Data Analysis. Hier fast SYSmark2004 jeweils verschiedene Szenarien zusammen.

Im Szenario Communications erhält der Anwender eine E-Mail in Outlook 2002 mit einem mehrere Dokumente enthaltender zip-Datei als Anhang. Während des Lesens der E-Mail und aktualisieren des Kalenders scannt VirusScan 7.0 das System. Mit dem Internet Explorer werden dann verschiedene Webseiten und Dokumente begutachtet.

Die Kategorie Document Creation befasst sich mit dem Editieren eines Dokuments in Word 2002. Mit NaturallySpeaking wird eine Audio-Datei in ein Dokument übersetzt und anschließend in ein Format für den Acrobat Reader konvertiert. Weiterhin erstellt das SYSmark2004-Script eine PowerPoint-Präsentation.

Mit Datenbankabfragen in Access beginnt das Szenario Data Analysis. Im weiteren Verlauf komprimiert Winzip 8.1 eine Vielzahl von Dokumenten. Die Ergebnisse der Datenbank-Abfragen portiert SYSmark2004 in Excel und erstellt darin Grafiken.

SYSmark2004: Internet Content Creation

Im Workload Internet Content Creation von SYSmark2004 sind Prozessoren mit schnellen FPUs im Vorteil. Die Anwendungen im diesem Testblock unterstützen zudem im hohen Maße SSE2 und Multiprocessing. Zu den Applikationen des Workloads Internet Content Creation zählen Macromedia Dreamweaver und Flash MX, Discreet 3ds max 5.1, Adobe AfterEffects 5.5, Photoshop 7.0.1 und Premiere 6.5, Microsofts Windows Media Encoder 9, WinZip 8.1 sowie McAfee VirusScan 7.0.

SYSmark2004 ermittelt neben dem Workload-Gesamtwert zusätzlich die Performance in den Subkategorien 2D Creation, 3D Creation und Web Publication. Hier fast SYSmark2004 wieder jeweils verschiedene Szenarien zusammen.

Im Szenario 2D Creation wird mit Premiere 6.5 ein Video aus verschiedenen unkomprimierten Sequenzen zusammengeschnitten und exportiert. Parallel importiert Photoshop ein gerendertes Bild und modifiziert es. Nach dem Exportieren des Videos fügt After Effects spezielle Effekte hinzu.

In der Kategorie 3D Creation rendert SYSmark2004 mit 3ds max 5.1 Script-gesteuert ein 3D-Modell und erzeugt daraus ein Bitmap. Gleichzeitig werden mit Dreamweaver Webseiten aufbereitet. Abschließend erfolgt das Rendern einer 3D-Animation.

Bei der Web Publication entpackt das SYSmark2004-Script ein Archiv mit WinZip. Parallel öffnet, modifiziert und exportiert Flash MX eine 3D-Vektor-Grafik. Das Video aus der 2D Creation wird mit dem Windows Media Encoder 9 komprimiert. Mit Dreamweaver bearbeitet das Script Webseiten, VirusScan überprüft das System auf Viren.

Lightwave 3D

Das 3D-Programm Lightwave 3D 7.5 von NewTek ist für den Pentium 4 optimiert. Laut NewTek betrifft das speziell den SSE2-Befehlssatz. Neben Intel-CPUs werden auch die AMD-Prozessoren besonders unterstützt. NewTek selbst hat die Athlon-Prozessoren für Lightwave 3D bereits im März 2001 zertifiziert. Von der SSE2-Optimierung in Lightwave 3D sollten auch die Athlon-64-CPUs profitieren.

CINEBENCH 2000

Cinema 4D XL von Maxon ist ein professionelles 3D-Modelling- und Animationswerkzeug. Eigens für Performance-Tests entwickelte Maxon den CINEBENCH 2000. Er basiert auf Cinema 4D XL und führt Shading- und Raytracing-Tests durch. Die verwendete Version des Benchmarks unterstützt noch nicht den SSE2-Befehlssatz.

Beim Raytracing-Leistungstest fordert CINEBENCH 2000 besonders die FPU des Prozessors. Der Benchmark verwendet eine Szene, die stark von Anti-Aliasing, Schatten, Transparenzen und Spiegelungen Gebrauch macht. Die Leistungsfähigkeit der Grafikkarte und des Speichers spielt hier kaum eine Rolle.

Der OpenGL-Shading-Leistungstest von CINEBENCH 2000 beansprucht besonders die Grafikkarte. Der Benchmark verwendet drei Szenen: eine fraktale Landschaft mit einer steigenden Zahl von Polygonen sowie einen Kameraflug in einer Drahtgitterdarstellung und mit Texturen überzogen.

CINEBENCH 2003

Mit dem CINEBENCH 2003 stellt Maxon eine neue Version des bekannten Benchmark-Tools bereit. CINEBENCH 2003 basiert auf Cinema 4D Release 8 und führt wieder Shading- und Raytracing-Tests durch. Die aktuelle Version unterstützt nun SSE2 sowie Intels Hyper-Threading-Technologie. Intel selbst unterstützte Maxon bei der Optimierung von Cinema 4D.

Der Raytracing-Test von CINEBENCH 2003 überprüft die Render-Leistung des Prozessors. Eine Szene "Daylight" wird mit Hilfe des Cinema-4D-Raytracers berechnet. Sie enthält 35 Lichtquellen, wovon 16 mit Shadowmaps behaftet sind und so genannte weiche Schatten werfen. Bei dem FPU-lastigen Test spielt die Leistungsfähigkeit der Grafikkarte eine untergeordnete Rolle.

Der Leistungstest OpenGL-HW von CINEBENCH 2003 führt zwei Animationen mit Hilfe der OpenGL-Beschleunigung der Grafikkarte aus. Die Animation "Pump Action" besteht aus 37.000 Polygonen in 1046 Objekten, in der zweiten Szene "Citygen" sind zwei Objekte mit insgesamt 70.000 Polygonen enthalten.

Beim Leistungstest OpenGL-SW übernimmt Cinema 4D zusätzlich die Berechnung der Beleuchtung.

SPECapc

3D Studio Max 5 von Discreet/Autodesk ist eine professionelle Software für 3D-Modellierung, Animation und Rendering. Um die Leistungsfähigkeit von 3D Studio Max auf verschiedenen Hardware-Plattformen standardisiert testen zu können, gibt es vom Benchmark-Konsortium SPEC das Benchmark-Paket SPECapc for 3ds max 5. Die umfangreichen Tests von SPECapc spiegeln die typischen Berechnungen bei der Erstellung von Animationen wider. Dabei wird die CPU- und Grafikleistung getrennt bewertet und aufgelistet.

Bei der Bewertung der Grafikleistung nutzt der Benchmark die OpenGL-Beschleunigung der Grafikkarte voll aus.

SPECviewperf 7.1

Die Leistungsfähigkeit von OpenGL-Anwendungen verifizieren wir mit dem SPECviewperf 7.1 der SPECopc. Schließlich sehen sowohl Intel als auch AMD ihre Highend-Sprösslinge gerne im professionellen Workstation-Markt. Das CAD-Paket beinhaltet sechs verschiedene Tests. Besonders die Anwendung Lightscape Viewset (light-06) nutzt die OpenGL-Beschleunigung der Grafikkarte voll aus. Das Lightscape Visualization System von Discreet Logic kombiniert proprietäre Radiosity-Algorithmen mit einem physikalisch basierenden Beleuchtungssystem.

Alle Einzelergebnisse des SPECviewperf 7.1 finden Sie in der Tabelle:

SPECviewperf 7.1

3dsmax-02

drv-09

dx-08

light-06

proe-02

ugs-03

Höhere Werte sind besser.

Athlon 64 3000+ 512K L2 DDR400

16,4

66,5

83,2

15,4

15,2

9,0

Athlon 64 3200+ 1M L2 DDR400

16,4

67,0

83,2

15,4

15,2

9,0

Athlon 64 3400+ 1M L2 DDR400

17,2

66,8

87,1

16,6

15,6

9,1

Athlon 64 3800+ S939 DualDDR400

19,0

98,9

101,7

19,0

20,5

9,3

Athlon 64 4000+ S939 DualDDR400

19,0

100,0

102,0

18,9

20,5

9,3

Athlon 64 FX-51 DualDDR400

17,2

84,3

93,1

17,0

18,1

9,1

Athlon 64 FX-53 DualDDR400

18,6

86,6

98,3

18,2

18,6

9,1

Athlon 64 FX-53 S939 DualDDR400

19,0

99,9

101,7

18,9

20,5

9,3

Athlon 64 FX-55 S939 DualDDR400

19,8

103,5

107,7

20,3

21,1

9,3

P4 3,20 E GHz DualDDR400

18,6

82,7

104,1

18,6

19,4

9,5

P4 3,20 GHz DualDDR400

18,2

73,5

101,6

17,4

18,0

9,2

P4 3,20 XE GHz DualDDR400

18,2

73,5

101,7

17,4

18,1

9,2

P4 3,40 E GHz DualDDR400

19,1

84,0

107,2

19,5

19,7

9,6

P4 3,40 GHz DualDDR400

18,7

74,9

104,7

18,1

18,3

9,2

P4 3,40 XE GHz DualDDR2-533

18,8

75,8

106,9

18,0

18,6

9,2

P4 3,40 XE GHz DualDDR400

18,8

74,9

104,8

18,1

18,4

9,2

P4 530 3,00 GHz DualDDR2-533

17,7

82,0

99,9

17,3

18,6

9,5

P4 540 3,20 GHz DualDDR2-533

18,6

85,0

106,0

18,8

19,0

9,5

P4 550 3,40 GHz DualDDR2-533

19,1

85,9

109,6

19,5

19,2

9,6

P4 560 3,60 GHz DualDDR2-533

19,6

87,3

112,2

20,3

19,4

9,7

GLmark

GLmark 1.1p von Vulpine ist ein weiterer OpenGL-Benchmark. Er erlaubt dank seiner ausführlichen Benchmark-Statistik einen detaillierten Vergleich der verschiedenen CPUs. Wir testen mit den optimalen Einstellungen für die verwendete Hardware und denen für die höchste Darstellungsqualität.

3DMark2001

Gerade im 3D-Bereich verlangt der Anwender immer mehr Rechenleistung. Um dieses Ziel zu erreichen, müssen die eingesetzten Komponenten optimal aufeinander abgestimmt sein. Dazu zählen Prozessor, Speicher, Grafikkarte und der verwendete Chipsatz. Da große Mengen an Daten anfallen, können das Speicher- oder Grafik-Interface schnell ihr Bandbreiten-Limit erreichen und das System empfindlich bremsen.

Die 3D-Performance ermitteln wir unter anderem mit 3DMark2001 SE Pro von Futuremark. Durch die umfangreichen 3D-Tests bietet der Benchmark einen guten Anhaltspunkt für die Leistungsfähigkeit von Prozessoren und Chipsätzen bei anspruchsvollen 3D-Anwendungen.

3DMark03

Mit dem 3DMark03 präsentiert die in Futuremark umbenannte MadOnion.com den Nachfolger von 3DMark2001. Die Spieletests von 3DMark03 setzen sich aus vier Szenen zusammen: "Wings of Fury" setzt auf DirectX 7 und repräsentiert Lowend-Grafikanwendungen. Die beiden Tests "Alpha Squadron" und "Troll's Lair" nutzen DirectX-8-Features und sind auf Mainstream-Grafikkarten zugeschnitten. Der Test "Nature II" setzt DirectX 9 voraus und soll Highend-Grafikkarten ausreizen. Der AGP- und der Speicherbus werden beim 3DMark03 durch große Mengen an Texturen stark belastet.

Simulation: Molecular Dynamics

Die Benchmark-Suite Science Mark 2.0 bietet unterschiedliche Berechnungen aus dem mathematischen und physikalischen Bereich. Über die Simulation der Molecular Dynamics untersucht man das thermodynamische Verhalten von Materialien. Science Mark erlaubt die Simulation von fünf Edelgasen in drei verschiedenen kristallgrafischen Konfigurationen mit einer variablen Anzahl von Atomen bei einer wählbaren Temperatur.

Die Berechnungen der Simulation basieren auf komplexen mathematischen Formeln und fordern die CPUs in hohem Maße.

Simulation: Primordia

Die Primordia-Simulation (Lateinisch: Uranfang, Atom) aus der Science-Mark-Benchmark-Suite berechnet die atomaren Umlaufbahnen jedes Elektrons für beliebige Elemente des Periodensystems. Für die Kalkulation verwendet Science Mark eine eingeschränkte Hartee-Fock-Methode. Als Ergebnis wird die Gesamtenergie der Elektronen eines Atoms ausgegeben.

Um die Leistungsfähigkeit der Prozessoren bei den komplexen Berechnungen einzuordnen, gibt Science Mark die benötigte Simulationszeit an.

Encryption

Das US-Handelsministerium hat im Dezember 2001 grünes Licht für das symmetrische Kryptographie-Verfahren AES (Advanced Encryption Standard) gegeben. AES ist der Nachfolger von DES und nutzt Schlüssellängen von 128, 192 und 256 Bit.

Die Verschlüsselung übernimmt der RIJNDAEL-Algorithmus, der eine variable Block- und Schlüssellänge nutzt. In der Benchmark Suite Science Mark 2.0 ermittelt der AES-Test den Durchsatz an verschlüsselten Daten in MByte/s.

IPC steht für Instructions per clock. Der Wert gibt an, wie viele Befehle ein Prozessor pro Taktzyklus gleichzeitig abarbeiten kann. Je höher der Wert ist, desto effizienter ist die Architektur. Bei deutlich geringerer Taktfrequenz erreichen die AMD-CPUs in diesem Test eine höhere Performance.

SSE-Performance

Eine detaillierte Analyse der SSE-Performance erlaubt die Benchmark-Suite Science Mark 2.0. Hier werden Matrizen mit einer Größe von bis zu 1536 x 1536 berechnet. Die Matrizen-Multiplikation mit einfacher Genauigkeit ermittelt dabei die MFLOPS des Prozessors. Die Multiplikation nutzt die SSE-Unterstützung der CPUs.

Zusätzlich ermittelt der Benchmark die durchschnittliche Anzahl von FLOPS pro Taktzyklus. Bei Prozessoren wird in diesem Zusammenhang gerne auf den IPC-Wert verwiesen. Damit lässt sich eine Aussage über die Effizienz der Architektur treffen.

SSE2-Performance

Die Benchmark-Suite ScienceMark 2.0 erlaubt auch eine dezidierte Analyse der SSE2-Performance der Prozessoren. Jetzt werden die bis zu 1536 x 1536 großen Matrizen mit doppelter Genauigkeit berechnet. Die Matrixmultiplikation ermittelt wieder die MFLOPS des Prozessors und nutzt die SSE2-Unterstützung der CPUs.

Zusätzlich ermittelt der Benchmark die durchschnittliche Anzahl von FLOPS pro Taktzyklus. Bei Prozessoren wird in diesem Zusammenhang gerne auf den IPC-Wert verwiesen. Damit lässt sich eine Aussage über die Effizienz der Architektur treffen.

SSE3-Performance

Seit dem Launch von Intels Prescott-Prozessoren im Februar 2004 sind Anwendungen mit SSE3-Unterstützung noch immer dünn gesät. Neben Intels C++- und Fortran-Compilern der Version 8.0 nutzt MainConcepts MPEG Encoder ab der Version 1.4.1 die SSE3-Befehle.

Bei Video-Encodern sollte die Funktion Motion Estimation von SSE3 profitieren. Bei der Motion Estimation werden Blöcke des aktuellen mit den Bereichen des vorherigen Frames verglichen um das beste Ergebnis zu finden. Um für diese Funktion ein effizienteres Cache-Handling zu ermöglichen, gibt es den SSE3-Befehl lddqu. Der Befehl kann einen 128-Bit-Wert schnell aus dem Speicher in ein Register laden, auch wenn er nicht auf eine 16-Byte-Grenze zugeordnet ist. In diesem Fall lädt lddqu automatisch die zwei betroffenen Cache-Lines und extrahiert die gewünschten 16 Byte.

Während wir bei den SPEC-CPU2000-Benchmarks mit SSE3 ein Geschwindigkeitsplus von maximal 25 Prozent feststellen konnten, fällt das Ergebnis beim MPEG Encoder mager aus. Beim Komprimieren einer AVI-Datei in einem MPEG2-Stream konnten wir mit "gutem Willen" eine ein Prozent höhere Performance messen. Als Vergleich dient uns die MainConcept-MPEG-Encoder-Version 1.3.1, die SSE3 noch nicht unterstützt. Ein Pentium 4 3,20 GHz mit Northwood-Core erzielte in beiden Encoder-Versionen die gleichen Ergebnisse wie der 3,20-GHz-Prescott.

Fazit

Bei den typischen Benchmark-Tests geht es stets darum, wer den Performance-Balken ganz oben in den Diagrammen besitzt. AMDs neuer Athlon FX-55 mit 2,6 GHz Taktfrequenz gewinnt in dieser Runde deutlich die Oberhand. Auch Prestige-trächtige Disziplinen wie den SPEC CPU2000 entscheidet der FX-55 nun für sich. Bisher war dies eine Paradedisziplin von Intels Pentium 4 3,40 GHz Extreme Edition mit seinem 2 MByte großen L3-Cache.

Der ebenfalls neue Athlon 64 4000+ überrascht nur mit seinem neuen Namen. Die CPU wurde bisher als Athlon 64 FX-53 für den Socket 939 verkauft. Entsprechend gleichen die Benchmark-Ergebnisse des 4000er denen des FX-53. So wechselt der Athlon 64 4000+ je nach Benchmark die Spitzenposition munter mit Intels Pentium 4 3,40 GHz Extreme Edition. Im Prinzip sind sich die Prozessoren ebenbürtig. Der Pentium 4 560 mit 3,60 GHz Taktfrequenz bietet im Durchschnitt ebenfalls eine identische Performance.

Dieses "Wer ist der Schnellste"-Spielchen wird oft so wichtig genommen, dass die überzogenen Preise für die Highend-CPUs schnell außer acht gelassen werden. Wer bitte kauft für 1000 Euro einen Pentium 4 3,40 GHz Extreme Edition, auch 800 Euro für einen Athlon 64 FX-55 entbehren jeglicher Realität (typische Straßenpreise, Stand: 19.10.04). Auch der Athlon 64 4000+ ist mit 640 Euro nicht wirklich preisgünstig. Da mutet der Pentium 4 560 mit zirka 450 Euro schon fast als Schnäppchen an.

Natürlich, diese CPUs von AMD und Intel sind veritable Vorzeigeprodukte, um das technisch Machbare zu zeigen. Aber in den Firmen-PCs oder auch in heimischen Rechnern landen Prozessoren zu einem vernünftigen Preis. Und hier handelt es sich um die "normalen" Athlon 64 sowie die "normalen" Pentium-4-CPUs. Die liegen in Preisregionen von 200 bis 300 Euro - viel Geld, aber dafür erhält man noch ordentliche Leistung.

So arbeitet AMDs Athlon 64 3400+ im Prinzip mit der identischen Performance wie der Hauptkonkurrent Pentium 4 550 mit 3,40 GHz Taktfrequenz - beide kosten zirka 280 Euro. Die Aufpreise für den FX oder die Extreme Edition sollte man sich daher sparen und lieber in andere Komponenten investieren. (cvi)

Testkonfiguration

Hardware-Konfiguration

CPU

AMD Athlon 64 3800+, 4000+, FX-53, FX-55 (Socket 939)

Mainboard

MSI MS-6702E, VIA K8T800 Pro, Bios: V3.0B10

Speicher

2x Corsair CMX512-3200LL CL2

Grafikkarte

MSI GeForce 6800 GT, Treiber: 61.34

SCSI

Adaptec AHA-2940UW Pro

Laufwerk

Seagate ST336705LW SCSI

Sound

Aureal Vortex 2

CPU

AMD Athlon 64 3000+, 3200+, 3400+ (Socket 754)

Mainboard

MSI K8T Neo, VIA K8T800, Bios: V1.1 vom 24.10.2003

Speicher

2x Corsair CMX512-3200LL CL2

Grafikkarte

MSI GeForce 6800 GT, Treiber: 61.34

SCSI

Adaptec AHA-2940UW Pro

Laufwerk

Seagate ST336705LW SCSI

Sound

Aureal Vortex 2

CPU

AMD Athlon 64 FX-51, FX-53 (Socket 940)

Mainboard

MSI K8T Master1, VIA K8T800, Bios: V1.3B1 vom 20.02.2004

Speicher

2x Legacy Electronics PC3200 Registerd 512MB CL2.5

Grafikkarte

MSI GeForce 6800 GT, Treiber: 61.34

SCSI

Adaptec AHA-2940UW Pro

Laufwerk

Seagate ST336705LW SCSI

Sound

Aureal Vortex 2

CPU

Intel Pentium 4 2,80C, 3,00, 3,06 und 3,20 GHz

Mainboard

Intel D875PBZ R1, Intel 875P, Bios: BZ87510A.86A.0047.P12.0308210130

Speicher

2x Corsair CMX512-3200LL CL2

Grafikkarte

MSI GeForce 6800 GT, Treiber: 61.34

SCSI

Adaptec AHA-2940UW Pro

Laufwerk

Seagate ST336705LW SCSI

Sound

Aureal Vortex 2

CPU

Intel Pentium 4 3,20E und 3,40E GHz

Mainboard

Intel D875PBZ R1, Intel 875P, Bios: BZ87510A.86A.0084.B29.0312191351

Speicher

2x Corsair CMX512-3200LL CL2

Grafikkarte

MSI GeForce 6800 GT, Treiber: 61.34

SCSI

Adaptec AHA-2940UW Pro

Laufwerk

Seagate ST336705LW SCSI

Sound

Aureal Vortex 2

CPU

Intel Pentium 4 3,20XE, 3,40 und 3,40XE GHz

Mainboard

Intel D875PBZ R2, Intel 875P, Bios:

Speicher

2x Corsair CMX512-3200LL CL2

Grafikkarte

MSI GeForce 6800 GT AGP 8x, Treiber: 61.34

SCSI

Adaptec AHA-2940UW Pro

Laufwerk

Seagate ST336705LW SCSI

Sound

Aureal Vortex 2

CPU

Intel Pentium 4 530, 540, 550, 560 und 3,40XE GHz LGA775

Mainboard

Intel D925XCV, Intel 925X, Bios: CV92510A.86A.0159

Speicher

2x Corsair CM2X512-4300

Grafikkarte

NVIDIA GeForce 6800 GT PCI Express, Treiber: 61.34

SCSI

Adaptec AHA-2940UW Pro

Laufwerk

Seagate ST336705LW SCSI

Sound

Aureal Vortex 2