Erste Benchmarks von Hammer-Prototypen

06.06.2002 von Malte Jeschke und NICO ERNST, CHRISTIAN VILSBECK, MICHAEL ECKERT, BERNHARD HALUSCHAK 
Bei den Entwicklern sind erste Prototypen des kommenden 64-Bit-Athlon - Codename ClawHammer - eingetroffen. tecCHANNEL hat exklusiv ein Muster von AMDs achter CPU-Generation getestet.

For an English version click here

"Discover Performance - discover AMD". Mit diesem Slogan waren alle Werbematerialien von AMD auf der Computex 2002 in Taiwan verziert. Und zu entdecken gab es dort einiges - schließlich auch den Hammer selbst.

AMD hatte seine CPU namens "Hammer" Ende 2001 am Rande von Intels IDF bereits gezeigt. Sie soll als Desktop-Prozessor (Codename ClawHammer) und als Serverversion (Produktname Opteron) auf den Markt kommen. Zuerst ist der ClawHammer für Ende 2002 geplant.

Für diese CPU arbeiten neben AMD (8000-Serie) auch Ali (M1687), NVIDIA (nForce2), SiS (755) und VIA (K8-Serie) an Chipsätzen. Viel zu tun hat die Northbridge dabei nicht, da der Memory-Controller direkt im Prozessor sitzt. Bei so breitem Support für den ClawHammer war es für AMD denn auch nicht zu vermeiden, dass ein Hardware-Hersteller tecCHANNEL den Prozessor selbst begutachten ließ.

Details zum Core

Die Hammer-Prozessoren basieren auf einem Core der achten Generation. AMD führt damit seit dem K7-Core (aktuell als Palomino-Core) des Athlon erstmals wieder eine neue Architektur ein.

Die komplette Architektur des Hammer lässt sich in fünf Funktionsblöcke aufteilen: Prozessor-Core, L1-Daten- und Befehls-Cache, L2-Cache, DDR-Memory-Controller sowie das HyperTransport-Interface. AMDs Hammer ist zudem multiprozessorfähig und verfügt über eine entsprechende Controller-Logik.

Der Hammer-Core bietet neun Ausführungseinheiten für Integer- und Floating-Point-Operationen. Darin ist eine SSE2-kompatible Einheit enthalten. Gefüttert werden die Ausführungseinheiten über drei unabhängige Befehlsdecoder-Pipes, die in den Schedulern enden.

Drei davon können je acht Einträge puffern und bedienen die sechs Integer-Units. Die drei Fließkomma-Einheiten versorgt ein 36 Einträge fassender vierter Scheduler.

Pipeline mit 32 Stufen

Beim Hammer setzt AMD auf eine mit 32 Stufen sehr tief ausgeführte Pipeline, in der Cache- und Speicherzugriffe enthalten sind. Die Basis-Pipeline für die Befehlsdurchführung ist dabei zwölf Stufen tief. Insgesamt lässt sich die Hammer-Pipeline in vier Abschnitte mit den angegebenen Funktionen unterteilen:

Die ersten zwölf Pipeline-Stufen führt der Hammer innerhalb einer Nanosekunde aus. Diese Zeitangabe basiert auf einer CPU-Taktfrequenz von 2 GHz.

Für den L1-Cache gibt AMD eine Größe von je 64 KByte für Befehle und Daten an. Der 16fach assoziative L2-Cache kann bis zu 1 MByte groß sein.

Großzügig sind die TLBs ausgefallen: Der L1-Daten- und Befehls-TLB fasst je 40 Einträge und ist voll assoziativ ausgelegt. Die 4fach-assoziativen L2-TLBs können je 512 Einträge aufnehmen.

Integriertes Speicher-Interface

AMD hat dem Hammer einen integrierten Memory-Controller spendiert. Der Vorteil der Integration sind die geringeren Latenzzeiten bei Zugriffen auf Speicher, da der Umweg über eine "klassische" externe Northbridge umgangen wird. Durch den integrierten Memory-Controller steigt in Multiprozessor-Systemen auch der maximale Speicherausbau, weil jede CPU einen eigenen lokalen Speicher ansteuert. Untereinander tauschen die CPUs Daten via HyperTransport aus.

Der Memory-Controller des Hammer unterstützt ausschließlich DDR-SDRAM auf PC200-, PC266- sowie den bereits verfügbaren PC333-Modulen. Dabei können die DIMMs ungepuffert oder registered sein.

Das Interface des Memory-Controller bietet eine Datenbreite von 64 oder 128 Bit. Beim 128-Bit-Interface lassen sich bis zu acht registered DIMMs ohne zusätzliche Hardware direkt ansteuern. Support von Chipkill ECC ist vorhanden.

Betriebsmodi des Hammer

Die x86-64-Architektur von AMDs Hammer erweitert den x86-Standard um einen Long Mode getauften Modus. Über das globale Kontroll-Bit LMA (Long Mode Active) wird festgelegt, ob der Prozessor im 64-Bit-Modus arbeiten soll. Steht das LMA-Bit auf 0, verhält sich die Hammer-CPU wie ein normaler x86-Prozessor. Die CPU befindet sich dann im so genannten Legacy Mode und ist voll kompatibel zu vorhandenen 16- und 32-Bit-Betriebssystemen und -Anwendungen. Die 64-Bit-Features des Hammer sind komplett deaktiviert.

Der Long Mode der x86-64-Technologie (LMA = 1) beinhaltet zwei Untermodi: den 64-Bit-Mode und einen Compatibility Mode. Diese beiden Prozessorzustände werden über zwei weitere Flags gewählt: Der CS-Descriptor legt fest, ob Anwendungen in der 64-Bit-Umgebung im Compatibility Mode mit 16 oder 32 Bit laufen oder den 64-Bit-Mode nutzen.

Im 64-Bit-Mode bietet der Hammer folgende neue Features:

Beim Hammer hat AMD die Zahl der allgemeinen Register (GPRs) verdoppelt. Für 64-Bit-Berechnungen stehen die über das R-Präfix erweiterten ersten acht Register (RAX bis RSP) sowie die acht neuen Register R8 bis R15 zur Verfügung. Für Fließkomma-Berechnungen wurden außerdem die 128 Bit breiten SSE-Register mit XMM8 bis XMM15 verdoppelt. Diese sind nun SSE2-kompatibel.

Der Compatibility Mode des Hammer-Prozessors erlaubt unter 64-Bit-Betriebssystemen eine binäre Kompatibilität mit vorhandenen 16- und 32-Bit-Anwendungen. Die Programme müssen somit nicht neu kompiliert werden. Den 64-Bit großen Adressraum des Betriebssystems können diese Anwendungen aber nicht nutzen, sie bleiben auf 4 GByte beschränkt. Der Compatibility Mode wird dabei wie der 64-Bit-Mode vom Betriebssystem aktiviert.

HyperTransport-Interface

Bei HyperTransport handelt es sich um eine High-Speed-Verbindung für integrierte Schaltungen. Die HyperTransport-Technologie ist skalierbar und universell ausgelegt, um die Zahl unterschiedlicher Bussysteme innerhalb eines Systems zu verringern. Dabei kann AMDs neuer Bus I/O-Bausteine verbinden oder als Bussystem zwischen den CPUs eines Multiprozessorsystems dienen. Der Hammer-Prozessor verfügt über ein HyperTransport-Interface.

HyperTransport ist eine undirektionale Punkt-zu-Punkt-Verbindung. Für jede Datenrichtung gibt es somit eigene Signalleitungen. Die Datenbreite von HyperTransport ist dabei variabel: Sie kann in beiden Richtungen jeweils 2, 4, 8, 16 oder 32 Bit betragen. Verschickt werden die Daten paketweise mit einer Größe von 4 bis 64 Bytes.

Die HyperTransport-Technologie basiert auf einem differenziellen Bussystem, wie es auch LVD-SCSI (Ultra80, Ultra160 und Ultra320) verwendet. Somit werden für jedes Bit zwei Leitungen benötigt, die jeweils das Signal und das inverse Signal transportieren. Der Vorteil dieser Technik: Für die Datenübertragung genügen geringe Signalpegel. Beim HyperTransport-Bus sind pro Bit vier Daten-Pins notwendig, um das Signal in beiden Richtungen zu übertragen. HyperTransport kommt in zwei Ausführungen als I/O-Verbindung HTIO und mit der Bezeichnung HT als Bussystem zwischen Prozessoren.

Bei einem Takt von 400 MHz kann HyperTransport I/O 800 MBit/s pro Pin jeweils in beiden Richtungen übertragen. Die Variante für den CPU-Connect erlaubt Datenübertragungsraten von 1,6 GBit/s pro Pin. Ein 32 Bit breiter HyperTransport-CPU-Bus erreicht damit 6,4 GByte/s in jede Richtung. Bei dieser Busbreite sind dann allerdings schon 128 Daten-Pins erforderlich.

Neue Hammer-Sockel

Der Desktop-Prozessor ClawHammer wird im Socket 754 Platz nehmen. Für die Server- und Workstation-Version Opteron (Codename SledgeHammer) ist der Socket 940 vorgesehen. Die Namen beider Sockel basieren auf der Anzahl der Pins der Hammer-Prozessoren.

Dass der SledgeHammer 186 Pins mehr benötigt, liegt an seinem Dual-Channel-Speicher-Interface für DDR-SDRAM. Beide Sockeltypen sind in einer mPGA-Ausführung gefertigt.

Solo-2-Mainboard mit AMD-8000-Chipsatz

Das AMD-Board ist in einer normalen 4-Layer-Technik hergestellt und verwendet den Hammer-Chipsatz AMD-8000.

Die AMD-8151-Northbridge ist mit dem ClawHammer über einen 32 Bit breiten HyperTransport-Bus verbunden. Die Bandbreite zum Prozessor beträgt 6,4 GByte/s. Für die Grafikanbindung bietet der AMD-8151 bereits AGP 8X-Unterstützung.

Für die Peripherie zeichnet beim Solo-2-Mainboard der AMD-8111-I/O-Hub verantwortlich. Die Verbindung zur Northbridge übernimmt hier ein vier Bit breiter HyperTransport-Bus. Er erlaubt eine Bandbreite von 800 MByte/s. Neben den üblichen Standardschnittstellen wie zwei Ultra-ATA/100-Kanäle und AC97-Sound sind beim Solo 2 noch drei USB-2.0-Anschlüsse vorhanden.

Der ClawHammer findet auf dem Solo-2-Mainboard zwei DIMM-Sockel für DDR-SDRAM, das er über seinen integrierten Memory-Controller ansprechen kann. Bei den Modulen kann es sich wahlweise um PC200, PC266 oder um den neuen PC333-Speicher handeln.

Test-Hardware

Vielleicht hat AMD den Hammer auf der Computex ja ein bisschen zu heftig geschwungen und so sehr hohe Erwartungen geweckt. Die Texaner dürften sich über so frühe Benchmarks nicht gerade freuen. Wir haben uns dennoch entschlossen, sie zu veröffentlichen. Wir konnten ein System eine gute Stunde selbst nutzen und mit den Testkomponenten versehen. Weder bei der Konfiguration noch beim Test selbst traten irgendwelche Schwierigkeiten auf. Die Hardware im Prototypen-Stadium lief absolut stabil.

Andererseits veranstaltet AMD selbst - wenn der Hammer denn bis Dezember fallen sollte - seit einem Jahr Wirbel um die neue CPU. Da es sich dann um eine komplett neue Plattform handelt, will eine geplante Kaufentscheidung wohl überlegt sein. Sie anhand unserer Werte schon jetzt zu treffen, wäre dennoch verfrüht. Es handelte sich bei den getesteten Geräten um reine Prototypen, wie sie Ingenieure zum Entwickeln von Komponenten benutzen.

Als Grafikkarte kam eine GeForce3 mit dem Detonator-Treiber XP 28.32 zum Einsatz. Wir haben 256-MByte-DDR333-Speicher verwendet. Das Latency-Timing dafür betrug konservative 2,5-3-3, die anderen BIOS-Werte beließen wir in der Default-Einstellung. Die zum Vergleich herangezogenen Prozessoren haben wir mit ähnlicher Konfiguration getestet.

Das von uns zum Test verwendete Mainboard war ein AMD Solo 2 mit dem 8000-Chipsatz, der Prozessor ein ClawHammer mit 800 MHz. Er verfügte über je 64 KByte L1-Cache für Befehle und Daten, der L2-Cache war 256 KByte groß. Die Cache-Grössen hatte AMD-Vize Richard Heye am ersten Tag der Computex schon selbst bekannt gegeben.

Der getestete ClawHammer

Die mit tecMem und WCPUID gemessene Taktfrequenz entspricht den auf der Computex hinter vorgehaltener Hand kursierenden Werten - und auch diese Zahl hatte AMD-Vize Heye schließlich gegenüber der britischen News-Site "The Inquirer" bestätigt. Ob die dort zitierte Sperre gegen Übertakten bei unserem Test-Exemplar vorhanden war, ließ sich in der kurzen Zeit nicht überprüfen.

Laut der von uns verwendeten Software handelte es sich noch um ein "Stepping 0" der CPU. Da aber Windows XP Professional, das Test-OS, und die anderen Programme die CPU unmöglich kennen können, ist diese Angabe nicht sicher. Bis zur Markteinführung dürfte erfahrungsgemäss der ClawHammer noch mindestens ein weiteres Stepping erfahren.

Benchmarks

Bei dem von tecCHANNEL getesteten Prozessor und Mainboard handelt es sich um Prototypen. Die tatsächliche Performance der Serien-CPU ist infolge der beim Prototypen niedrigeren Taktfrequenz mit dieser Konfiguration lediglich zu erahnen. Außerdem konnten wir nur mit 32-Bit-Software testen. Der Test gibt daher keine Auskunft über die Performance mit 64-Bit-Software.

Die Testergebnisse erlauben lediglich Rückschlüsse darauf, was der ClawHammer mit 800 MHz im Vergleich zu einem Athlon MP mit 800 MHz bei 32-Bit-Software mindestens leisten könnte. Der ClawHammer wird in der getesteten Version und Taktfrequenz mit Sicherheit nicht erhältlich sein.

Quake III Arena 1.17

Wir haben aus der Reihe von Testergebnissen diejenigen ausgewählt, die uns sinnvoll erscheinen und veröffentlichen lediglich von Quake III Arena 1.17 genaue, jedoch gerundete Zahlenwerte.

Benchmark: Quake III Arena 1.17

CPU

Takt [MHz]

Speicher

Quake [fps]

Konfiguration: Windows XP Pro, GeForce3, 256 MByte Speicher. Der Athlon MP wurde mit 133 MHz FSB-Taktfrequenz getestet. Beim Pentium 4 handelt es sich um eine Version mit Willamette-Core mit 400 MHz FSB.

ClawHammer

800

PC333 2,5-3-3

183

Athlon MP

800

PC333 2,5-3-3

130

Athlon MP

800

PC333 2,5-2-2

133

Athlon MP

800

PC333 2,0-2-2

135

Athlon MP

1667

PC333 2,5-3-3

210

Pentium 4

800

PC800-45

111

Pentium 4

1600

PC800-45

182

Speicher-Performance

Hier finden sie eine Gegenüberstellung der Cache- und Speicher-Transferkurven, die wir mit unserem Benchmark tecMem ermittelt haben. Wir verzichten bei diesem sehr exakt messenden Benchmark auf die Veröffentlichung der genauen Zahlenwerte, da die Prototypen-Hardware dies unserer Meinung nach nicht sinnvoll erscheinen lässt. Betrachten Sie die Resultate bitte als Ausblick auf das, was der interne Memory-Controller des ClawHammer mindestens leisten kann.

Die Angaben in den Messdiagrammen für 32 und 128 Bit beziehen sich auf den jeweils verwendeten 32-Bit- oder Multimedia-Befehlssatz. Es handelt sich bei tecMem um 32-Bit-Software, die zusätzlich 64-Bit-MMX- und 128-Bit-SSE-Befehle verwendet, jedoch nicht die x86-64-Erweiterungen der Hammer-Prozessoren nutzt.

Die tecCHANNEL Benchmark Suite können Sie hier kostenlos downloaden.

32-Bit-Transfer

Im 32-Bit-Fall kommen für Load, Store und Move die darauf optimierten Maschinenbefehle LODSD, STOSD und MOVSD zum Einsatz.

128-Bit-SSE-Transfer

Die 128-Bit-Tests erfolgen mit der SSE-Instruktion MOVDQA. Daten werden mit dem Befehl aus dem von tecMEM angelegten Quell- und Zielpuffer gelesen beziehungsweise geschrieben.

Fazit

Die jetzt schon beeindruckenden Werte des Prototypen verdankt der ClawHammer wohl vor allem seinem integrierten Memory-Controller. Die Taktfrequenz der CPU dürfte das Hauptproblem von AMD sein. Zum Vergleich: Intel hatte beim Pentium 4 erste Prototypen mit 900 MHz verschickt, und war später für die Test-Systeme zu 1 GHz gewechselt. Große Stückzahlen konnte man dann zuerst mit 1,4 GHz liefern, 1,5-GHz-P4s waren lange rar.

AMD scheint bei den ersten Hammern mit 800 MHz sehr konservativ gewesen zu sein. Sie sind für die Hard- und Software-Entwickler auf Stabilität optimiert und weniger für Performance ausgelegt. Ein Indiz dafür: Während des Tests wurde der Alu-Kühler mit einem relativ leisen Lüfter nicht einmal handwarm. Das spricht für den geringen Stromverbrauch des recht kleinen Dies.

Auf der Computex war schon von anderer Seite eine Taktfrequenz von 1,6 GHz für die Markteinführung zu hören. So sich das bewahrheitet, und Intel die anvisierten 3 GHz dieses Jahr noch schafft, muss AMD mit seiner Model Number viel Aufklärungsarbeit leisten - man munkelt von 3400+. Der Launch von AMDs erstem komplett neuem Design nach drei Jahren scheint also vor allem ein Marketing- und kein technisches Problem zu werden - denn unser erster Schlag mit AMDs Hammer verlief durchaus vielversprechend.

AMD wollte zu den tecCHANNEL-Tests leider keine Stellung nehmen. Es darf deshalb weiter darüber spekuliert werden, wie nahe der getestete ClawHammer tatsächlich an der Serienversion liegt. (nie/cvi/hal/mec/mje)