Details zum Athlon

07.03.2000 von Michael Eckert
Mit dem Athlon ist der ewige Zweite AMD an Intel vorbeigezogen. Bei gleicher Taktfrequenz schlägt AMDs Highend-CPU zurzeit alle anderen Prozessoren in den wichtigen Disziplinen. Unser Grundlagenartikel klärt, wie der Athlon aufgebaut ist und funktioniert.

"Zum ersten Mal in der Geschichte der Computerindustrie führt AMD mit einem Prozessor das Feld an. Der Athlon liefert nicht einfach nur höhere Taktfrequenzen, seine Performance basiert auf einer weit fortgeschrittenen Architektur." Der Chairman und Chief Executive Officer von AMD, W.J. Sanders III, versprach nicht nur einen weiteren x86-kompatiblen Prozessor, sondern gleich einen der siebten Generation. Tatsächlich überflügelte die neue CPU vom Start weg alle anderen Prozessoren.

Der unter dem Codenamen K7 entwickelte Prozessorreihe ist jetzt bei 1000 MHz Taktfrequenz angelangt. Es soll aber nicht beim einfachen Athlon bleiben, denn für die Zukunft verspricht AMD eine ganze Familie verwandter Prozessoren. Ähnlich wie bei Intel, soll es unterschiedliche Prozessoren für alle Marktsegmente geben:

Daten und Preise

Mit 22 Millionen Transistoren ist der Athlon eine sehr komplexe CPU. Das Die ist mit 184 mm^2 aber trotzdem erstaunlich klein geraten. AMD fertigt den Athlon bis 700 MHz in 0,25-Micron-Technologie, schnellere Modelle werden in 0,18 Micron produziert. Der Athlon kann 8 TByte Speicher adressieren. Das mechanisch SECC-kompatible Gehäuse besitzt wie beim Pentium II(I) 242 Pins - jeweils 121 pro Seite. Auf der Prozessorplatine verwendet AMD für die eigentliche CPU ein CBGA-Gehäuse mit 576 Kontakten.

Wie alle aktuellen x86-Prozessoren ist auch der Athlon eine 32-Bit-CPU. Extern verwendet er jedoch einen 64-Bit-breiten Datenbus (plus 8 Bit für ECC).

Listenpreise

Prozessor

Preis (US-Dollar)

Tabelle 1: Angegeben sind die 1000er-Stückpreise. Stand: 06.03.2000

Athlon 1000

1299

Athlon 950

999

Athlon 900

899

Athlon 850

749

Athlon 800

599

Athlon 750

489

Athlon 700

389

Athlon 650

299

Athlon 600

229

Das AMD-751-Chipset (Codename Irongate) kann prinzipiell sowohl mit dem Athlon als auch mit Alpha-Prozessoren arbeiten. Allerdings müssen Mainboard, CPU-Steckplatz und BIOS entsprechend ausgelegt sein. Eine Alpha-CPU funktioniert also nicht in einem Mainboard für den Athlon.

CPU- und Buskonzept

Mit dem Athlon bringt AMD erstmals einen PC-Prozessor, der sich grundlegend von der Intel-Architektur unterscheidet. So benutzt die CPU das EV6-Busprotokoll der Alpha-Prozessoren, das AMD von Digital-Compaq lizenziert hat. Dieser Schritt erfordert eigene Chipsets für den Athlon, denn die bisherigen AMD-CPUs verwenden den P5- oder den P6-Bus von Intel. Unter dem Codenamen Irongate hat AMD deshalb einen eigenen Chipsatz entwickelt, der derzeit auf allen Athlon-Mainboards sitzt. VIA liefert den Apollo KX für Athlon-Mainboards bereits aus. Andere Chipsethersteller wie ALi und SIS wollen nachziehen.

Gemeinsamkeiten mit Intel gibt es beim Athlon-Steckplatz Slot A nur beim mechanischen Aufbau, aber nicht elektrisch. Auch einige andere Daten wie die thermische Leistung der Athlon-CPUs entsprechen den Maximalwerten der Pentium-II-Reihe. Mainboard-, Gehäuse- und PC-Hersteller können so auf vorhandene Komponenten wie Gehäuse und Kühlkörper zurückgreifen.

Der S2K-Bus

Der S2K-Bus des Athlons ist ein Punkt-zu-Punkt-Multiprozessorbus. Das verschafft AMD einige Vorteile gegenüber dem P6-Bus der aktuellen Intel-Prozessoren. Intel verwendet einen Shared Bus, an dem alle CPUs eines Multiprozessorsystems hängen. Hinsichtlich der maximalen FSB-Taktfrequenz ist S2K schon wegen der geringeren kapazitiven Lasten für höhere Taktfrequenzen geeignet. Das Businterface basiert auf der HSTL-Spezifikation und arbeitet mit einem Spannungspegel von 1,5 Volt.

Die FSB-Frequenz beträgt derzeit 100 MHz. Durch Transfer mit der steigenden und fallenden Flanke des Taktsignals ergibt sich eine effektive Bustaktfrequenz von 200 MHz. Dieses Prinzip ist auch unter der Bezeichnung DDR bekannt und wird beispielsweise auch bei AGP 2x verwendet. Bei S2K resultiert aus den effektiv 200 MHz eine theoretische Busbandbreite von 1,6 GByte/s. Für die Zukunft sieht AMD genügend Spielraum bis über 400 MHz FSB-Taktfrequenz. Digital ist bei den Alpha-Prozessoren inzwischen bei 333 MHz angelangt. Der S2K-Bus arbeitet mit drei getrennten Ports. Die Adress-out- und Adress-in-Ports sind unidirektional, der 72-Bit-Data-Port dagegen bidirektional. Die Ports erlauben gleichzeitige und voneinander unabhängige Speicher- und Snoop-Transaktionen. Wichtig ist das bei symmetrischen Multiprozessorsystemen mit gemeinsamen Arbeitsspeicher.

Kennzeichnung und Leistungsaufnahme

Beim Athlon gibt es keine Steckbrücken mehr zur Konfiguration. Der Prozessor wird per SIP-Protokoll kurz nach dem Einschalten initialisiert. Die notwendige Kodierung ist auf der Prozessorplatine mit einem Widerstandsnetzwerk realisiert. Von außen lässt sich anhand des Aufdrucks an der oberen Gehäusekante ermitteln, welche CPU vorliegt.

Wie der Pentium III arbeiten die aktuellen Athlon-CPUs mit einer Core-Spannung von 1,6 V. Die Kodierung für die Versorgungsspannung erfolgt über fünf Leitungen (VID0 bis VID4), von denen beim Athlon nur die unteren vier benutzt werden (VID4 liegt immer auf Low). Vorgesehen sind Spannungen zwischen 1,03 und 2,05 Volt, was für zukünftige Fertigungsprozesse nach unten hin noch genügend Spielraum lässt.

Nachdem sich AMD zunächst in Schweigen hüllte, gibt es mittlerweile auch Informationen zur Leistungsaufnahme der einzelnen Athlon-Prozessoren. Theoretisch bleibt auf Grund des SECC-Gehäuses nur wenig Spielraum für hitzige CPUs. Intel legt für diese Bauform maximal 43,5 Watt Verlustleistung fest. Tabelle 2 zeigt, warum AMD großzügig dimensionierte Kühlkörper empfiehlt. Schon der Athlon 650 gönnt sich beispielsweise bis zu 54 Watt. Die Highend-Modelle ab 900 MHz liegen noch höher. Das ist mit den alten Kühlkörpern und Lüftern für den Pentium II nicht realisierbar. Tabelle 3 zeigt, welchen positiven Einfluss die Fertigung mit kleinerer Strukturbreite hinsichtlich Leistungsaufnahme hat.

Leistungsaufnahme: 0,25 Mikron

Athlon

500

550

600

650

700

Tabelle 2: Angegeben sind die Werte laut AMD mit 512 KByte L2-Cache. Beim Athlon 700 wurde eine

Core-Spannung

1,6 V

1,6 V

1,6 V

1,6 V

1,6 V

Maximal

42 W

46 W

50 W

54 W

50 W

Typisch

38 W

41 W

45 W

48 W

45 W

Leistungsaufnahme: 0,18 Mikron

Athlon

600

650

700

750

800

900

1000

Tabelle 3: Angegeben sind die Werte laut AMD mit 512 KByte L2-Cache.

Core-Spg.

1,6 V

1,6 V

1,6 V

1,6 V

1,7 V

1,8 V

1,8 V

Maximal

34 W

36 W

39 W

40 W

48 W

60 W

65 W

Typisch

30 W

32 W

34 W

35 W

43 W

53 W

60 W

L1- und L2-Cache

Die L1-Caches des Athlons für Befehle und Daten sind je 64 KByte groß. Sie sind als teilassoziative 2-Wege-Caches organisiert. Der Daten-Cache besteht aus acht Bänken und erlaubt gleichzeitig zwei Loads oder Stores.

Wie beim Pentium II und den ersten Pentium III vor der Coppermine-Reihe sitzt der L2-Cache des Athlon extern auf der Prozessorplatine. Im Jahr 2000 kommen jedoch auch Athlons mit L2-Cache auf dem Die. Der L2-Cache von Athlon und Pentium II(I) ist nicht direkt mit dem FSB verbunden, sondern besitzt einen BSB zur CPU. Der Zugriff auf den Cache kann so über den 72-Bit-BSB des Athlons erfolgen, auch wenn der FSB gerade blockiert ist.

Das L2-Interface des Athlons ist wesentlich flexibler als das der Intel-Prozessoren. Es erlaubt unterschiedliche BSB-Taktfrequenzen und Cache-Größen. Laut AMD lässt sich der L2-Cache mit 1/4, 1/3, 2/5, 1/2, 2/3 und vollem CPU-Takt betreiben. Auch der Einsatz von DDR-SRAM soll möglich sein. Der Cache kann zwischen 512 KByte und 8 MByte groß sein. Das integrierte Tag-RAM auf dem Die erlaubt bis zu 512 KByte L2-Cache, für mehr ist zusätzlicher Tag-Speicher auf der Prozessorplatine erforderlich.

Befehlsdekodierung

Der Athlon ist eine superskalare CPU, die bis zu drei x86-Befehle pro Takt erarbeiten kann. Wie der P6- und die K6-Reihe arbeitet der Athlon intern RISC-ähnlich. Die komplexen x8-Befehle werden dazu in MacroOPs konvertiert. Das sind Kommandos fester Länge, die wiederum aus eins bis zwei OPs bestehen können. Der zweite OP ist immer ein Load/Store-OP.

Der Athlon besitzt zwei voneinander unabhängig arbeitende Ausführungs-Pipelines - eine für Ganzzahlen-(Integer-) und eine für Gleitkommabefehle (Floating Point = FP). Die Integer- und FP-Einheit sind nochmals je dreifach superskalar. Der gemeinsam genutzte Befehlsdecoder beansprucht die ersten sechs Stufen der Pipeline. Er konvertiert die x86-Befehle mit variabler Länge in MacroOps mit fester Länge. Am Ende landen die MacroOPs in der ICU zur weiteren Verarbeitung in der Integer und Floating Point Pipeline.

1. Zu Beginn der Befehlsdekodierung steht die Fetch-Stufe der Decoderpipeline. Sie holt die x86-Befehle aus dem L1-Cache.

2. Anschließend werden sie in der Scan-Stufe untersucht und einem der beiden Verarbeitungspfade zugeordnet. Im direkten Pfad landen die einfachen x86-Befehle fester Länge, die sich direkt von der Hardware dekodieren lassen. In den Vektorpfad werden die x86-Kommandos geschickt, für die zusätzlich Microcode aus dem Microcode-ROM (MROM) notwendig ist.

3. Die dreistufige Quadword Queu im direkten Pfad kann bis zu neun Befehle oder 24 Befehls-Bytes puffern. Sie sorgt dafür, dass der Befehlsfluss für die folgenden Einheiten nicht unterbrochen wird. Im Vektorpfad erfolgt in der dritten Phase die Berechnung des Zeigers für die Microcode-Adresse im MROM.

4. In der vierten Stufe des direkten Pfads werden in der Align2-Stufe drei Befehle ausgerichtet und vordekodiert. Der Vektorpfad liest mit Hilfe des zuvor berechneten Zeigers die Microcode-Zeile aus dem MROM.

5. Im fünften Taktzyklus wandelt die Early Decode (EDEC) Stage die vorberechneten Informationen in MacroOPs mit fester Länge um.

6. Die ICU als sechste Stufe kann bis zu 72 MacroOPs in der Programmreihenfolge (In Order) speichern. Von der ICU aus verteilen sich die MacroOPs dann auf die Integer und Floating Point Unit .

Integer-Einheit im Detail

Nachdem die MacroOPs aus der sechsten Stufe (ICU) übernommen wurden, geht es bei Integer-Befehlen in vier Schritten weiter. Der erste Funktionsblock ist demnach aus Sicht der Integer Pipeline deren siebte Stufe:

7. Der Integer Scheduler besteht aus drei sechsstufigen Pipes (Reservation Stations), die 18 Integer MacroOPs fassen können. Hier sind auch MacroOPs enthalten, die noch auf Operanden aus der ICU oder den drei IEUs warten. Die Reservation Stations zerlegen die MacroOPs in Integer OPs und solche zur Adressgenerierung. Sind alle Operanden eingetroffen, schickt der Scheduler die OPs in die achte Stufe.

8. Hier sitzen drei parallel arbeitende Integer Pipes, die aus je einer Execution Unit (IEU) und einer Address Generation Unit (AGU) bestehen. Stammen die beiden OPs in einer Integer Pipe von einem einzigen MacroOP, so werden Sie Out-of-Order ausgeführt. Eine Pipe kann gleichzeitig in ihrer IEU und AGU zwei OPs von verschiedenen MacroOPs ausführen. Bis auf eine Ausnahme kann jede der drei Pipes alle Integer-Befehle verarbeiten. Integer Multiplikations- und Dividierbefehle sind ausschließlich in der ersten Pipe (Pipe 0) möglich, mit der ein Multiplier verbunden ist.

9. Als Nächstes schließt sich ein Taktzyklus zur Adressgenerierung an.

10. Die berechnete Adresse dient im zehnten Schritt für den Zugriff auf den Daten-Cache und die TLBs.

11. Die letzte Stufe der Integer Pipeline ist die Response Stage (RESP). Hier liefert der Date Cache den Status (Cache Hit/Miss) für die angeforderte Adresse aus Stufe 10 zurück. TLB

FPU-Einheit im Detail

Nach der Übernahme der MacroOPs aus der sechsten Stufe (ICU), verarbeitet der Athlon Floating-Point-Befehle in acht Schritten weiter. Die FPU setzt wie die Integer Unit auf den ersten sechs Stufen der Pipeline auf. Zur Umwandlung der MacroOPs in OPs sind in der FPU die Stufen 7 bis 11 erforderlich:

7. In der Stack Map befinden sich bis zu drei MacroOps aus der ICU. Die Floating Point Stacks werden hier auf Register abgebildet.

8. Diese Stufe ist für das Register Renaming zuständig.

9.-10. Weil die drei FP-Units im Gegensatz zu den Integer Pipes nicht symmetrisch arbeiten und unterschiedliche Laufzeiten haben, ist es schwieriger, die MacroOPs in eine optimale Reihenfolge zu bringen. Der FP-Scheduler ist deshalb größer als sein Integer-Gegenstück und fasst 36 MacroOps. In Stufe 9 empfängt seine Schreibeinheit bis zu drei MacroOPs, die er im Scheduler ablegt. AMD zufolge sammelt der Scheduler davon bis zu 36 Stück.

11. Wenn die Operanden in das Register File eingelesen sind, werden die OPs an die drei nachfolgenden FP-Pipes übergeben.

12.-15. Die drei Ausführungseinheiten FADD, FMUL, FSTORE erledigen die unterschiedlichen FPU-Befehle. FADD ist für einfachere Aktionen wie Additionen zuständig, während FMUL die komplexere Befehle wie Multiplikation und Division erledigt. FSTORE verarbeitet unter anderem Store-Befehle.

Erweiterter Befehlssatz

Die FPU ist nicht nur leistungsfähiger als die des Pentium III und K6-2/K6-3. AMD hat außerdem den eigenen 3DNow!-Befehlssatz erweitert und dem Athlon weitere Multimediabefehle mitgegeben. So gibt es 19 Kommandos, die nun auch Streaming-Applikationen sowie Sprach- und Video-Encoding beschleunigen. Außerdem sind fünf DSP-Befehle dazugekommen, die für SoftModem, AC3-Sound und MP3-Playback gut sind.

Fazit

Mit dem Athlon ist AMD der große Wurf gelungen. Das Konzept eines massiv superskalaren PC-Prozessors schlägt den immer noch auf dem P6-Core basierten Pentium III bei den wichtigen 2D-Benchmarks. Die langen Pipelines lassen zudem ausreichend Spielraum für höhere Taktfrequenzen. Allerdings begrenzt jetzt der externe L2-Cache auf der CPU-Platine die Weiterentwicklung. Erst die neuen Athlon-Varianten im Socket A mit auf dem Die integriertem L2-Cache lassen wieder mehr Spielraum.

Eine harte Nuss für den Athlon dürfte Intels Willamette werden. Diese CPU ist mehr als nur ein Remake der P6-Plattform. Technologisch entspricht der Sprung vom Pentium III zum designierten Pentium IV Willamette dem vom Pentium zum Pentium Pro. Der FSB des Pentium IV soll beispielsweise mit 400 MHz (4 x 100 MHz) arbeiten. AMD kann diesbezüglich nur mit dem integrierten L2-Cache gegenhalten, den Intel längst hat. Im Highend-Bereich will AMD allerdings auch mit einem deutlich größerem L2-Cache Performance-Gewinne erzielen. Außerdem ist eine höhere FSB-Taktfrequenz von 266 MHz (2 x 133 MHz) geplant. Mit Feintuning am Chipset sowie DDR-SDRAM will AMD den Vorteil des Pentium IV mit DRDRAM weiter ausgleichen.

Ausführliche Benchmark-Ergebnisse der Athlon-Prozessoren und ihrer aktuellen Konkurrenten finden Sie bei tecChannel im Artikel CPU-Benchmarks .

Über die grundsätzliche Funktionsweise eines Prozessors klärt ein eigener tecChannel-Beitrag im Detail auf: Prozessorgrundlagen

AMD hat für den Athlon auf ihrer Homepage einen eigenen Bereich reserviert: Athlon Home

Ausführliche technische Informationen zu Athlon, Chipset und 3DNow! gibt es bei AMD auch im PDF-Format: Datenblätter

Wenn Sie einen Athlon-PC haben oder selbst zusammen stellen wollen und Treibersoftware suchen: Athlon-Konfigurationsseite