Neu: Prozessor mit K10-Architektur

AMDs K10-CPUs: Quad-Core, L3-Cache und SSE4a

08.09.2007 von Christian Vilsbeck
AMD zeigt neue Prozessoren mit K10-Architektur. Nativer Quad-Core, L3-Cache, SSE4a, neue Energiespar-Features sowie viel Architekturfeinschliff sollen Opteron und Phenom wieder zum Maßstab machen.

Achtung: Lesen Sie hierzu unseren Test von AMDs K10-Prozessor Opteron "Barcelona" vom 10.09.2007.

Im Jahr 2003 gelang AMD mit der K8-Architektur schlagartig der Sprung an die Spitze. Dem Konzept von integrierten Speicher-Controllern, flexiblen HyperTransport-Schnittstellen sowie der 64-Bit-Erweiterung konnte Intel mit seiner damaligen NetBurst-Architektur wenig entgegensetzen.

Allerdings gelang Intel mit der Core-Mikroarchitektur 2006 dann der große Wurf. Die entsprechenden Core 2 Duo und Xeon – bis 2-Wege-Server – setzen bis heute AMDs Athlon 64 und Opteron gehörig unter Druck. Mit angenehmen Folgen für die Kunden: Die Preise purzelten in den letzten Quartalen durch den harten Konkurrenzkampf deutlich nach unten.

Nativer Quad-Core: AMDs K10-Architektur vereint vier Prozessorkerne auf einem Siliziumplättchen. Im Bild sehen Sie das Die des Desktop-Modells Phenom X4. (Quelle: AMD)

Vier Jahre nach dem K8-Debüt steht AMDs neue CPU-Generation mit der K10-Architektur in den Startlöchern. Im September 2007 geht es los mit Quad-Core-Opterons, sukzessive folgen bis Ende 2007 die Desktop-Modelle Phenom. AMD sollte die K10-Prozessoren pünktlich und möglichst schnell auf den Markt bringen, denn Intels 45-nm-Generation der Penryn-Serie startet bereits ab Ende 2007.

Das Leistungspotenzial müsste bei AMDs neuen K10-Prozessoren stimmen. Denn Schwachpunkte wie die geringe SSE-Performance und vergleichsweise kleine Caches merzte AMD aus. Außerdem punktet die K10-Architektur mit ausgeklügelten Powermanagement-Features und erweitertem Virtualisierungssupport.

Core-Verbesserungen

Die Prozessorkerne der K10-Architektur stattet AMD mit einem erweiterten Instruction Queue zum „vorausschauenden“ Speichern von Befehlen aus: Statt 16 wie bei der K8-Architektur sind dann 32 Byte pro Taktzyklus möglich. Zusätzlich erlaubt K10 eine „unaligned“ Load-Operation.

Die Sprungvorhersage des K10-Core soll mehr Treffer als bisher ermöglichen. Außerdem erlaubt AMDs Advanced Branch Prediction beim K10 nun 512 Einträge. Die Größe des Return-Stacks verdoppelte AMD ebenfalls. Der neue Sideband Stack Optimizer führt nebenbei Stack-Optimierungen für PUSH/POP-Operationen durch. Laut AMD wird dabei dem übrigen Workflow keine Bandbreite entzogen.

Frischer Core: Die Prozessorkerne der K10-Architektur warten mit vielen Detailverbesserungen auf. Neue Features wie der Sideband Stack Optimizer sind ebenfalls enthalten. (Quelle: AMD)

Neu bei den K10-Cores ist eine Out-of-Order Load Execution. Load-Befehle können durch diese Technologie andere Loads „überspringen“. Ebenso sind Loads im Out-of-Order-Verfahren losgelöst von Store-Vorgängen möglich, wenn bekannt ist, dass diese voneinander unabhängig sind.

Durch TLB-Verbesserungen unterstützt die K10-Architektur jetzt 1 GByte große Pages. Statt den bisherigen physikalischen 40 Bit adressieren K10-Prozessoren den Speicher nun mit 48 Bit Breite. Damit erhöht sich der mögliche Arbeitsspeicher von 1 auf 256 Terabyte. AMD vergrößerte zudem die TLBs; damit erhöhe sich laut Hersteller die Performance bei virtuellen Umgebungen sowie bei großen Datenbanken.

K10 beschleunigt mit SSE4a

Eine deutliche Verbesserung erhält die neue AMD-Generation bei der SSE-Befehlsverarbeitung. Der K10-Core kann laut AMD zwei 128-Bit-SSE-Befehle pro Taktzyklus einlesen. AMD spricht hier vom „Dual 128-Bit SSE Dataflow“. Damit erlaubt der K10-Core bis zu vier Floating-Point-Operationen in doppelter Präzision pro Taktzyklus.

Bei der aktuellen AMD64-Architektur ist der SSE-Pfad nur 64 Bit breit. Neue SSE4a-Befehle (EXTRQ, INSERTQ, MOVNTSD und MOVNTSS) sowie Erweiterungen für die Bit-Manipulation (LZCNT und POPCNT) implementiert AMD ebenfalls. Damit will der Prozessorhersteller die bisher geringere SSE-Performance gegenüber den Intel-CPUs wettmachen.

Die von AMD auch als SSE128 bezeichnete Fließkommabeschleunigung soll beispielsweise Matrix-Multiplikationen um 85 Prozent beschleunigen. Für andere rechenintensive Fließkommaberechnungen gibt AMD einen Performance-Vorteil von 10 bis 50 Prozent an.

Unabhängige Speicher-Controller

Die aktuellen Socket-F-Opterons und Athlon-64-X2-Modelle sowie der Athlon 64 FX verfügen über zwei 64-Bit-Speicher-Controller. Durch ein Lock-Step sind beide Controller voneinander abhängig, Speicheroperationen werden stets verteilt auf beiden Channels durchgeführt. Bei den K10-Prozessoren legt AMD die beiden DRAM-Controller unabhängig voneinander aus.

Damit sind mehr DRAM-Bänke möglich, und die Page-Konflikte werden dadurch reduziert. Außerdem erlauben die zwei unabhängigen Controller größere Burst-Längen. Das Write Bursting soll beim K10 mehrere Schreib- und Lesezugriffe auf den Speicher bündeln und dann in einem Durchgang ausführen. Damit will AMD die effektive Speicherbandbreite erhöhen. Die Kerne des K10 können dabei unabhängige 64-Bit-Opterationen auf den zwei Channels oder gebündelte 128-Bit-Speicherzugriffe durchführen.

In der Northbridge weitete AMD zudem die Puffergrößen aus und optimierte die Scheduler. Bei den Speichertechnologien unterstützt die K10-Northbridge weiterhin DDR2-SDRAM. AMDs Opteron mit K10-Core – Code-Name „Barcelona“ – steuert gepufferte DDR2-667-DIMMs an. Die Desktop-Prozessoren Phenom sowie der Opteron „Budapest“ unterstützen DDR2-Module mit Geschwindigkeiten bis 1066 MHz.

Neue Cache-Struktur

Die Opteron- und Phenom-Prozessoren mit K10-Core erhalten eine neue Cache-Struktur. Neben jeweils einem 128 KByte fassenden L1-Cache (je 64 KByte für Daten und Befehle) und dem 512 KByte großen L2-Cache pro Core gibt es zusätzlich einen Shared-L3-Cache.

Die dritte Pufferstufe, auf den alle Cores zugreifen, dimensioniert AMD auf 2 MByte. Damit soll der Speicherzugriff entlastet werden. Allerdings wird AMD auch K10-Modelle ohne dritte Pufferstufe anbieten; die Architektur ist entsprechend flexibel ausgelegt.

Mit den eigenen L2-Caches pro Core reduziert AMD Konflikte im Puffer. Besonders in virtualisierten Umgebungen seien die dedizierten L2-Caches ein Vorteil gegenüber einer gemeinsamen zweiten Pufferstufe. Die Daten-Cache-Bandbreite verdoppelte AMD gegenüber der K8-AMD64-Generation mit 2 x 128 Bit Loads pro Taktzyklus. Auch zwischen dem L2-Cache und der integrierten Northbridge ermöglicht der K10 128 Bit an Daten pro Taktzyklus – im Vergleich zu 64 Bit bei K8-Prozessoren.

Virtualisierung mit Nested Paging

Die Virtualisierungstechnolgie Pacifica erhält bei den K10-Prozessoren ebenfalls Erweiterungen. So will AMD mit seiner nächsten CPU-Generation die Umschaltzeit zwischen virtuellen Maschinen um 25 Prozent reduzieren. Verantwortlich hierfür zeichnet das Feature „Nested Paging“.

Normalerweise arbeitet jede virtuelle Maschine (VM) in einem eigenen Adressbereich, den der Hypervisor unter Kontrolle behält. Die Adressanfragen einer VM übersetzt der Hypervisor und lenkt sie auf entsprechend zugewiesene physikalische Adressen um. Werden die Daten aus dem Speicher gelesen, so muss sie die Virtualisierungssoftware erneut für die virtuelle Maschine umleiten.

AMDs K10-Prozessoren können diesen Vorgang mit Hardwareunterstützung durch den neuen Speichermodus „Nested Paging“ mit Nested Page Tables (NPT) erledigen. In der „normalen“ x86-Architektur gibt es ein CR3-Register, das die physikalische Adresse des Page Table speichert. Der Page Table regelt dann in Zusammenarbeit mit der Memory Managing Unit (MMU) der CPU die Adressübersetzung.

Der Nested-Paging-Modus der K10-Architektur stellt dagegen jeder VM ein eigenes virtualisiertes CR3-Register zur Verfügung. Dieses sogenannte gCR3 wird bei jedem VM-Ein- und Austritt geladen und gespeichert. Die Ergebnisse sind im TLB gepuffert. Es wird mit den Nested Paging zwar eine zusätzliche Übersetzungsschicht eingeführt, die Vorgänge erfolgen aber Hardware-basierend und somit mit höherer Effizienz. Außerdem reduziert der Einsatz von Nested Paging die Frequenz von #VMEXIT.

Quad-Core = mehr Performance, gleiche TDP

Um den Vorteil von Quad-Core-Prozessoren zu zeigen, vergleicht AMD die Rechenleistung und den Energiebedarf mit zwei Dual-Core-CPUs.

So bewirkt eine 16 Prozent höhere Taktfrequenz bei einem 2-Sockel-System mit zwei Dual-Core-Prozessoren laut AMD 14 Prozent mehr CPU-Performance. Gleichzeitig erhöht sich der Energiebedarf um 51 Prozent. Wird die Taktfrequenz dagegen um 16 Prozent reduziert, sinkt die Performance um 13 Prozent und der Energiebedarf um 51 Prozent.

Zwei Quad-Core-Prozessoren arbeiten bei einer im Vergleich zu den Dual-Core-CPUs 16 Prozent geringeren Taktfrequenz aber 73 Prozent schneller – bei gleicher Architektur. Dabei benötigen die beiden Quad-Core-CPUs ein Prozent weniger Energie als die zwei Dual-Core-Prozessoren.

AMDs Topmodelle der aktuellen Dual-Core-Opterons sind mit 120 Watt TDP spezifiziert und arbeiten mit 3,0 GHz Taktfrequenz. Beim K10-Quad-Core-Opteron will AMD eigenen Angaben zufolge bei den 120 Watt TPD bleiben. AMD will die Quad-Core-Opterons auch in Versionen mit 68 und 95 Watt TDP auf den Markt bringen. Damit können die K10-Vierkerner laut AMD in vorhandenen Socket-F-Systemen mit unveränderten Kühlmaßnahmen betrieben werden.

Neue DICE-Technologie

AMDs Quad-Core-K10-Prozessor reguliert das Powermanagement seiner vier Kerne mit der DICE-Technologie. Das „Dynamic Independent Core Engagement“ erlaubt die dynamische und individuelle Anpassung der Taktfrequenz jedes einzelnen Cores. Alle vier Kerne sowie die integrierte Northbridge besitzen eigene PLLs. Damit lässt sich die Taktfrequenz der Kerne unabhängig voneinander einstellen. So kann beispielsweise ein Core mit voller Taktfrequenz arbeiten, der zweite mit auf 50 Prozent reduziertem Arbeitstakt, und die Kerne drei und vier sind im Halt-Modus.

AMD integriert beim Barcelona separate Spannungsversorgungen für die Cores und die Northbridge. Damit können die Kerne die Core-Spannung reduzieren, während die Northbridge unabhängig davon in einem eigenen Energiesparmodus arbeitet. Außerdem lässt sich die Taktfrequenz der Northbridge durch eine zusätzliche Spannungserhöhung für mehr Performance „übertakten“. In welchem Bereich sich die Taktfrequenz der Northbridge erhöhen lässt, gibt AMD noch nicht bekannt.

Um diese Funktionen zu nutzen, müssen Mainboards allerdings zwei getrennte Spannungsversorgungen (Split Power Plane) für die vier Kerne sowie die Northbridge besitzen. Bei aktuellen Socket-F-Mainboards ist dies von den jeweiligen Modellen abhängig, ob die Hersteller Split Power Plane bereits integriert haben. Für K10-Desktop-Mainboards wird für diese Funktion der aktualisierte Socket AM2+ notwendig.

Desktop-Modelle: Phenom X2, X4 & FX

Mit der Einführung der neuen K10-Architektur bei den Desktop-Prozessoren – Codename „Stars“ - verabschiedet sich AMD langsam von der Bezeichnung Athlon 64. Als Topmodell wird der Phenom FX für die 4x4-Plattform fungieren. Der Phenom FX für 2-Sockel-Mainboards erhält den nativen Quad-Core der K10-Architektur und löst die Athlon-64-FX-CPUs ab. Damit bietet AMDs künftige Enthusiast-Plattform acht Prozessorkerne.

Neuer Name, neues Glück: AMD will mit den K10-Prozessoren Phenom X2, X4 und FX den Core-2-Modellen von Intel das Leben wieder schwer machen. (Quelle: AMD)

Für „normale“ 1-Sockel-Mainboards soll der neue Phenom X4 das Maß der Dinge darstellen. Entsprechend der Bezeichnung arbeitet der Phenom X4 mit dem K10-Quad-Core. Als Steckplatz erhält die CPU den Socket AM2+ mit HyperTransport 3.0 und somit einer verdoppelter Busgeschwindigkeit. Auch der Phenom FX arbeitet statt im aktuellen Socket 1207FX dann im schnelleren Socket 1207FX+ mit HyperTransport-3.0-Unterstützung.

Den native Quad-Core-Chip des Phenom X4 und Phenom FX stattet AMD mit dem 2 MByte großen L3-Cache aus. Dual-Core-Versionen mit K10-Architektur bietet AMD zusätzlich mit dem neuen Phenom X2 an. Der Doppelkerner wird ebenfalls den integrierten L3-Cache erhalten.

Taktfrequenzen & Launch-Termin

AMDs neue Desktop-Prozessoren erhalten einen integrierten Dual-Channel-Speicher-Controller für DDR2-1066-SDRAM. Alle vier Kerne der K10-Architektur können mit voneinander unabhängiger Taktfrequenz arbeiten. Die Core-Spannung orientiert sich jeweils am Kern mit der aktuell höchsten Taktfrequenz. Die hierfür notwendige „Split Power Plane“ ist in Mainboards mit Socket AM2+ oder 1207FX+ zwingend. Der Phenom sollte auch in aktuellen Socket-AM2-Boards arbeiten, dann aber mit geringerer HyperTransport-Geschwindigkeit und mit weniger Powermanagement-Features.

Jedem das Seine: Die K10-Desktop-CPUs firmieren bei AMD unter dem Code-Namen „Stars“. (Quelle: AMD)

Alle K10-Prozessoren, wie den Phenom, fertigt AMD in seinem 65-nm-Prozess. Als offiziellen Vorstellungstermin für die Phenom-Prozessoren gibt AMD weiterhin die zweite Jahreshälfte 2007 an. Verschiedenen Gerüchten und Roadmaps zufolge, sollen der Phenom FX und Phenom X4 im dritten Quartal 2007 ihr Debüt feiern. Als Taktfrequenzen für den Phenom FX werden in der Top-Version 2,6 GHz gehandelt. Der Phenom X4 soll mit bis zu 2,4 GHz an den Start gehen.

Athlon 64 X2 bekommt neue Gnadenfrist

Der Phenom X2 mit Dual-Core-Technologie folgt voraussichtlich im vierten Quartal 2007. Und ganz lässt AMD den Namen „Athlon 64“ noch nicht in der Versenkung verschwinden. So wird es künftig einen Athlon 64 X2 mit auf der K10-Architektur basierenden Dual-Core-Technologie geben. Im Unterschied zum Phenom X2 verzichtet AMD beim Athlon 64 X2 aber auf einen L3-Cache.

Erweiterter Steckplatz: Für Features wie HyperTransport-3.0-Geschwindigkeit und Split Power Plane benötigen die Stars-Prozessoren Athlon 64 X2 und Phenom den Socket AM2+. (Quelle: AMD)

Der K10-basierende Athlon 64 X2 debütiert inoffiziellen Roadmaps zufolge allerdings erst im ersten Quartal 2008. Eine Single-Core-Version mit K10-Architektur soll es dann ebenfalls unter dem Modellnamen Sempron geben.

Alle Athlon 64 X2 und Phenom erhalten AMDs neues Modellnummern-Schema, das der Hersteller beim 45-Watt-Modell Athlon X2 BE Anfang Juni 2007 einführte.

Server-Modelle: Opteron „Barcelona“ & „Budapest“

Bei seinen Server-Prozessoren verwendet AMD mit der K10-Architektur weiterhin den Markennamen „Opteron“. Es wird wieder Modelle der Serien 1000 (1-Sockel), 2000 (2 Sockel) und 8000 (bis 8 Sockel) geben.

Die Opteron-1000-Serie „Budapest“ mit K10-Quad-Core produziert AMD für den Socket AM2+ mit HyperTransport-3.0-Schnittstelle. Der Prozessor soll auch in vorhandenen Socket-AM2-Mainboards arbeiten – dann aber mit reduzierter Interface-Geschwindigkeit. AMD stattet den Budapest mit dem 2 MByte großen L3-Cache aus. Beim Speicher steuert Budapest ungepufferte DDR2-1066-DIMMs in einer Dual-Channel-Konfiguration an.

Budapest: Die K10-basierende Opteron-1000-Serie „Budapest“ für den Socket AM2+ steuert ungepufferte DDR2-1066-DIMMs an. (Quelle: AMD)

Die K10-Opterons der Serien 2000 und 8000 mit Code-Namen „Barcelona“ verfügen ebenfalls über den integrierten L3-Cache. AMD wird die Prozessoren weiterhin für den aktuellen Socket F ausliefern. Den schnelleren HyperTransport-3.0-Bus gibt es hier erst in der nächsten Generation „Shanghai“. Damit arbeitet Barcelona wie die aktuellen Santa-Rosa-Opterons mit gepufferten DDR2-667-Speichermodulen.

Barcelona: Die K10-Opterons für Mehrwegesysteme verwenden den bekannten Socket F. Auch beim Speicher steuert Barcelona unverändert gepufferte DDR2-667-DIMMs an. (Quelle: AMD)

Die ersten Quad-Core-Modelle gehen mit Taktfrequenzen von 1,9 und 2,0 GHz an den Start.

Aufgefrischter K10: AMDs „Shanghai“ 2008

In der ersten Jahreshälfte 2008 bringt AMD mit dem Opteron „Shanghai“ eine aktualisierte K10-Variante auf den Markt. Die CPU arbeitet weiterhin mit vier Kernen, vereint auf einem Siliziumplättchen. Den Shanghai-Prozessor wird AMD aber neben Versionen mit 2 MByte L3-Cache auch mit einer 6 MByte großen dritten Pufferstufe anbieten.

Der integrierte Dual-Channel-Speicher steuert weiterhin gepufferte DDR2-DIMMs an. Allerdings erhöht AMD die Geschwindigkeit von 667 auf 800 MHz. Auch die HyperTransport-Schnittstellen unterstützen dann die Version 3.0. Die Shanghai-Prozessoren werden auf einen Socket F+ setzen, ähnlich dem Socket 1207FX+ des Phenom FX für die 4x4-Plattform. Allerdings bleibt der Shanghai kompatibel zu den bisherigen Socket-F-Plattformen.

Shanghai: Mit aktualisierter K10-Architektur will AMD den Opteron im ersten Halbjahr 2008 ins Rennen schicken. Ein größerer L3-Cache, schnellerer Speicher sowie vier HT-3.0-Schnittstellen sind die wesentlichen Neuerungen. (Quelle: AMD)

Neue Powermanagement-Features wie ein Temperatur-Management des Systembusses sowie ein HyperTransport Error Retry für einen sichereren Betrieb ergänzen den Shanghai. Auch bei der Virtualisierung wird Shanghai erstmals die von AMD bereits angekündigte I/O-Virtualisierung IOMMU unterstützen.

Ob AMD den Shanghai bereits mit 45 nm Strukturbreite fertigen wird, bleibt abzuwarten. Laut AMDs Prozess-Roadmap will der Hersteller Mitte 2008 von 65 nm auf die geringere Strukturbreite übergehen.

Shanghai mit vier HT-3.0-Links

Um die Speicherbandbreite in Systemen mit vier oder mehr Prozessoren zu erhöhen, stattet AMD die Shanghai-Quad-Core-Opterons mit vier statt maximal drei 16-Bit-HyperTransport-Links aus. Sind mehrere Opterons via HyperTransport miteinander verbunden, kann jede CPU auch auf den Speicher der benachbarten zusätzlich zugreifen. Diese von AMD als Xfire bezeichnete Speicherbandbreite addiert sich zur lokalen Bandbreite der CPU.

Bei einem 4-Sockel-System steigt durch den vierten HyperTransport-Link die Xfire-Speicherbandbreite jedes Opterons von 14,9 GByte/s auf 29,9 GByte/s (HT 2.0). Mit HyperTransport 3.0 vervierfacht sich die Xfire-Bandbreite. Bei 8-Sockel-Systemen erhöht sich die Xfire-Bandbreite jeder CPU laut AMD um den Faktor 6, wenn gleichzeitig die dritte HyperTransport-Generation zum Einsatz kommt.

Extreme Verlinkung: Bei einem System mit acht Shanghai-Prozessoren lassen sich pro CPU acht 8-Bit-HT-3.0-Links verwenden. (Quelle: AMD)

Ausblick

In AMDs K10-Architektur mit Quad-Core-Technologie steckt einiges an Potenzial. Die bisherigen Stärken aktueller AMD64-Prozessoren werden konsequent ausgebaut. So beschleunigt und verfeinert AMD die integrierten Speicher-Controller ebenso wie die HyperTransport-Schnittstellen. Schwachpunkte wie die – im Vergleich zur Konkurrenz – geringe Floatingpoint-Performance merzt der Hersteller aus. Die neue SSE128-Technologie verspricht einen deutlichen Geschwindigkeitsschub gegenüber den K8-Modellen.

Für eine hohe Performance pro Watt sollen neue Energiesparmaßnahmen wie die dynamische und individuelle Anpassung der Taktfrequenz jedes einzelnen Cores sorgen. Außerdem kann die integrierte Northbridge unabhängig davon seine Spannung und Taktfrequenz regeln. So gesehen bietet die K10-Architektur auch beim Powermanagement deutliche Fortschritte.

Ob AMD mit den K10-Prozessoren Intels Core-Prozessoren wieder das Wasser abgraben kann, wird auch von den Taktfrequenzen der Quad-Core-Modelle abhängen.

Jedenfalls sollte AMD seine komplette Prozessorpalette möglichst zügig auf die K10-Architektur umstellen, denn Intel kommt bereits Ende 2007 mit seiner neuen 45-nm-CPU-Generation Penryn. (cvi)