MPF: AMD gibt Details der Quad-Core-CPU Barcelona bekannt

11.10.2006
AMD gibt auf dem Fall Microprocessor Forum neue Details zum Quad-Core-Prozessor mit Codenamen „Barcelona“ bekannt. Der Opteron mit vier Kernen arbeitet mit zwei unabhängigen Speichercontrollern sowie vielen Core-Verbesserungen.

Mitte 2007 will AMD seine nächste Opteron-Generation mit dem Codenamen „Barcelona“ auf den Markt bringen. Die Opterons für den Socket F besitzen dann einen nativen Quad-Core. Laut Ben Sander, Principal Member of Technical Staff bei AMD, bleibt Barcelona kompatibel zu aktuellen Socket-F-Mainboards. Auch bei den Anforderungen an die Kühlung soll es keine Änderungen gegenüber den aktuellen Dual-Core-Opterons geben. Damit wird sich Barcelona in einem Bereich von 120 Watt TDP bewegen.

Die Barcelona-CPUs mit dem K8L-Core erhalten eine neue Cache-Struktur. Neben jeweils einem 128 KByte fassenden L1-Cache (für Daten und Befehle) und dem 512 KByte großen L2-Cache pro Core gibt es zusätzlich einen Shared-L3-Cache. Die dritte Pufferstufe, auf den alle Cores zugreifen, dimensioniert AMD beim Barcelona auf 2 MByte. Damit soll der Speicherzugriff entlastet werden. Die Größe des L3-Caches lässt sich für künftige Barcelona-Nachfolger erhöhen.

Mit den eigenen L2-Caches pro Core reduziert AMD Konflikte im Puffer. Besonders in virtualisierten Umgebungen seien die dedizierten L2-Caches ein Vorteil gegenüber einer gemeinsamen zweiten Pufferstufe. Die Daten-Cache-Bandbreite verdoppelte AMD gegenüber der aktuellen AMD64-Generation mit 2 x 128 Bit Loads pro Taktzyklus. Auch zwischen dem L2-Cache und der integrierten Northbridge ermöglicht Barcelona 128 Bit an Daten pro Taktzyklus – im Vergleich zu 64 Bit bei aktuellen Opterons.

Core-Verbesserungen

Die Prozessorkerne des Barcelona stattet AMD zusätzlich mit einem erweiterten Instruction Queue zum „vorausschauenden“ Speichern von Befehlen aus: Statt 16 sind dann 32 Byte pro Taktzyklus möglich. Zusätzlich erlaubt Barcelona eine „unaligned“ Load-Operation.

Die Sprungvorhersage des K8L-Core soll mehr Treffer als bisher ermöglichen. Außerdem erlaubt AMDs Advanced Branch Prediction beim Barcelona nun 512 Einträge. Die Größe des Return-Stacks verdoppelte AMD ebenfalls. Der neue Sideband Stack Optimizer führt nebenbei Stack-Optimierungen für PUSH/POP-Operationen durch. Laut AMD wird dabei dem übrigen Workflow keine Bandbreite entzogen.

Neu bei den Barcelona-Cores ist eine Out-of-Order Load Execution. Load-Befehle können durch diese Technologie andere Loads „überspringen“. Ebenso sind Loads im Out-of-Order-Verfahren losgelöst von Store-Vorgängen möglich, wenn bekannt ist, dass diese voneinander unabhängig sind.

Durch TLB-Verbesserungen unterstützt Barcelona jetzt 1 GByte große Pages. Statt den bisherigen physikalischen 40 Bit adressiert der Quad-Core-Opteron den Speicher nun mit 48 Bit Breite. Damit erhöht sich der mögliche Arbeitsspeicher von 1 auf 256 Terabyte. AMD vergrößerte zudem die TLBs; damit erhöhe sich laut Sander die Performance bei virtuellen Umgebungen sowie bei großen Datenbanken.

Das Write Bursting soll beim Barcelona mehrere Schreib- und Lesezugriffe auf den Speicher bündeln und dann in einem Durchgang ausführen. Damit will AMD die effektive Speicherbandbreite erhöhen.

Unabhängige Speicher-Controller

Eine deutliche Verbesserung erhält die neue Opteron-Generation bei der SSE-Befehlsverarbeitung. Der Barcelona-Core kann laut AMD zwei 128-Bit-SSE-Befehle pro Taktzyklus einlesen. AMD spricht hier vom „Dual 128-Bit SSE Dataflow“. Damit erlaubt der 2007er-AMD-Core bis zu vier Floating-Point-Operationen in doppelter Präzision pro Taktzyklus.

Bei der aktuellen AMD64-Architektur ist der SSE-Pfad nur 64 Bit breit. Neue SSE-Befehle (EXTRQ, INSERTQ, MOVNTSD und MOVNTSS) sowie Erweiterungen für die Bit-Manipulation (LZCNT und POPCNT) implementiert AMD ebenfalls. Damit will AMD die bisher geringere SSE-Performance gegenüber den Intel-Prozessoren wettmachen.

Die aktuellen Socket-F-Opterons verfügen über zwei 64-Bit-Speicher-Controller. Durch ein Lock-Step sind beide Controller voneinander abhängig, Speicheroperationen werden stets verteilt auf beiden Channels durchgeführt. Im Barcelona-Prozessor legt AMD die beiden DRAM-Controller unabhängig voneinander aus. Damit sind mehr DRAM-Bänke möglich und die Page-Konflikte werden dadurch reduziert. Außerdem erlauben die zwei unabhängigen Controller größere Burst-Längen.

In der Northbridge weitete AMD zudem die Puffer-Größen aus und optimierte die Scheduler. Zudem unterstützt die Northbridge bereits die zukünftigen Speichertechnologien DDR3 und FB-DIMM. Mit dem Barcelona steuert AMD zum Launch DDR2-667-Speicher mit einer Bandbreite von 10,7 GByte/s an.

Virtualisierung mit Nested Paging

Die Virtualisierungstechnolgie „Pacifica“ erhält bei Barcelona ebenfalls Erweiterungen. So will AMD mit seiner nächsten Opteron-Generation die Umschaltzeit zwischen virtuellen Maschinen um 25 Prozent reduzieren. Verantwortlich hierfür zeichnet das Feature „Nested Paging“.

Normalerweise arbeitet jede virtuelle Maschine (VM) in einem eigenen Adressbereich, den der Hypervisor unter Kontrolle behält. Die Adressanfragen einer VM übersetzt der Hypervisor und lenkt sie auf entsprechend zugewiesene physikalische Adressen um. Werden die Daten aus dem Speicher gelesen, so muss sie die Virtualisierungs-Software erneut für die virtuelle Maschine umleiten.

AMDs Barcelona kann diesen Vorgang mit Hardware-Unterstützung durch den neuen Speichermodus „Nested Paging“ mit Nested Page Tables (NPT) erledigen. In der „normalen“ x86-Architektur gibt es ein CR3-Register, das die physikalische Adresse des Page Table speichert. Der Page Table regelt dann in Zusammenarbeit mit der Memory Managing Unit (MMU) der CPU die Adress-Übersetzung.

Der Nested-Paging-Modus des Barcelona stellt dagegen jeder VM ein eigenes virtualisiertes CR3-Register zur Verfügung. Dieses so genannte gCR3 wird bei jedem VM-Ein- und Austritt geladen und gespeichert. Die Ergebnisse sind im TLB gepuffert. Es wird mit den Nested Paging zwar eine zusätzliche Übersetzungsschicht eingeführt, die Vorgänge erfolgen aber Hardware-basierend und somit mit höherer Effizienz. Außerdem reduziert der Einsatz von Nested Paging die Frequenz von #VMEXIT.

Übertaktung der Northbridge

AMD integriert beim Barcelona separate Spannungsversorgungen für die Cores und die Northbridge. Damit können die Kerne die Core-Spannung reduzieren, während die Northbridge unabhängig davon in einem eigenen Energiesparmodus arbeitet. Außerdem lässt sich die Taktfrequenz der Northbrigde durch eine zusätzliche Spannungserhöhung für mehr Performance „übertakten“. In welchem Bereich sich die Taktfrequenz der Northbrigde erhöhen lässt, gibt AMD noch nicht bekannt.

Der Quad-Core-Prozessor Barcelona reguliert das Powermanagement seiner vier Kerne mit der DICE-Technologie. Das „Dynamic Independent Core Engagement“ erlaubt die dynamische und individuelle Anpassung der Taktfrequenz jedes einzelnen Cores. Alle vier Kerne sowie die integrierte Northbridge besitzen eigene PLLs. Damit lässt sich die Taktfrequenz der Kerne unabhängig voneinander einstellen. So kann beispielsweise ein Core mit voller Taktfrequenz arbeiten, der zweite mit auf 50 Prozent reduziertem Arbeitstakt und die Kerne drei und vier sind im Halt-Modus.

Mit anderen Prozessoren und der Peripherie kommuniziert Barcelona über drei HyperTransport-Schnittstellen der dritten Generation. Damit will AMD eine Peak-Bandbreite von 24 GByte/s erreichen. Die neue AMD64-Generation wird AMD im 65-nm-Verfahren produzieren. Mitte 2007 soll Barcelona laut Ben Sander auf den Markt kommen.

Weitere Details über AMDs Quad-Core-Prozessoren finden Sie bei tecCHANNEL in den Meldungen AMD: Neue AMD64-Generation Mitte 2007 und HOT CHIPS: AMD gibt mehr Details zum Quad-Core bekannt. (cvi)

tecCHANNEL Preisvergleich & Shop

Produkte

Info-Link

Prozessoren

Preise und Händler