Integrierter Speicher-Controller, QuickPath und L3-Cache

Alles neu: Intel Core i7 mit Nehalem-Architektur

17.11.2008 von Christian Vilsbeck

Intels Desktop-Prozessoren Core i7 setzt auf die neue Nehalem-Architektur. Die Kerne von Nehalem basieren auf einer stark verbesserten Core-Mikroarchitektur. Entscheidend ist aber der Abschied von der „klassischen“ Systemarchitektur.

Seit 17. November 2008 gibt es die neue Mikroarchitektur „Nehalem“ bei Intels Desktop-Prozessoren Core i7. Die 45-nm-CPUs arbeiten mit einem integrierten Speicher-Controller und erhalten die neue QuickPath-Technologie.

Die Nehalem-Architektur ist von Intel sehr flexibel ausgelegt. Es wird Prozessoren mit 2, 4 und 8 Kernen sowie mit unterschiedlicher Anzahl an integrierten Speicher-Channels geben. Zusätzlich sind Modelle mit integrierter Grafik-Engine vorgesehen. Premiere feiert Nehalem als Quad-Core-Prozessor.

Modular: Die Nehalem-Architektur zeichnet sich durch Flexibilität bei der Anzahl der Kerne, QuickPath-Interfaces, Speicher-Channels sowie den Cache-Größen aus. (Quelle: Intel)

Die ersten Nehalem-Prozessoren der Serie Core i7 für Desktop-PCs arbeiten mit drei integrierten DDR3-Speicher-Channels. Dabei unterstützt die CPU ungepufferte DDR3-Speichermodule mit Taktfrequenzen bis 1066 MHz – höhere Geschwindigkeiten sind zu späteren Zeitpunkten vorgesehen. So sollen die im ersten Quartal 2009 erwarteten Xeon für 2-Sockel-Systeme mit Codenamen „Gainestown“ DDR3-1333-DIMMs in gepufferter Ausführung unterstützen. Pro Channel sollen drei Module möglich sein.

Speicherbandbreite deutlich höher – Latenzzeit reduziert

Beim Zugriff auf den Speicher beträgt die Latenzzeit des Nehalem „Gainestown“ nur 60 Prozent im Vergleich zum Xeon „Harpertown“ mit FB-DIMMs, wie Intel angibt. Selbst beim Remote-Zugriff via QuickPath auf den Speicher des benachbarten Nehalems (in einem 2-Sockel-System) liegt die Latenzzeit unterhalb des Harpertown.

Die Speicherbandbreite des Core i7 mit seinen drei DDR3-1066-Channels beträgt theoretische 25,5 GByte/s. Ein Desktop-Mainboard mit Core-2-Prozessor und zwei DDR3-1333-Channel liefert eine Speicherbandbreite von 21,2 GByte/s. Bei einem künftigen 2-Sockel-Nehalem-Systems mit insgesamt sechs DDR3-1333-Channel liegt die Bandbreite mit 64 GByte/s um den Faktor 4 höher im Vergleich zu einem Xeon-Harpertown-System mit FSB1600 und vier FB-DIMM-800-Channels.

Bandbreitenzuwachs: Bei 2-Sockel-Systemen erhöht sich mit Nehalem die Peak-Speicherbandbreite gegenüber einem aktuellen Xeon-Harpertown-System um den Faktor 4. (Quelle: Intel)

Intel führt bei der Nehalem-Architektur eine neue Cache-Struktur ein. So steht Nehalems mit 2, 4 oder 8 Kernen ein Shared L3-Cache in inklusiver Ausführung zur Verfügung. Bei einer Transistoranzahl von 731 Millionen beim Core i7 mit Quad-Core-Nehalem realisiert Intel eine Puffergröße von 8 MByte. Jeder Kern besitzt zusätzlich einen dedizierten L2-Cache mit 256 KByte mit laut Intel sehr geringer Latenzzeit. Den L1-Daten- und Befehls-Cache pro Kern dimensioniert der Hersteller auf je 32 KByte.

Neue Cache-Struktur: Den vier Kernen steht ein gemeinsamer L3-Cache zur Verfügung. (Quelle: Intel)

Nehalem-Core mit vielen Erweiterungen

Die Kerne von Nehalem basieren auf der Core-Mikroarchitektur, erhalten aber zahlreiche Verbesserungen:

Nehalem-Core: Die Architektur der Kerne basiert auf dem aktuellen Penryn-Core, erhält aber in allen Bereichen Verbesserungen und Erweiterungen. (Quelle: Intel)

Nehalem-Pipeline: Die Grundstruktur der Befehlsabarbeitung entspricht der Core-Mikroarchitektur. (Quelle: Intel)

Die Basis-Pipeline von Nehalem basiert auf der Core-Mikroarchitektur. Allerdings arbeitet Nehalem vier- statt dreifach superskalar wie Penryn-CPUs. In den Execution-Units können dann sechs Operationen parallel ausgeführt werden.
Der L1-Cache von Nehalem entspricht in seiner Struktur den aktuellen Core-2-/Xeon-DP-Prozessoren. Dafür erhalten Nehalem-CPUs eine neue zweistufige TLB-Hierarchie. Neben dem Befehls- und Daten-TLB verfügt Nehalem über einen neuen Unified 2nd Level TLB. Der Translation Lookaside Buffer ist ein kleiner Zwischenspeicher, der Informationen zur Konvertierung von logischen in physikalische Adressen enthält. Der neue 512 Einträge fassende zweite Translation Look-aside Buffer der Nehalem-Architektur soll die Performance weiter steigern.
Die Macrofusion erweitert Nehalem um „CMP + Jcc“. Außerdem unterstützt Nehalem die Macrofusion nun auch im 64-Bit-Mode.
Der Loop Stream Detector kann bei der Core-Mikroarchitektur 18 Instruktionen bearbeiten. Nehalem erweitert die Funktion auf 28 Micro-Ops, der Detector sitzt nun hinter der Decoder-Unit. Der Loop Stream Detector erkennt Schleifen und entlastet die Sprungvorhersage-Unit.
Der Branch Prediction Reminder des Nehalem verbessert die Sprungvorhersage gegenüber der Core-Mikroarchitektur. Über einen L2 Branch Predictor mit Multi-Level-Schemata sorgt Nehalem bei Software mit hohem Code-Aufkommen, wie etwa Datenbanken, dafür, dass der Branch Predictor vom Fassungsvermögen her ausreicht.
Mit dem Renamed Return Stack Buffer verhindert Nehalem, dass der Return Stack Buffer (RSB) durch spekulative Pfade korrumpiert wird oder ein Overflow erfolgt.

SSE4.2 und Extended Page Tables

Neben einer höheren Parallelisierung durch mehr µOps „in flight“ erhöht Intel die Performance durch SSE-Erweiterungen, Hyper-Threading und neue Virtualisierungs-Features:

Ausführungseinheiten: Die Unified Reservation Station (Scheduler) füttert die Execution-Units über sechs Ports. (Quelle: Intel)

Nehalem kann von seinen sechs Operationen pro Taktzyklus drei Speicherbefehle und drei Rechenoperationen gleichzeitig ausführen. Insgesamt kann Nehalem 128 µOps in seiner Pipeline halten. Bei der Core-Mikroarchitektur sind maximal 96 µOps gleichzeitig möglich. Dies wird bei Nehalem durch die vergrößerte Unified Reservation Station (Scheduler) erreicht. Außerdem erhöht Intel das Fassungsvermögen der Load- und Store-Buffer um zirka 50 Prozent.
Neu in der Nehalem-Architektur ist der Befehlssatz SSE4.2. Intel fügt zu den bei Penryn eingeführten 47 SSE4.1-Befehlen sieben neue Instruktionen hinzu. Beispielsweise sollen damit 256 compares mit einer Instruktion möglich sein. Des Weiteren gibt es den Financial Market Data Parser. Für Finanzberechnungen sollen sich mit dieser SSE4.2-Erweiterung die Anzahl der Instruktionen um 75 Prozent reduzieren und die Performance um den Faktor 3 steigern lassen.

SSE4.2: Neben den 47 SSE4.1-Instruktionen von Penryn beherrscht Nehalem sieben neue Befehle. Intel fasst den kompletten Befehlssatz mit der Bezeichnung SSE4.2 zusammen. (Quelle: Intel)

Von der NetBurst-Architektur übernimmt Nehalem in einer verbesserten Version das Simultaneous Multi-Threading, bekannt als Hyper-Threading. Damit verhält sich jeder Nehalem-Kern wie ein virtueller Dual-Core.
Die Virtualisierungstechnologie von Nehalem wird um Extended Page Tables erweitert. Die Latenzzeit für einen Ein- und Austritt aus einer virtuellen Maschine reduziert sich bei Nehalem im Vergleich zur Penryn-Architektur um 40 Prozent.

Turbo-Technologie übertaktet Kerne

Intel führt bei den Core-i7-Quad-Core-Prozessoren den „Turbo Modus“ zum Übertakten von eins, zwei oder drei Kernen ein. Die Turbo-Technologie des Core i7 entspricht im Prinzip der Dynamic Acceleration Technologie der mobilen Core-2-Duo-Prozessoren. Mit Dynamic Acceleration will Intel Single-Thread-Anwendungen beschleunigen. Befindet sich bei einer Dual-Core-CPU ein Kern im Energiesparmodus C3 oder tiefer, so darf der aktive Core mit einer höheren Taktfrequenz arbeiten. Dabei wird der spezifizierte TDP-Wert des Prozessors zu jeder Zeit eingehalten.

Turbo Mode: Sind bei Nehalem Kerne inaktiv, so kann die Turbo Technologie den arbeitenden Kern übertakten.

Bei der Turbo-Technologie des Nehalem verhält es sich ähnlich. Sind von dem Quad-Core-Prozessor drei Kerne inaktiv, so kann der aktive Kern mit einem oder zwei „Speed Bins“ höher getaktet werden. Arbeiten zwei oder drei Kerne, dann erhöht die Turbo-Technologie die Taktfrequenz um einen „Speed Bin“. Selbst wenn alles vier Kerne aktiv sind, dürfen diese mit einem „Speed Bin“ höher takten, insofern die maximal definierte Stromaufnahme nicht überschritten wird. Ein „Speed Bin“ bedeutet beim Core i7 eine Taktfrequenzerhöhung von 133 MHz. Bei der Turbo Technologie wird wie bei Dynamic Acceleration die TDP des Prozessors zu keinem Zeitpunkt überschritten. Allerdings lotet die Technologie die Grenze der TDP-Einstufung des Prozessors aus.

Einen ausführlichen Test des Turbo Mode finden Sie im Artikel Test: Intels Turbo-Technologie bei Core-i7-Prozessoren.

Power Gate: Intel kann beim Nehalem jeden Kern unabhängig voneinander über den Energiesparmodus C6 abschalten.

Neben der Turbo-Technologie für mehr Performance erhält der Nehalem-Prozessor auch neue Power-Management-Features. Demnach schaltet die CPU einzelne Kerne unabhängig voneinander in den C6-Modus. Der Stromsparmodus C6 entspricht laut Intel dem nahezu kompletten Deaktivieren eines Kernes. Nehalem kann einen, zwei oder drei Kerne je nach Workload und somit der CPU-Auslastung abschalten.

Core-i7-CPUs arbeiten mit X58-Chipsatz

Die mit Hyper-Threading ausgestatteten Nehalem-Prozessoren kommunizieren mit der Peripherie und anderen CPUs über die neue serielle QuickPath-Schnittstelle. Nehalem-CPUs für 2-Sockel-Systeme sind mit zwei QuickPath-Interfaces ausgestattet. Der Core i7 besitzt eine QuickPath-Schnittstelle.

Als Plattform für den Core i7 dient Tylersburg. Intel setzt für die Nehalem-Desktop-Prozessoren den neuen X58-Chipsatz mit ICH10/R ein. Die ersten Nehalem-CPUs Core i7 920 (2,67 GHz) und 940 (2,93 GHz) stattet Intel mit einem 4,8 GT/s schnellen QuickPath-Interface aus. Das Topmodell Core i7 965 Extreme Edition (3,20 GHz) kommuniziert mit bis zu 6,4 GT/s mit dem X58-Chipsatz. Via QuickPath steuert der Core i7 über den X58-Chipsatz unter anderem die Grafikkarte und PCI-Express-Peripherie an.

Core i7 „Bloomfield“: Der Nehalem-Desktop-Prozessor „Bloomfield“ verwendet den X58-Chipsatz „Tylersburg 36S“ mit ICH10/R. (Quelle: Intel)

Intels neue Core-i7-Prozessoren benötigen durch QuickPath und dem integrierten Speicher-Controller den neuen Sockel LGA1366. Die erforderlichen Kühlmaßnahmen bleiben im Vergleich zum Core 2 Extreme unverändert: Intel spezifiziert den Core i7 920, 940 und 965 XE mit 130 Watt TDP.

Nehalem-CPU Lynnfield löst Core 2 Quad ab

Der Quad-Core-Prozessor „Lynnfield“ mit Nehalem-Architektur wird im zweiten Halbjahr 2009 Intels Mainstream-Variante. Der Lynnfield-Prozessor soll den aktuellen Core 2 Quad ersetzen. Wie die ersten Core-i7-Modelle „Bloomfield“ wird Intels Lynnfield über einen nativen Quad-Core verfügen. Durch das ebenfalls integrierte Hyper-Threading beherrscht somit auch Lynnfield acht parallele Threads. Im Gegensatz zum Core i7 Extreme steuert beim Lynnfield der integrierte Speicher-Controller aber nur zwei statt drei DDR3-Channels an. Unverändert zum Bloomfield bleibt der auf 8 MByte dimensionierte L3-Cache.

Im Gegensatz zum aktuellen Core i7 gibt es beim Lynnfield-Prozessor keine QuickPath-Schnittstelle. Via QuickPath steuert der Core i7 über den X58-Chipsatz unter anderem die Grafikkarte an. Beim Lynnfield integriert Intel dagegen einen direkten Grafikkarten-Support. So besitzt Lynnfield ein PCI-Express-Interface mit wahlweise einer x16- oder zwei x8-Links.

Durch die integrierte Grafikkarten-Steuerung kann Lynnfield auf die QuickPath-Schnittstelle für die Kommunikation mit dem Chipsatz verzichten. Hier genügt Intel das DMI-Interface, mit dem bei aktuellen Chipsätzen der MCH mit dem ICH kommuniziert.

Als Chipsatz für Lynnfield wird Intel „Ibex Peak“ einsetzen. Der Chip macht auch einen diskreten ICH überflüssig – die I/O-Funktionen sind in den Ibex-Peak-Chip gewandert.

Nehalem-CPU Havendale mit integrierter Grafik

Den ebenfalls im zweiten Halbjahr 2009 erwarteten Havendale stattet Intel mit zwei Nehalem-Kernen aus. Per Hyper-Threading kann der Prozessor somit vier Threads parallel abarbeiten. Den beiden Kernen steht gemeinsamer 4 MByte großer L3-Cache zur Verfügung. Der integrierte Speicher-Controller von Havendale steuert nur zwei DDR3-Channels an.

Dafür wandert die Grafik zusammen mit der CPU „auf einen Sockel“. Dabei verwendet Intel ein Multi-Chip-Verfahren: Prozessor und Grafik-Engine verwenden ein eigenes Siliziumplättchen, vereint in einem CPU-Gehäuse. Neben der internen Grafik unterstützt Havendale über einen integrierten PCI Express x16 Link auch diskrete Grafikkarten.

Nehalem für alle: Der Core i7 Extreme startet Intels Nehalem-Ära. Im zweiten Halbjahr 2009 gibt es mit Havendale und Lynnfield dann günstigere Nehalem-Prozessoren. (Quelle: Intel)

Durch die integrierte Grafik-Steuerung verzichtet Havendale auf die QuickPath-Schnittstelle für die Kommunikation mit dem Chipsatz. Hier genügt Intel das DMI-Interface. Für die Grafikausgabe der integrierten Engine auf ein Display sorgt zusätzlich das „Flexible Display“ Interface FDI.

Havendale-Plattform: Das Mainboard setzt auf die 1-Chip-Lösung „Ibex Peak“ als Chipsatz. Der Havendale-Prozessor steuert zwei DDR3-Channels an. Das CPU-Gehäuse beherbergt zusätzlich eine Grafik-Engine auf einem separaten Siliziumplättchen. (Quelle: Intel)

Als Chipsatz für Havendale wird Intel wie bei Lynnfield „Ibex Peak“ einsetzen. Der Chipsatz ist mit dem Prozessor über das DMI- und FDI-Interface verbunden. FDI wird dabei nicht benötigt, wenn Havendale über sein PCIe-Interface direkt eine diskrete Grafikkarte anspricht. Hier steuert die Karte dann das Display an. Wird die integrierte Grafik-Engine von Havendale verwendet, muss die Display-Ansteuerung Ibex Peak erledigen.

Weil Havendale im Gegensatz zum Core i7 „Bloomfield“ nur zwei DDR3-Channels ansteuert und auf QuickPath verzichtet, ist der eigene Sockel LGA1160 notwendig.

Fazit

Intel holt mit den Nehalem-CPUs zum nächsten „großen Schlag“ aus. Damit bietet Intel die Features, die AMD stets als „entscheidenden“ Vorteil herausstellte: nativer Quad-Core, integrierte und virtualisierbare Speicher-Controller und ein serielles flexibles Bus-Interface.

Mit gezielten Verfeinerungen in der Core-Architektur merzt Intel „Schwachstellen“ aktueller Core-basierender Prozessoren zusätzlich aus. Die neuen Desktop-Prozessoren Core i7 mit Nehalem-Architektur legen in der Performance so nochmals einen deutlichen Schritt zu, wie unser Test zeigt. (cvi)