AMD-K10-Gegner: Intels 45-nm-Penryn-CPUs mit SSE4

30.05.2007 von Christian Vilsbeck
Mit der Penryn-Architektur verbessert Intel seine Core-2-Prozessoren. Mit über 3 GHz Taktfrequenz, 12 MByte Cache, der SSE4-Erweiterung und zahlreichen neuen Features fordern die ersten 45-nm-CPUs im zweiten Halbjahr 2007 AMDs Phenom und Opteron.

Intel führt mit der Penryn-Architektur erstmals Prozessoren mit einer Strukturbreite von 45 nm ein. Noch in der zweiten Jahreshälfte 2007 frischt der Hersteller mit Penryn seine aktuellen 65-nm-Modelle Core 2 Duo, Core 2 Quad und Xeon auf.

Zusammen mit der Reduzierung der Strukturbreite erhalten die Penryn-Prozessoren höhere Taktfrequenzen, schnellere FSBs sowie eine Aufstockung der L2-Cache-Größe. Die Energieaufnahme der CPUs soll durch die 45-nm-Technologie auf dem Niveau der aktuellen Modelle verharren.

Video: Gezeigt wird die Fahrt vom Wafer hinein zum High-K-Transistor bei Intels neuem 45-nm-Prozess. (Quelle: Intel)

Intel führt mit den Penryn-Modellen auch zahlreiche Architekturerweiterungen ein. Für einen deutlichen Performance-Schub sollen beispielsweise die 47 neuen SSE4-Befehle und Feintuning wie „Super Shuffle“ sowie die „Intel Acceleration Technology“ sorgen.

Mehr Performance kann nicht schaden, so die Devise bei Intel. Schließlich soll AMDs ebenfalls in der zweiten Jahreshälfte 2007 erwartete neue Prozessorgeneration K10 schon vor dem Launch unter Druck gesetzt werden.

Die ersten CPUs mit 45 nm

Im Oktober 2005 hatte Intel die Fertigung seiner CPUs auf den 65-nm-Prozess P1264 umgestellt. Doch die ehrgeizige Roadmap des Herstellers fordert noch 2007 einen weiteren Miniaturisierungsschritt. Durch den Übergang auf 45 nm reduziert sich die Fläche eines Transistors auf rund die Hälfte. Dadurch kann Intel die Prozessoren preiswerter herstellen und die CPUs mit mehr Transistoren ausstatten.

Beim neuen 45-nm-Prozess P1266 legt Intel eigenen Angaben zufolge viel Wert auf eine niedrige Verlustleistung. So sollen die Leckströme auf ein Fünftel sinken. Auch die zum Schalten nötige Energie will Intel um 30 Prozent reduziert haben. Die Transistoren arbeiten dafür über ein nur noch 20 nm langes Gate.

High-K-Transistor: Intel ersetzt beim 45-nm-Prozess das SiO2-Dielektrikum durch das neue High-K-Gate-Oxid. Zusätzlich kommt ein Metall-Gate statt des üblichen Poly-Silizium-Gates zum Einsatz. (Quelle: Intel)

Mit dem Übergang auf die 45-nm-Technologie treibt Intel auch die Taktfrequenz von den aktuellen 3,0 GHz weiter nach oben. Die neue Prozesstechnologie erlaube 20 Prozent höhere Ströme – und somit auch eine entsprechend höhere Performance. Möglich soll dies vor allem ein neues High-K-Gate-Dielektrikum in Kombination mit einem ebenfalls neuen Metall-Gate machen. Dieses kommt statt der aktuellen Poly-Silizium-Gates zum Einsatz.

Penryn-Die: Beim Dual-Core-Modell belegt der 6 MByte große L2-Cache (links im Bild) zirka die Hälfte der Siliziumfläche. (Quelle: Intel)

Intel vergrößert bei Dual-Core-Penryn-CPUs den Shared L2-Cache von aktuell 4 auf 6 MByte. Quad-Core-Penryn-CPUs fertigt Intel weiterhin im Multi-Chip-Verfahren mit zwei Dual-Core-Dies. Somit können Vierkern-Penryns auf insgesamt 12 MByte L2-Cache zurückgreifen. Die Assoziativität der zweiten Pufferstufe erhöht Intel von 16- auf 24-fach, damit der Cache optimaler ausgenutzt wird.

Penryn-Prozessoren mit Dual-Core-Technologie sind laut Intel aus 410 Millionen Transistoren in 45-nm-Strukturbreite aufgebaut. Quad-Core-Modelle der Penryn-Serie besitzen über 820 Millionen Transistoren. Alle 45-nm-Prozessoren will Intel zu hundert Prozent bleifrei produzieren.

Beschleunigung mit SSE4

Intel integriert bei den Penryn-CPUs erstmals den SSE4-Befehlssatz. Die 47 neuen Instruktionen sollen Applikationen aus vielen Bereichen beschleunigen. Intel führt hier vektorbasierende Compiler, Enkodieren von Videos, Bildverarbeitung, Spiele, Textverarbeitung sowie Serverapplikationen auf.

SSE-Historie: Die beschleunigenden Multimedia-Erweiterungen starteten bei Intel 1997 mit MMX. Mit der Vorstellung des Pentium III im Jahr 1999 gab es dann die erste SSE-Variante. (Quelle: Intel)

In SSE4-optimierten Anwendungen wie dem DivX-Enkoder 6.6 Alpha erreichen Penryn-CPUs in ersten Benchmarks zirka die doppelte Performance gegenüber aktuellen Core-2-Prozessoren. 3D-Anwendungen sollen beispielsweise von der SSE4-Instruktion Streaming Load „MOVNTDQA“ besonders profitieren. Der Befehl erhöht die Bandbreite beim Lesen von Daten aus dem Grafik-Frame-Buffer. Mit MOVNTDQA lässt sich eine volle Cache-Line mit 64 statt 8 Byte einlesen - die theoretische Bandbreite wird achtfach höher.

SSE4: Die 47 neuen Befehle beschleunigen Video-, Audio- und Bildbearbeitung ebenso wie Spiele und 3D-Content.

Super Shuffle & Fast Radix-16

Die Super Shuffle Engine wird beim Formatieren von Daten bei SSE-Instruktionen benötigt, wie beispielsweise Packing/Unpacking oder Shifts. Super Shuffle kann eine 128-Bit-Operation in einem Taktzyklus durchführen. Anpassungen der Software sind für die Funktion von Super Shuffle nicht notwendig.

Super Shuffle: Werden zwei SSE-Daten mit einer Schiebefunktion verknüpft, so soll Super Shuffle für die doppelte Performance sorgen. (Quelle: Intel)

Intels Super Shuffle soll bei den bisherigen SSE-Befehlssätzen und den neuen SSE4-Instruktionen beschleunigend wirken. Super Shuffle verdoppelt die Geschwindigkeit der meisten Schiebefunktionen von SSE-Daten laut Intel durch weniger notwendige Taktzyklen.

Flink: Die meisten Schiebefunktionen erledigt Penryn mit Super Shuffle in einem Taktzyklus. (Quelle: Intel)

Der Fast Radix-16 Divider ist ein schneller Teiler, mit dem nun vier statt zwei Bits pro Taktzyklus berechnet werden können. Vor allem beim Wurzelziehen will Intel damit mehr als die doppelte Performance erreichen. Im Durchschnitt ermöglicht Fast Radix-16 laut Intel beim Teilen von Ganz- als auch Fließkommazahlen die doppelte Geschwindigkeit wie die aktuelle Core-Mikroarchitektur.

Schneller Teiler: Der Fast Radix-16 Divider der Penryn-Architektur soll die Teilgeschwindigkeit im Durchschnitt verdoppeln. (Quelle: Intel)

Turbo für Single Threads: Dynamic Acceleration

Mit der Dynamic Acceleration Technology will Intel Single-Thread-Anwendungen bei den Penryn-Prozessoren beschleunigen. Befindet sich bei einer Dual-Core-CPU ein Kern im Energiesparmodus C3 oder tiefer, so darf der aktive Core mit einer höheren Taktfrequenz arbeiten. Dabei wird der spezifizierte TDP-Wert des Prozessors – beispielsweise 65 Watt – zu jeder Zeit eingehalten.

Beide Kerne aktiv: Die zwei Cores arbeiten mit ihrer garantierten Maximaltaktfrequenz. Der TDP-Wert wird entsprechend eingehalten. (Quelle: Intel)

Laut Intel wird durch Dynamic Acceleration die zulässige TDP des Prozessors besser ausgenutzt, um Single-Thread-Anwendungen mehr Performance zu bieten. Erstmals zum Einsatz kommt Dynamic Acceleration beim neuen mobilen Core 2 Duo der Santa-Rosa-Plattform. So würde beispielsweise beim Core 2 Duo T7500 mit 2,2 GHz der einzelne Kern im Bedarfsfalle mit 2,4 GHz getaktet. Intel gibt für diesen „Turbo Mode“ 10 Prozent mehr Performance an. Penryn-CPUs erlauben die Dynamic Acceleration durch einen Hysteresis-Mechanismus für kurze Intervalle auch bei einem aktiven zweiten Core.

Ein Kern aktiv: Befindet sich ein Core im Energiesparmodus (im Bild C3-State), so kann der andere Kern mit einer erhöhten Taktfrequenz arbeiten. Der TDP-Wert des Prozessors wird dabei nie überschritten. (Quelle: Intel)

Den Begriff Overclocking sieht Intel in diesem Zusammenhang nicht. „Beim Overclocking arbeiten die Prozessoren nicht mehr innerhalb der Spezifikation“, so Mooly Eden, Corporate Vice President & General Manager Mobile Platforms Group bei Intel. Mit der Dynamic Acceleration Technology überschreiten die Prozessoren die Spezifikation laut Intel aber zu keiner Zeit.

Leere Caches: Deep Power Down

Bei den mobilen Penryn-Prozessoren wird Intel den neuen Stromsparmodus Deep Power Down einführen. Mit diesem Sparmodus, der nach dem C4-State greift, will Intel Verluste durch Leckströme im Cache verhindern.

Zu diesem Zweck werden der L1- und L2-Cache komplett ausgeschaltet und die Core-Spannung nochmals deutlich gesenkt. In einem internen Speicher sichert die CPU hierfür den Status der Mikroarchitektur. Über eine gesonderte Versorgungsspannung bleibt dieser interne Speicherbereich aktiv. Der Inhalt der Caches wird geleert.

Deep Power Down: Bei dem tiefsten Energiesparmodus der Penryn-Modelle schaltet die CPU die Caches komplett aus. (Quelle: Intel)

Der Chipsatz führt während der Schlafphase der CPU weiterhin I/O-Speicherverkehr durch. Wird ein Kern des Prozessors benötigt, so sorgt der Chipsatz für ein Anheben der Core-Spannung, die CPU stellt den im internen Speicher abgelegten Status wieder her und die Caches reinitialisieren sich.

In Aktion: Das Betriebssystem schickt die CPU mit der MWAIT-Instruktion in den Energiesparmodus. Der Chipsatz weckt den Prozessor bei anstehenden Aktionen wieder auf. (Quelle: Intel)

Ein zu häufiges Schalten in tiefe C-States kann laut Intel netto gesehen aber zusätzliche Energie benötigen. Um dies zu verhindern, verfügt Penryn über eine „intelligente“ heuristische Logik. Damit wägt der Prozessor ab, ob sich in Leerlaufphasen das Schalten in den Deep Power Down State lohnt, oder der C4-Energiesparmodus energetisch besser ist.

Der Energiesparmodus Deep Power Down findet in den Desktop- und Server-Modellen der Penryn-Serie keinen Einzug. Einzig die mobilen Dual-Core-Penryns sind dafür vorgesehen.

Flinkerer Wechsel zwischen VMs

Die Prozessor-Virtualisierung des Penryn wird durch verbesserte Enter-/Leave-Funktionen für 25 bis 75 Prozent flinkere Task-Wechsel zwischen virtuellen Maschinen ergänzt. Intel erreicht die Performance-Steigerung durch Mikroarchitekturerweiterungen. Anpassungen an der Virtualisierungs-Software sind laut Intel nicht notwendig.

Schneller Rein und Raus: Taskwechsel von und zu virtuellen Maschinen sollen Penryn-Prozessoren um bis zu 75 Prozent schneller erledigen. (Quelle: Intel)

Penryn-Versionen

Intel wird Penryn in den Xeon-Prozessoren mit Taktfrequenzen von mehr als 3,0 GHz und einen von 1333 auf 1600 MHz erhöhten FSB anbieten. Die Penryn-Quad-Core-Xeons mit dem Code-Namen „Harpertown“ plant der Hersteller wieder in Versionen mit 50, 80 und 120 Watt TDP. Dual-Core-Penryn-Xeons „Wolfdale DP“ spezifiziert Intel mit 40, 65 und 80 Watt TDP.

Penryn-Familie: Intel führt die 45-nm-Prozessoren ab Ende 2007 schrittweise in allen Segmenten ein.

Desktop-Prozessoren mit Penryn-Architektur erhalten weiterhin die Markennamen Core 2 Duo/Quad und Core 2 Extreme für die Highend-Version. Die CPUs werden mit 65 (Dual-Core, Codename Wolfdale), 95 und 130 Watt (Quad-Core, Codename Yorkfield) spezifiziert sein. Während des Intel Developer Forums im April 2007 in China konnte tecCHANNEL die Penryn-Modelle Wolfdale und Yorkfield antesten. Die CPUs arbeiteten jeweils mit 3,33 GHz Taktfrequenz sowie einem FSB1333.

Die mobilen Core-2-Penryns wird Intel als Dual-Core-Versionen anbieten. Quad-Core-Modelle sind nicht geplant. Zusätzliche Features gegenüber den Desktop- und Servermodellen sind der Stromsparmodus Deep Power Down sowie die Dynamic Acceleration Technology. Erste Penryn-Mobile-Prozessoren wird es mit FSB800 im ersten Quartal 2008 für die aktuelle Santa-Rosa-Plattform geben. Für die noch in der ersten Jahreshälfte 2008 neue Centrino-Plattform Montevina hebt Intel den FSB der mobilen Penryns auf 1066 MHz an.

Ausblick

Intels Penryn-Prozessoren erlauben durch die geringere Strukturbreite von 45 nm höhere Taktfrequenzen und größere Caches – der Energiebedarf bleibt gleich. Die bereits schnelle Core-Mikroarchitektur erhält mit Penryn aber noch zahlreiche Erweiterungen wie den SSE4-Befehlssatz.

Damit erlauben die 45-nm-Prozessoren, wie erste von Intel vorinstallierte Benchmarks von 3,33-GHz-Modellen belegen, bis zu 111 Prozent mehr Performance – gegenüber einem Core 2 Extreme QX6800. Im Durchschnitt sind es zirka 36 Prozent. Unter Berücksichtigung der 14 Prozent höheren Taktfrequenz des Penryn bedeuten die Ergebnisse eine ordentliche Leistungssteigerung.

Die 111 Prozent bessere Performance schafft der angetestete 3,33-GHz-Quad-Core-Penryn beim Video-Enkodieren mit einer Penryn-optimierten DivX-Version. Hier profitiert die CPU-Architektur extrem gut von den neuen SSE4-Befehlen. Potenzial ist somit in der vierten Version der Multimedia-Erweiterung mehr als vorhanden.

Mit den frühen Performance-Werten und den vielen Details zum Penryn will Intel offenbar AMD frühzeitig den Wind aus den Segeln nehmen. Denn die für die zweite Jahreshälfte 2007 angekündigten K10-Prozessoren sollen bis zu 80 Prozent mehr Rechengeschwindigkeit gegenüber den aktuellen AMD64-Modellen leisten.

Spannend wird das Rennen zwischen den neuen CPU-Generationen von Intel und AMD allemal. Gut so, denn zuletzt, waren die Ergebnisse bei Benchmark-Vergleichen stets recht eindeutig. (cvi)

tecCHANNEL Preisvergleich & Shop

Produkte

Info-Link

Prozessoren

Preise und Händler