Intel zeigt Pentium IV mit 1500 MHz

23.01.2001 von ALBERT  LAUCHNER
Auf dem Intel Developer Forum in Palm Springs hat Intel das erste Silizium des Pentium-III-Nachfolgers Willamette gezeigt und technische Details veröffentlicht. Mit konventioneller Luftkühlung lief die CPU während der Demonstration mit 1,5 GHz, sie soll noch in diesem Jahr auf den Markt kommen.

Das erste Silizium des Willamette ist nach Aussage von Senior Vice President Albert Yu vor einem Monat fertiggestellt worden. Die in 0,18 Mikron gefertigte CPU soll noch dieses Jahr in Stückzahlen von einigen Hunderttausenden auf den Markt kommen, und nächstes Jahr den Pentium III ablösen. Willamette enthält einen komplett neuen Kern, der sich drastisch vom P6-Kern des Pentium II und Pentium III unterscheidet. Willamette stellt damit die erste komplett neu entwickelte 32-Bit-CPU von Intel seit dem Pentium Pro dar, der 1996 Premiere feierte. Auf dem P6-Kern des Pentium Pro basieren auch Pentium II und Pentium III. Willamette, dessen endgültiger Produktname vermutlich "Pentium IV" lauten wird, erweitert das Konzept von Intels 32-Bit-Prozessoren an entscheidenden Stellen, die wir im Folgenden kurz beleuchten.

Businterface und Chipsatz

Willamette verwendet noch immer das Bus-Protokoll des P6-Kerns. Der 64-Bit-breite Bus läuft aber mit virtuellen 400 MHz. Mit theoretischen 3,2 GByte/s ist die Datentransferrate damit dreimal höher als beim P-III-Coppermine mit einem FSB von 133 MHz. Diese 3,2 GByte/s entsprechen der Bandbreite von zwei Rambus-Kanälen, mit denen auch der Willamette-Chipsatz "Tehama" aufwarten wird. Auf dem IDF konnten schon die ersten Protoypen von Motherboards mit 2 mal 2 RIMMss ausgemacht werden. Wie die CPU ist auch Tehama in einem frühen Silizium-Stadium. Zusammen mit dem neuen Chipsatz definiert Intel auch den "Socket 423", in den bisher nur Willamette passt.

Physikalisch arbeitet der FSB des Willamette zwar nur mit 100 MHz, pro Taktzyklus überträgt der Prozessor aber vier Datensätze über die Pins. Dies wird von Intel als "Quad Pumping" bezeichnet und entspricht im Prinzip der Technik von AGP 4x.

Pipeline mit 20 Stufen und Trace-Cache

Im Gegensatz zum P6-Kern mit seiner zehnstufigen Pipeline arbeitet Willamette mit 20 Stufen, einer sehr langen "Deep Pipeline". Dadurch erledigt jede Stufe nur eine kleine Teilaufgabe, die Pipeline kann aber doppelt so hoch getaktet werden. Dies erklärt auch die bei der Demonstration gezeigten 1,5 GHz. Problematisch für Deep Pipelines sind falsch vorhergesagten Sprünge. Die Pipeline stockt und liefert viele Takte lang kein Ergebnis. Daher hat Intel die Branch Prediction, also die Sprungvorhersage des Willamette verbessert und auch den Prediction Buffer vergrößert. Die Anzahl der spekulativen Befehle in der Pipeline wurde auf 100 erhöht.

Mikro-Ops im Trace-Cache

Ein Novum bei Intel-CPUs ist das Konzept, wie Instruktionen im neu hinzugekommenen Trace-Cache verwaltet werden. Es erinnert entfernt an das Codemorphing bei Transmetas Crusoe. Bislang enthielt der L1-Cache als letzte Stufe vor der Pipeline die komplexen x86-Befehle. Sie wurden beispielsweise während Programmschleifen von der CPU bei jedem Durchlauf neu dekodiert. Bei Willamette hat Intel die Anbindung des L1-Cache weiter nach unten in der Pipeline verschoben. Im Trace-Cache werden jetzt die bereits dekodierten Micro-Operations gespeichert. Diese beanspruchen zwar deutlich mehr Platz, der gecachte Code wird aber schneller abgearbeitet, da die komplexen IA-32-Befehle nicht mehr vor jedem Gebrauch neu dekodiert werden müssen.

Beim L1-Datencache hat Intel die Latenzzeit von drei auf zwei Takte gesenkt. Das Addieren mit zwei Loads, einem Store und dem Add dauert beim Willamette nur noch fünf statt acht Takte wie beim Pentium III.

ALU mit 3GHz, 50 Watt Stromverbrauch

Bei den Befehlsmengen, die die Pipeline liefert, könnte die ALU zum Flaschenhals werden. Bei einigen CPU-Designs ist die ALU vielfach parallel vorhanden. Intel geht beim Willamette einen anderen Weg. Die ALU ist nur doppelt ausgeführt, läuft aber mit dem doppelten CPU-Takt, im Intel-Jargon "double pumped". Bei der Demonstration des 1,5-GHz-Prozessors entsprach das einem ALU-Takt von 3 GHz. Durch wenige, aber schnelle ALUs entstehen kaum Abhängigkeiten der ALUs untereinander. Die zwei ALUs von Willamette sollen deshalb effektiver arbeiten als vier einfach getaktete ALUs.

Entgegen den Erwartungen enthält Willamette nicht zwei FP-Einheiten. Statt dessen hat Intel eine eigene "FP Move and Store"-Einheit zugefügt, die vom Design her viel einfacher ist, aber laut Intel fast so viel Leistungsgewinn bringt wie eine doppelte FPU.

L2-Cache und Leistungsaufnahme

Noch keine genauen Angaben machte Intel zum L2-Cache. Er wird aber wie beim Pentium III/Coppermine 256 KByte groß sein und auf dem Die integriert werden. Das Die des Willamette soll nur "unwesentlich größer" als beim Coppermine sein. Dennoch liegt die Leistungsaufnahme aufgrund des hohen Takts bei 50 bis 60 Watt. Da Willamette nur für den Sockel als FC-PGA erscheint, sind wieder einmal neue Kühlkörper fällig.

Streaming SIMD Extensions 2

Mit 144 neuen SIMD-Befehlen hat Intel die Multimedia-Fähigkeiten des Pentium IV aufgestockt. Der Prozessor hat hierfür keine neuen Register bekommen. Allerdings können in den acht SIMD/XMM-Registern nun auch im Integerbereich bis zu 16 Sätze mit 8-Bit-Daten auf einmal bearbeitet werden. Alle anderen Kombinationen bis zu zweimal 64-Bit-Daten sind ebenfalls möglich. Dies verdoppelt die Rechenleistung bei entsprechenden Anwendungen. Mit anderen Worten: Intel hat das 64-Bit-Datenformat von MMX nun auf 128 Bit erweitert.

Die alten 64-Bit-MMX-Register des Pentium III sind auf die neuen Register gemappt. Je nach Programmumgebung kommt der eine oder der andere Registersatz zur Verwendung. Eine eigene Ausführungs-Einheit ist dadurch nicht nötig.

Die bei Anwendungen aus Wissenschaft und Technik benutzten Fließkommawerte mit doppelter Genauigkeit (Double Precision Floatingpoints) sind 64 Bit breit. Beim Pentuim III waren parallele Floatingpoint-Berechnungen in den SIMD-Registern nur mit einfacher Genauigkeit möglich. Es konnten zwei mal vier 32 Bit Single-Precision-Werte bearbeitet werden. Willamette ermöglicht jetzt parallele Operationen mit zwei "echten" FP-Datensätzen und es lassen sich zwei mal zwei 64-Bit-Werte verwenden. Im Einzelnen gibt es folgende neuen Datenformate:

Damit wird SIMD für eine Vielzahl numerischer Anwendungen wie beispielsweise Simulationen interessant, da hier identische FP-Operationen auf großen Arrays von Daten ablaufen. Bei entsprechend angepasster Software sollte hier die FP-Rechenleistung deutlich steigen.

An neuen Befehlen enthält SIMD2 beispielsweise einen doppelten 32x32 Bit Multiply, der in einem Takt abläuft. Zusammen mit dem SIMD-ADD von 64-Bit-Werten soll beispielsweise eine RSA-Verschlüsselung bei gleichem Takt bis zu dreimal schneller als beim Pentium III ablaufen.

Konkrete Benchmarks wollte Intel auf dem IDF noch nicht vorlegen. Was die extrem lange Pipeline des Willamette in Verbindung mit dem hohen Takt und den Architektur-Verbesserungen also in der Praxis bringt, muss sich erst noch zeigen. Nach der Demonstration mit 1,5 GHz erklärte Albert Yu, dass die CPU wahrscheinlich nicht gleich zum Jahresende mit diesem Takt geliefert wird. Nach den neuesten Informationen soll Willamette ab Herbst aber mit 1,4 GHz auf den Markt kommen. (ala/mec/nie)