Details zum Pentium 4

20.11.2000 von Christian Vilsbeck
Der Pentium 4 ist nicht nur ein Aufguss des Pentium III. Mit NetBurst stellt Intel ein komplett neues Prozessordesign vor. Taktfrequenzen ab 1,4 GHz und Skalierbarkeit für viele Jahre sollen als Erfolgsgarant dienen.

Intel stellte 1995 mit dem Pentium Pro die P6-Architektur vor. Die damalige Taktfrequenz: 150 MHz. Viele Sprösslinge verfügen seitdem über dessen Erbgut: Pentium II, Celeron, Pentium III sowie die Xeon-CPUs. Variationen und Verbesserungen gab es im Wesentlichen in den Cache-Architekturen. Wirklich neu war nur die SSE-Befehlserweiterung des Pentium III. Die P6-Architektur des Pentium III sieht aber ihrem Ende der Skalierbarkeit entgegen: Höhere Taktfrequenzen bewirken nur noch geringe Steigerungen der Systemleistung.

Der Pentium 4 startet mit Taktfrequenzen von 1,4 und 1,5 GHz. Und mit ihm feiert ein völlig überarbeiteter Core Premiere: die NetBurst-Architektur. Sie soll Intels Prozessoren fit für die nächsten Jahre machen. Mit Northwood und Foster kommen bereits 2001 die nächsten Pentium-4-Versionen. Bei der NetBurst-Architektur hat Intel an den entscheidenden Stellen gefeilt, um wieder signifikante Steigerungen von Taktfrequenz und Performance zu ermöglichen.

Eine Feile wurde beim Pentium 4 deshalb auch am Systembus angesetzt. Die antiquierten 133 MHz des Pentium III weichen einem "Quad Pumped Bus" mit 400 MHz. Einher damit kommt auch ein neuer Sockeltyp: Socket 423 nennt sich die Plastikfassung für den Pentium 4.

Der Pentium-4-Prozessor weist nicht nur radikale Core-Änderungen auf, auch beim Drumherum verlangt er nach Neuland. Die folgenden Seiten informieren Sie detailliert über die NetBurst-Architektur des Pentium 4. Der Name "NetBurst" wurde von Intels Marketing-Strategen dabei bewusst aufgrund des anhaltenden Internet-Booms gewählt.

NetBurst-Architektur

Intel setzt beim Pentium 4 nicht mehr auf den P6-Core der Prozessorfamilien von Pentium Pro bis Pentium III. NetBurst ist der Sammelbegriff für eine Vielzahl von Neuerungen, die beim Pentium 4 erstmals Einzug halten:

Cache-Architektur

Ein wesentlicher Architektur-Unterschied zum P6-Core und ein Novum bei Intel-x86-Prozessoren ist der Trace-Cache. Bisher war der L1-Cache jeweils in einen Daten- und Befehls-Cache aufgeteilt. NetBurst verwendet für Daten zwar einen L1-Cache, verzichtet aber auf einen x86-Befehle speichernden Befehlscache. Der Pentium 4 dekodiert den x86-Code erst in Micro-Ops (µOps), die zur Weiterverarbeitung in den Ausführungseinheiten notwendig sind. Erst dann wird der Code im Trace-Cache gespeichert. Der laut Intel rund 12.000 µOps fassende Trace Cache kann jetzt die schnellen Ausführungseinheiten ohne Wartezyklen für die Code-Dekodierung versorgen.

Zusätzlich legt der Trace-Cache die µOps und zugehörigen Befehlssprünge in der gleichen Cache-Line ab. Damit wird der Befehlsfluss vom Cache in die Ausführungseinheiten erhöht und der Cache effizient genutzt. Nach Aussagen von Intel soll der Trace-Cache der zentrale Performancebringer beim Pentium 4 sein und dafür sorgen, dass die lange Pipeline immer ausreichend Daten erhält.

Cache Bandbreite

Der L1-Daten-Cache ist beim Pentium 4 mit acht KByte klein ausgefallen. Zum Vergleich: Der Pentium III besitzt einen 16 KByte großen Daten-Cache. Dafür wurde die Latenzzeit von drei auf zwei Takte gesenkt. Kräftig aufgebohrt hat Intel dagegen den L2-Cache. Zwar besitzt er mit 256 KByte die gleiche Größe wie der Pentium III, die Bandbreite hat sich aber verdreifacht. Das 256 Bit breite Interface des L2-Cache zum Core erlaubt beim Pentium 4 mit 1,4 GHz Transferraten von 44,8 GByte/s. Intel ist diese Highspeed-Verbindung der Name Advanced Transfer Cache wert, der schon für den On-Die-L2-Cache des Pentium III verwendet wurde. Der Pentium III mit 1 GHz Taktfrequenz ermöglicht maximal 16 GByte/s zwischen L2-Cache und Prozessor-Core.

Pentium 4 Cache-Struktur

Level

Kapazität

assoziativ

Cacheline

Verfahren

L1

8 KByte

4fach

64 Byte

write through

Trace

12K µOps

--

--

--

L2

256 KByte

8fach

128 Byte

write back

L1-, Trace- und L2-Cache sind beim Pentium 4 auf dem Die integriert und laufen mit der vollen Taktfrequenz des Cores. Die NetBurst-Architektur des Pentium 4 unterstützt neben dem L1- und L2-Cache auch einen optionalen bis zu vier MByte großen L3-Cache. Allerdings kommt dieser nicht beim Pentium 4 zum Einsatz und ist künftigen Server-Versionen vorbehalten, die unter dem Codenamen Foster entwickelt werden.

Rapid Execution Engine

Die klassischen 2D-Anwendungen profitieren fast ausschließlich von der Integer-Performance einer CPU. Intel trägt diesem Umstand beim Pentium 4 mit der Rapid Execution Engine Rechnung: Die ALUs takten mit der doppelten Taktfrequenz des Core. Beim Pentium 4 mit 1,5 GHz sind das demnach ganze drei GHz.

Floating-Point-Operationen sowie die MMX- und SSE2-Einheiten müssen dagegen mit der einfachen Taktfrequenz Vorlieb nehmen. Zusätzlich hat Intel noch eine langsame Integer-Einheit mit einfachem Takt integriert, die Multiplizier-, Shift- und Rotate-Befehle ausführt.

Der Pentium 4 reduziert durch die Taktverdopplung der ALUs erheblich die Laufzeitverzögerungen bei Integer-Befehlen: Beim Pentium III mit 1 GHz beträgt die Latency der ALU 1000 ps, der Pentium 4 mit 1,4 GHz lässt nur noch 360 ps verstreichen. Damit verringern sich auch die Wartezyklen, um Daten in den L1-Cache zu schreiben. Nur noch 1440 ps stehen 3000 ps beim Pentium III gegenüber.

Hyper Pipeline: 20 Stufen

Entscheidend für hohe Taktfrequenzen und gute Skalierbarkeit der Performance bei steigendem Takt ist die Tiefe der Pipeline. Beim Pipeline-Verfahren können mehrere Befehle überlappend zur gleichen Zeit verarbeitet werden, die Performance steigt damit erheblich. Für ausführliche Grundlagen lesen Sie hierzu unser CPU-Grundlagen.

Die 20-stufige Hyper Pipeline des Pentium 4 besitzt die doppelte Tiefe des Pentium III und kann bis zu 128 Befehle gleichzeitig aufnehmen. Damit die Pipeline auch immer genug zu tun hat, sind 48 Load- und 24 Store-Vorgänge gleichzeitig möglich.

Die Problematik bei langen Pipelines ist der hohe Zeitverlust bei Befehlsverzweigungen (Branches). Wichtig ist daher eine hohe Trefferquote bei der Sprungvorhersage (Branch Predictions). Sonst stockt die Pipeline und liefert viele Takte lang kein Ergebnis. Intel setzt beim Pentium 4 die nach eigenen Angaben beste Branch Prediction auf dem Markt ein. Sie verschätzt sich im Durchschnitt um ein Drittel weniger als die des Pentium III. Den Branch Target Buffer hat Intel gleichzeitig um das achtfache auf vier KByte erhöht. Darin speichert der Pentium 4 eine Tabelle mit bereits abgearbeiteten Branches. Aufgrund dieser Branch History Table kann der Pentium 4 die Richtung und das Ziel von Befehlssprüngen voraussagen.

Die Sprungvorhersage der NetBurst-Architektur beinhaltet alle nahen Befehlsverzweigungen, inklusive Calls und Returns, sowie indirekte Sprünge. Weite Branches wie Rücksprungbefehle und Software Interrupts kann auch NetBurst nicht voraussagen.

Hyper Pipeline: Workflow I

Jede der 20 Stufen der Hyper Pipeline erledigt in Intels NetBurst-Architektur eine kleine Teilaufgabe beim Abarbeiten eines Befehls. Im Bild sehen Sie die Zuordnung der einzelnen Pipeline-Stufen in der NetBurst-Architektur.

Nachfolgend finden Sie die Teilschritte der Hyper Pipeline im Detail erklärt:

Hyper Pipeline: Workflow II

SSE2

Dem wachsenden Anspruch von Audio- und Videoanwendungen trägt der Pentium 4 mit den Streaming SIMD Extensions 2 (SSE2) Rechnung. Die Weiterentwicklung der SSE-Einheit des Pentium III umfasst 144 neue Befehle. Der Pentium 4 hat hierfür aber keine neuen Register bekommen und verwendet weiterhin die acht 128 Bit breiten XMM-Register. SSE2 ist somit voll abwärtskompatibel zu SSE vom Pentium III.

Die neuen Befehle ermöglichen 128 Bit SIMD Integer Berechnungen, die aus verschiedenen Integer-Datensätzen bestehen können. Floating Point Operationen mit einer Breite von 128 Bit sind nun mit doppelter Präzision, gepackt in einem doppelten Quadword möglich. Insgesamt bietet SSE2 sechs neue Datentypen, zusammengefasst im folgenden Bild:

Die besonders bei Anwendungen aus Wissenschaft und Technik benutzten Fließkommawerte mit doppelter Genauigkeit sind 64 Bit breit. Beim Pentium III waren parallele Floatingpoint-Berechnungen in den SIMD-Registern nur mit einfacher Genauigkeit möglich. Es konnten zwei mal vier 32 Bit Single-Precision-Werte bearbeitet werden. Der Pentium 4 mit SSE2 ermöglicht jetzt parallele Operationen mit zwei FP-Datensätzen doppelter Genauigkeit und es lassen sich zwei mal zwei 64-Bit-Werte verwenden.

An neuen Befehlen enthält SSE2 beispielsweise einen doppelten 32x32 Bit Multiply, der in einem Takt abläuft. Zusammen mit dem SIMD-ADD von 64-Bit-Werten soll beispielsweise eine RSA-Verschlüsselung bei gleichem Takt bis zu dreimal schneller als beim Pentium III ablaufen.

Neuer Sockel, neue Lüfter

Der Pentium 4 kommt nur in FC-PGA-Versionen auf den Markt. Slot-Varianten sind nicht geplant. Die neue NetBurst-Architektur forderte auch ein verändertes Pinout für den Prozessor. Der Steckplatz für den Pentium 4 nennt sich jetzt entsprechend der Anzahl der Pins Socket 423.

Durch die hohe Verlustleistung des Pentium 4 sind zusätzlich neue Kühler erforderlich. Hersteller wie Cooler Master haben mit dem DP4-6151 bereits entsprechende Produkte im Angebot. Alte Socket-370-Lüfter sind durch neue Befestigungsmechanismen bei Pentium-4-Mainboards und zu geringe Wärmeabfuhr nicht zu gebrauchen.

Ein weiteres Problem taucht laut Intel erst jenseits von 1,5 GHz auf: Die Prozessorbeinchen des Socket 423 für den Pentium 4 könnten dann zuviel Störstrahlung abgeben. Ein passendes Abschirmblech, das zwischen Kühlkörper und Sockel kommt, ist schon entworfen. Nach den ersten Tests ist es jedoch bis zu 1,5 GHz auch nach den Kriterien der FCC und für das in Europa zwingend notwendige CE-Siegel nicht notwendig. Abschirmungen am Steckplatz stellen dennoch ein weiteres Novum in der CPU-Entwicklung dar.

Aufwändige Stromversorgung

Die 42 Millionen Transistoren des Pentium 4 in seiner 0,18-Mikron-Technik wollen wohl gespeist sein. Bei einer Core-Spannung von 1,7 V zieht die NetBurst-Architektur bei 1,4 GHz Taktfrequenz bis zu 39 A Strom. Mainboards für den Pentium 4 müssen deshalb nach Intel-Spezifikation einen Strom von 52 A liefern können.

Herkömmliche ATX-Netzteile sind dafür nicht mehr zu gebrauchen. ATX12V nennt sich Intels Netzteil-Spezifikation für Pentium-4-Systeme. Neben den Schienen für 3,3 und 5 Volt liefern ATX12V-Netzteile auch 12 Volt. Die über 60 Watt Verlustleistung, die der Pentium 4 verbraucht, verlangen auch nach neuen Spannungsreglern, um eine stabile Versorgung aufrecht zu halten.

Verantwortlich für die stabile Stromversorgung des Prozessors zeichnet das VRM9.0 getaufte Konzept eines Voltage Regulator Modules. Dieses VRM9.0 kann wahlweise auf dem Mainboard integriert,oder als separate Einsteckkarte mit eigenem Slot realisiert sein. Die 12-V-Speisung erfolgt über den vierpoligen Zusatzstecker des ATX12V-Netzteils.

Das Intel Desktopboard D850GB lief bei unseren Tests auch bei versuchsweise abgezogenem Stromstecker für den Pentium 4. VRM9.0 ist demnach nur als zusätzliche Stabilisierung der CPU-Stromversorgung zu sehen.

Intel i850 Chipsatz für Pentium 4

Der erste Chipsatz für den Pentium 4 ist der i850 von Intel. Mit ausschließlicher Unterstützung von zwei Rambus-Kanälen müssen Pentium-4-Systeme damit auf die teure Speichertechnik zurückgreifen. Die Speicherbandbreite des i850 ist mit 3,2 GByte/s (1,6 GByte/s pro Kanal) aber sehr hoch. Damit harmoniert der Chipsatz mit dem neuen 400 MHz FSB des Pentium 4, der ebenfalls 3,2 GByte/s an maximaler Transferrate erlaubt. Bei genauer Rechnung handelt es sich aber jeweils nur um 2,98 GByte/s, da bei Umrechnungen von Bytes auf MByte/GByte oft fälschlicherweise durch 1000 statt der korrekten 1024 geteilt wird.

Der Intel i850 mit seiner Hub-Architektur besteht aus einer Zweichip-Lösung: Dem 82850 Memory Controller Hub (MCH) und dem 82801BA I/O Controller Hub (ICH2). Ein Highspeed-Interface stellt eine Bandbreite von 266 MByte/s zwischen beiden Bausteinen zur Verfügung.

Der MCH unterstützt zwei Rambus-Kanäle, bestehend aus je zwei RIMMs. Maximal ein GByte Arbeitsspeicher mit 600 oder 800-MHz-RDRAMs sind möglich. Unterstützung von AGP4x-Grafikkarten steht ebenfalls auf der Featureliste des MCH.

Für die Peripherie zeichnet der seit dem i815E-Chipsatz verwendete ICH2 verantwortlich. Er unterstützt zwei IDE-Kanäle im UltraDMA/100-Betrieb sowie zwei USB-Controller mit insgesamt vier Ports. Außerdem sind ein 10/100 MBit Ethernet-Interface und Surround Sound mit sechs Kanälen nach dem AC97-Standard integriert.

Fazit

Intel hat sich mit der NetBurst-Architektur des Pentium 4 wieder Luft für die nächsten Jahre verschafft. Das Prozessordesign mit seiner 20 stufigen Pipeline ist primär auf hohe Taktfrequenzen und eine gute Skalierbarkeit ausgelegt. Bereits Mitte nächsten Jahres soll die 2 GHz-Barriere fallen.

Vergleich Pentium III vs Pentium 4

Pentium III

Pentium 4

Taktfrequenz

1 GHz

1,4 und 1,5 GHz

Transistoren

28 Millionen

42 Millionen

FSB

133 MHz

400 MHz

L1-Cache

16 KByte Daten, 16 KByte Befehle

8 KByte Daten, 12.000 µOps

L2-Cache

256 KByte

256 KByte

L2-Cache Bandbreite

16 GByte/s

44,8 GByte/s

Pipeline-Stufen

10

20

Befehle gleichzeitig

40

126

Load/Store-Vorgänge

16/12

48/24

NetBurst mit seinen doppelt getakteten ALUs, dem revolutionären Trace-Cache und einem 400 MHz schnellem Systembus sollten den Pentium 4 von der Theorie zum derzeit mit Abstand schnellsten PC-Prozessor machen. Die Taktfrequenzkrone mit 1,4 und 1,5 GHz kann er sich schon aufsetzen. Wie sich die CPU allerdings in der Praxis bewährt, lesen Sie in unseren Pentium 4 Benchmarks ab Montag 09:00 Uhr.

Ein billiger Spaß ist der Pentium 4 so oder so nicht. Er fordert ein komplett neues Umfeld: Mainboards mit dem Socket 423 und teurem RDRAM-Speicher, wobei durch die zwei Kanäle mindestens gleich zwei RIMMs erforderlich sind. Auch mit den allseits verwendeten ATX-Netzteilen gibt sich der stromhungrige Pentium 4 nicht mehr zufrieden. (cvi)