Intels Pentium 4 Prescott im Detail

03.02.2004 von ALBERT LAUCHNER

Prescott ist eine völlige Neuauflage des Pentium 4. Durch zahlreiche Design- und Fertigungstricks schafft es Intel, das alte P4-Design fit für knapp 4 GHz zu machen. Doch die hohe Taktfrequenz fordert ihren Tribut.

Intels aktuelle Desktop-CPU, der Pentium 4 mit Northwood-Kern, läuft am Anschlag. Seit der Markteinführung im Januar 2002 hat Intel die Taktfrequenz von 2,2 auf 3,4 GHz gesteigert. Mehr will man dem alten Northwood nicht mehr zumuten. Schon bei 3,2 GHz verbraucht die CPU in ihren 130 nm großen Strukturen bis zu 82 Watt. Mehr muss Intel aus dem alten Core nicht mehr herausholen, denn der Nachfolger mit dem Codenamen Prescott und 90-nm-Core steht bereit. Zwei Fertigungsstätten produzieren inzwischen den komplett neu designten Pentium 4, eine dritte in Irland nimmt Mitte 2004 den Betrieb auf. Die Fabs sind in der Lage, den 90-nm-Core auf 300-mm-Wafern zu fertigen. Bei einer Ausbeute von über 500 Prescotts pro Wafer kann Intel so monatlich einige Millionen CPUs herstellen.

Die neue CPU wird seit Anfang Februar ausgeliefert und heißt weiterhin Pentium 4. Ein neuer Name ist auch nicht angebracht, denn sie beruht weitgehend noch auf der NetBurst-Mikroarchitektur, die Intel mit dem ersten Pentium 4 eingeführt hat. Allerdings ist der Fertigungsprozess inzwischen zwei Generationen fortgeschritten, und auch die Core-Designer waren in den letzten dreieinhalb Jahren nicht untätig. Daher soll Prescott bis 4 GHz Taktfrequenz skalieren.

Doch die Marketing-freundliche Drehzahl trägt nur einen Teil zur tatsächlich erreichten Rechenleistung einer CPU bei. Ebenso entscheidend ist die Anzahl der pro Takt abgearbeiteten Instruktionen. Und hier muss der Prescott gegenüber dem Northwood-Core mit einigen Verbesserungen, aber auch gravierenden Rückschritten leben.

Neue Cache-Größen und -Features

Die ersten beiden Pentium-4-Generationen mit Willamette und Northwood-Core mussten mit lediglich 8 KByte vierfach-assoziativem L1-Cache für die Daten auskommen. Prescott erhält nun die doppelte Menge und kann auf 16 KByte exklusiven achtfach-assoziativen Daten-Cache mit einer sehr niedrigen Latenzzeit zugreifen. Interessant dabei ist, dass der Scheduler auf Grund der hohen Trefferrate immer davon ausgeht, dass benötigte Daten schon im L1-Cache liegen. Er schiebt daher Befehle in die Pipeline, ohne zu wissen, ob die nötigen Daten bis zur eigentlichen Ausführung überhaupt vorhanden sind. Muss die CPU die Daten aus dem langsamen L2-Cache oder gar dem Hauptspeicher holen, rechnet der Befehl in der Pipeline mit Dummy-Daten, um den Fluss nicht zu stören. Anschließend markiert er das Ergebnis als ungültig und ordnet sich zu einer erneuten Berechnung mit den inzwischen eingetroffenen richtigen Daten erneut in die Pipeline ein.

Eine ähnliche Data Speculation findet übrigens auch statt, wenn ein Befehl Daten benötigt, die ein Befehl vor ihm zwar eventuell schon berechnet, aber noch nicht in den L1-Cache zurückgeschrieben hat. Auch hier spart sich Intel die Zeit für einen vollständigen Adressenvergleich und reicht über das Store-to-Load-Forwarding eventuell passende Daten spekulativ weiter. Während der Befehl schon damit rechnet, vergleicht die CPU die Adressen vollständig. Hatte sie Pech, und es handelt sich doch um die falschen Daten, markiert sie die Ergebnisse des Befehls als ungültig und reiht den Befehl erneut in die Pipeline ein.

Der Trace-Cache für bereits dekodierte Befehle ist mit 12k µOps jedoch gleich geblieben. Laut Intel erreicht er eine Cache-Trefferrate, die der eines konventionellen Instruction-Cache mit 8 bis 16 KByte entspricht. Pro Takt kann der Trace-Cache drei µOps an die Pipelines liefern.

Der L2-Cache, der sowohl Daten als auch Code speichert, ist bei Prescott mit 1 MByte gegenüber dem Northwood-Core verdoppelt. Nur der Pentium 4 Extreme Edition, der intern auf Teilen des Northwood- und des Xeon-Gallatin-Cores basiert, hat mit 2 MByte noch mehr zu bieten.

Wie beim Northwood ist der L2-Cache des Prescott mit 256 Bit am Core angebunden und hat bei 3,4 GHz Takt eine Bandbreite von 108 GByte/s. Um allerdings die Taktfrequenz und damit die Bandbreite im nächsten Jahr nach oben treiben zu können, mussten die Core-Designer die Latenzzeit des Cache von 7 auf 18 Takte erhöhen. Dies frisst einen Teil der durch die Verdopplung erzielten Performance gleich wieder auf.

Durch einen Bauerntrick umgeht Intel jetzt das Cache-Trashing bei identischen, parallel ablaufenden Threads. Wie im Beitrag Hyper-Threading-Benchmarks erläutert, speichert der alte Pentium 4 Daten, die mit 64 KByte Abstand im Speicher liegen, in dieselbe Cacheline. Da typische Compiler den Stack bei parallel laufenden Threads um genau ein MByte (ein Vielfaches von 64 KByte) versetzen, werfen sich dadurch die Variablen ständig gegenseitig aus dem Cache (Cache Trashing). Statt schneller laufen Anwendungen mit identischen, parallel arbeitenden Threads durch Hyper-Threading somit langsamer. Als Lösung speichert der Prescott jetzt sechs Adressbits mehr im Cache. Die magische Blockgröße steigt somit auf vier MByte.

Zudem hat Intel noch ein Context Identifier Bit bei den L1-Cache-Tags eingeführt. Erkennt die CPU, dass die Threads der beiden logischen Prozessoren in unterschiedlichen Datenbereichen arbeiten, erhalten die Prozessoren unterschiedliche Context Identifier. Dadurch unterscheiden sich die Tag-Einträge im Cache, und das Trashing tritt prinzipiell nicht mehr auf.

Kurzzeitig kompatibel

Die FSB-Taktfrequenz startet beim Prescott mit 800 MHz, die auch die Northwood-CPUs nutzen. Da der Prescott zudem kompatibel zum bisherigen Socket 478 ist, läuft die CPU nach einem Bios-Update in zahlreichen aktuellen Pentium-4-Boards. Intel hat bereits im Frühsommer 2003 für eine passende hauseigene Plattform gesorgt und für die i865- und i875-Chipsätze entsprechende Prescott-Design-Spezifikationen veröffentlicht.

Mit ihren zwei 400-MHz-DDR-Speicherkanälen passen beide Chipsätze optimal zum 800-MHz-Frontside-Bus. Doch bei 3,4 GHz ist in den alten Boards Schluss mit der Kompatibilität. Bereits im zweiten Quartal 2004 führt Intel den LGA775-Socket ein. Er arbeitet zunächst auch nur mit 800 MHz FSB, soll später aber bis 1200 MHz bieten. Zudem können seine 297 zusätzlichen Pins die CPU mit einem höheren Strom versorgen, so dass Verlustleistungen von weit über 100 Watt möglich werden. Nur dadurch können Prescott und seine Nachfolger Frequenzen von 5 GHz erreichen.

Mikroarchitektur-Erweiterungen

Hohe Taktfrequenzen erfordern lange Pipelines, damit die einzelnen Pipeline-Stufen möglichst einfach ausfallen. Für viele unerwartet, musste Intel die Pipeline beim Prescott auf 31 Stufen verlängern und schlägt damit den bisherigen Spitzenreiter Northwood mit seinen 20 Stufen um einiges. Je länger jedoch eine Pipeline ist, desto dramatischer sind die Auswirkungen auf die Performance, wenn die Pipeline ins Stocken gerät. Daher hat Intel nicht nur den Cache vergrößert, sondern auch sonst etliches optimiert, damit der Prescott wenigstens die Leistung eines gleich schnell getakteten Northwood erreicht.

So ist die Sprungvorhersage - wie seit Jahren bei jedem neuen Core - wieder einmal "deutlich" verbessert. Sie soll auch im Falle einer Programmverzweigung für einen stetigen Nachschub an Befehlen sorgen und so die extrem lange Pipeline des Prescott einigermaßen auslasten. Konkret hat Intel in Analysen bestehender Programme festgestellt, dass bedingte Sprünge nach hinten im Code meist dann zu einer Schleife gehören, wenn die Sprungweite unter einem Grenzwert liegt. In diesem Fall geht die Sprungvorhersage daher beim ersten Durchlauf davon aus, dass der Sprung stattfindet. Andernfalls plant sie eine Programmausführung ohne den Sprung. Laut Intel tritt mit der neuen Branch-Prediction je nach Anwendung nur noch alle 100 bis 1000 Befehle ein falsch vorhergesagter Sprung auf.

Optimiert ist auch der Hardware-Prefetch. Er erkennt, wenn ein Programm etwa ein Array abarbeitet und in einem festen Rhythmus auf einen Speicherblock zugreift. Der Prefetcher lädt dann die Daten eigenständig und vorab in den L2-Cache. Mit Hardware-Prefetch sollen meist über zehn Prozent mehr Performance möglich sein. Nutzt ein Programm - wie im wissenschaftlichen und im Spielebereich üblich - intensiv Arrays, kann der Performance-Gewinn bis zu 100 Prozent betragen.

Entgegen ersten Erwartungen hat Intel die Anzahl virtueller CPUs beim Hyper-Threading nicht erweitert, es bleibt bei zwei Stück. Auch die 64-Bit-Erweiterung namens Yamhill oder gar eine x86-64-Kompatibilität zu AMDs Opteron und Athlon 64 erweisen sich im Nachhinein als Wunschtraum.

Als schwacher Trost ist die Integer-Multiplikation mit dem imul-Befehl ein paar Takte schneller geworden. Sie läuft jetzt in einer eigenen Hardware-Unit und behindert nicht länger Floatingpoint-Berechnungen. Auch die Shift- und Rotate-Befehle für Integer-Werte hat Intel beschleunigt. Zusätzliche Buffer sorgen für einen höheren Durchsatz. Die Store-Buffer hat Intel gegenüber dem Northwood von 24 auf 32 erhöht, die Write-Combine-Buffer von sechs auf acht. Vier zusätzliche Floatingpoint-Scheduler-Buffer beschleunigen die Fließkommaeinheit.

Umstritten ist die im Bild als "La Grande Support" bezeichnete Erweiterung. Sie soll einen abgesicherten Programmablauf (Secure Computing) ermöglichen und beispielsweise Programme und Threads voreinander schützen. Im Grunde integriert sie das Konzept Trusted Computing Group (TCG, ehemals TCPA) in der CPU, geht aber noch weit darüber hinaus. So soll es durch La Grande keinem auch noch so hoch privilegierten Programm mehr erlaubt sein, auf Daten oder Code einer anderen Anwendung zuzugreifen.

La Grande bietet dazu die Möglichkeit, geschützten Code in einer isolierten Umgebung in der CPU und im Speicher laufen zu lassen. Nachträgliches Debugging, Reverse Engineering oder das Patchen zur Laufzeit durch Maleware ist somit ausgeschlossen. Selbst die Kommunikation mit Eingabegeräten wie der Tastatur und der Maus erfolgt bei La-Grande-Programmen über kryptographisch abgesicherte Pfade. Für La Grande sind jedoch auch umfangreiche Änderungen am Chipsatz und am Betriebssystem nötig.

Erstmals zum Einsatz dürfte La Grande beim Windows-XP-Nachfolger Longhorn kommen. Microsoft hat darin den Ansatz aufgegeben, Windows komplett sicher zu machen. Stattdessen teilt Longhorn den PC virtuell in zwei Hälften: in eine mit normalem, unsicherem Windows und in eine mit eigenem Sicherheits-Kernel namens Nexus. Nexus schottet sich gegen den Rest des PCs ab und besitzt sogar einen eigenen Hardware Abstraction Layer, genannt NAL. In Nexus sollen dann ausgewählte Programme wie Homebanking "absolut sicher" ablaufen können.

Zunächst wird es von Prescott wohl nur für Entwickler spezielle Versionen mit La-Grande-Technik geben - die im Handel erhältlichen Prescott-Prozessoren werden vorerst ohne La-Grande-Support ausgeliefert. Später plant Intel nach derzeitigem Stand, Prescott-CPUs mit und ohne La-Grande-Technik anzubieten. Laut uns vorliegenden Statements soll aber auch bei den Prescott-CPUs mit La Grande der Anwender wie einst bei der umstrittenen Seriennummer der CPU selbst entscheiden können, ob diese Funktion aktiviert sein soll oder nicht.

SSE3-Befehlssatz-Erweiterungen

Mit dem Prescott erweitert Intel den IA-32-Befehlssatz um 13 zusätzliche Instruktionen. Die neuen Befehle betreffen vor allem die FPU mit neuen SIMD-Befehlen und Erweiterungen für die Arithmetik mit komplexen Zahlen. Intel bezeichnet die Erweiterungen unspektakulär als SSE3.

Die meisten der neuen Befehle sind recht exotisch und dürften lediglich in Spezialfällen zum Tragen kommen. Optimierungspotenzial bieten sie aber etwa für mathematische Libraries, die viel mit komplexen Zahlen rechnen oder den Butterfly-Algorithmus für die Fast Fourier Transformation nutzen. Vor allem wissenschaftliche Anwendungen und Audio/Video-Codecs dürften davon profitieren.

Die neuen Befehle im Überblick:

FISTTP wandelt einen Floatingpoint-Wert mit Truncation und nicht wie das bisher vorhandene FISTP durch Runden in einen Integer-Wert um. Dies erspart das sonst nötige manuelle Umschalten auf das gewünschte Umwandlungsverhalten.

MOVSHDUP liefert bei einem SIMD-Operanden mit je vier Single-Floatingpoints zwei Mal den ersten Wert und zwei Mal den dritten Wert zurück. Aus dem Vektor (A3,A2,A1,A0) erzeugt MOVSHDUP somit (A3,A3,A1,A1). Ähnlich verhält sich MOVSLDUP, das (A2,A2,A0,A0) zurückliefert. Nützlich sind diese Befehle beim Laden von komplexen Zahlen aus dem Speicher, wo Real- und Imaginärteil in benachbarten Variablen (A3,A2) und (A1,A0) gespeichert sind.

ADDSUBPS liefert bei zwei Operanden mit je vier Single-Floatingpoints je-weils die Summe der geraden Datenelemente sowie die Differenz der ungeraden Datenelemente. Aus den Vektoren (A3,A2,A1,A0) und (B3,B2,B1,B0) erzeugt ADDSUBPS (A3+B3, A2-B2, A1+B1, A0-B0). Damit lassen sich Produkte und Quotienten von komplexen Zahlen besonders schnell und elegant berechnen. ADDSUBPD liefert das gleiche Ergebnis für zwei Double-Precision-Floatingpoint-Variablen. Beide Rechenoperationen kommen bei der Fast Fourier Transformation häufig zum Einsatz.

MOVDDUP kopiert einen 64-Bit-Double-Floatingpoint in den oberen und unteren Teil einer 128-Bit-SIMD-Variablen.

LDDQU kann einen 128-Bit-Wert schnell aus dem Speicher in ein Register laden, auch wenn er nicht auf eine 16-Byte-Grenze aligned ist. In diesem Fall lädt LDDQU automatisch die zwei betroffenen Cache-Lines komplett ein und extrahiert die gewünschten 16 Byte. Dieser Fall tritt sehr häufig bei der Motion Estimation von MPEG-Encodern auf. Hierbei werden Bildteile in zwei benachbarten Bildern auf eine Verschiebung verglichen. Typischerweise kann man dabei nur auf einen Block sauber alligned zugreifen.

Die meisten SIMD-Befehle verarbeiten Werte aus zwei verschiedenen Operanden. Die neuen horizontalen Befehle HADDPS, HSUBPS, HADDPD und HSUBPD arbeiten dagegen innerhalb eines Operanden. Aus (A3,A2,A1,A0) und (B3,B2,B1,B0) berechnet etwa HADDPS (B3+B2,B1+B0,A3+A2,A1+A0). Diese Funktionen sind bei der Berechnung von Skalarprodukten und Determinanten von Matrizen nützlich. Auch erlauben sie, das Grafikdaten im Format X1,Y1,X2,Y2,..Xn,Yn und nicht nur im Format X1,X2,..Xn,Y1,Y2,..Yn abgespeichert sind.

Thread-Synchronisation in Hardware

Einige Optimierungen beim Prescott machen sich nur beim intensiven Hyper-Threading bemerkbar. So hat Intel die Anzahl der ausstehenden L1-Cache-Loads von vier auf acht und die Größe einiger interner Buffer erhöht. Für einen einzelnen Thread war zwar die Dimensionierung beim Northwood passender, bei zwei parallel laufenden Hyper-Threading-Threads kam es aber mitunter zu Engpässen.

Eine echte technische Neuerung beim Prescott Instruction Set stellt die Thread-Synchronisation in Hardware über die Befehle MONITOR und MWAIT dar. Damit kann man eine Pipeline einer Hyper-Threading-CPU schlafen legen, bis die andere Pipeline einen Schreibzugriff auf eine vorher definierte Speicherstelle ausführt. So können sich zwei Threads mit sehr hoher Geschwindigkeit synchronisieren, ohne dafür CPU-Leistung zu verschwenden.

Wie in unserem Beitrag Hyper-Threading: Optimierungen und Fallen detailliert erläutert, ist es bislang problematisch, zwei Threads ohne aufwendige Betriebssystemfunktionen schnell miteinander zu synchronisieren. Bisher nutzt man für die direkte und schnelle Synchronisation - wenn beispielsweise ein Thread warten muss, bis ein anderer eine kritische Aufgabe abgeschlossen hat - folgenden Ansatz:

Beide Threads erhalten Zugriff auf eine gemeinsame Variable. Der wartende Thread läuft in einer Schleife und überprüft ständig den Wert dieser Variablen. Ist der effektive arbeitende Thread fertig, verändert er den Wert der Variablen. Da-raufhin verlässt der wartende Thread seine Verzögerungsschleife und beginnt wieder, sinnvoll zu arbeiten. Während der Wartezeit hat allerdings der erste Thread jede Menge an CPU-Leistung nur damit verheizt, mit Gigahertz-Geschwindigkeit sinnlose Warteschleifen zu drehen - und hat den sinnvoll arbeitenden Thread dadurch ausgebremst. Mit dem Northwood hat Intel zwar den neuen PAUSE-Befehl eingeführt, der den Verbrauch an CPU-Ressourcen in der Warteschleife lindert, doch ideal war dies immer noch nicht.

Prescott ermöglicht nun zusätzlich einen weiteren Weg und bietet durch den neuen Befehl MONITOR erstmals einen Hardware-Trigger für die Synchronisation. Mit MONITOR legt ein Thread eine Speicheradresse fest, die der Prozessor in Hardware überwacht - ohne Rechenleistung dafür zu verbrauchen. Anschließend legt sich der Thread mit MWAIT schlafen und gibt alle CPU-Ressourcen für andere Threads frei. Sobald jedoch ein aktiver Thread auf die vorher festgelegte Adresse schreibend zugreift, schaltet die CPU wieder in den Hyper-Threading-Modus, und der schlafende Thread erwacht zu neuem Leben - ohne in seiner Ruhepause Ressourcen verbraucht zu haben.

triger=0; If (!trigger){ EAX=&trigger ECX=0 EDX=0 MONITOR EAX, ECX, EDX if (!trigger){ EAX=0 ECX=0 MWAIT EAX, ECX } }

Im Beispiel übergibt MONITOR die Adresse der Steuervariablen "trigger" in EAX an die CPU. Anschließend legt MWAIT die Pipeline so lange schlafen, bis ein parallel laufender Thread "trigger" verändert.

Prescott lässt bei MONITOR derzeit keine weiteren Optionen zu. Doch bereits jetzt sind mit ECX und EDX zwei Register spezifiziert, in denen Programmierer zukünftigen Prozessoren erweiterte Parameter übergeben können. Möglich ist hier etwa die Angabe eines Stromsparmodus oder die Trigger-Auslösung nur unter bestimmten Zusatzbedingungen. Auch soll in Zukunft die Größe des Monitorblocks variabel sein, so dass der Zugriff auf verschiedene Variablen den Dornröschenschlaf beenden kann.

Designoptimierungen

Neben den erwähnten, von außen sichtbaren Neuerungen hat sich beim Prescott unter der Haube einiges radikal verändert. Diese Umbauten haben alle den Zweck, die Taktfrequenz weiter nach oben zu treiben.

Ein großes Problem innerhalb eines CPU-Cores ist die Verteilung des Taktsignals. Der Takt sorgt dafür, dass die Funktionsblöcke synchronisiert arbeiten und beispielsweise Daten erst übernehmen, wenn die vorgeschaltete Stufe stabile Ausgangssignale liefert.

Bedingt durch die Laufzeit der elektrischen Signale variiert der Takt einzelner Funktionsblöcke aber abhängig von ihrer Position auf dem Die. Wie im Bild zu sehen, hängen beim Northwood einzelne Bereiche um über 20 ps nach. Da der Taktzyklus bei einer 5-GHz-CPU nur noch 200 ps dauert, vereitelt dieser so genannte Skew eine saubere Synchronisierung der Funktionsblöcke. Ein derartiges Design ist für hohe Taktraten daher nicht geeignet.

Beim Prescott haben die Ingenieure die Clock-Verteilung komplett neu entwickelt. Wie im Skew-Diagramm des Prescott zu sehen ist, weicht sie nur nochmaximal 7,5 ps ab. Dies ist weniger als die Schaltzeit des einfachsten logischen Gatters, eines Inverters. Wenn man die 20-ps-Skew des Northwood und dessen Taktfrequenz zu den 7,5 ps in Relation setzt, ist diese Clock-Verteilung des Prescott für Taktraten bis 8 GHz geeignet.

90-nm-Prozess

Die Strukturgröße beim Prescott beträgt 90 nm. Damit kann Intel Transistoren bauen, die eine Gate-Länge von nur noch 50 nm haben, und schlägt so drei Fliegen mit einer Klappe: Kleinere Transistoren schalten schneller, verbrauchen weniger Energie und belegen zudem noch weniger Platz auf dem kostbaren Wafer.

Während Northwood noch 55 Millionen Transistoren genügten, besitzt Prescott mit 125 Millionen mehr als doppelt so viele. Die zusätzlichen Transistoren stecken zum großen Teil in dem auf 1 MByte vergrößerten L2-Cache. Die Strukturgröße von 90 nm kompensiert diesen Anstieg jedoch wieder, Prescott belegt mit 112 mm² Die-Größe sogar weniger Platz als der Northwood mit seinen 131 mm².

Aber die Transistoren waren Intel immer noch nicht schnell genug für die angestrebten Taktfrequenzen. Deshalb setzt man als erster Halbleiterhersteller so genanntes Strained Silicon in einem Massenprodukt ein. Dabei wird das natürliche Kristallgitter des Siliziums künstlich gestreckt. Durch komplexe Zusammenhänge der Festkörperphysik steigert die unnatürliche Gitterkonstante die Beweglichkeit der Ladungsträger, so dass die Transistoren schneller schalten und höhere Stromstärken bewältigen können.

Interessanterweise verwendet der weltgrößte Halbleiterhersteller zwei Verfahren, um die Verzerrung bei den NMOS- und PMOS-Transistoren getrennt einstellen zu können. Beim PMOS-Transistor scheidet man Silizium mit einigen Prozent Germaniumanteil im Source- und Drain-Bereich ab. Die rund ein Prozent größere Gitterkonstante der Legierung überträgt sich auch auf den leitenden Channel unter dem Gate und sorgt so für eine 25 Prozent höhere Leitfähigkeit.

NMOS-Transistoren lässt Intel im aktiven Bereich unverändert und legt stattdessen eine Siliziumnitrid-Schicht über den Transistor. Dessen größere Gitterkonstante überträgt sich ebenso auf den darunter liegenden Transistor und zerrt auf diese Weise die Atome im aktiven Kanal auf einen größeren Abstand. Allerdings ist der erzielte Effekt hier geringer, die Leitfähigkeit steigt nur um zehn Prozent.

Bemerkenswert ist, dass beide Verfahren den aktiven leitenden Kanal lediglich indirekt über mechanische Kräfte von außen verzerren. Daraus resultiert der Na-me Strained Silicon, gezerrtes Silizium.

Laut Intel lassen sich beide Streckverfahren relativ einfach in die Fertigung integrieren, da hier nicht mit für Halbleiter "giftigen" Materialien wie bei der Einführung der Kupferverdrahtung gearbeitet wird. Siliziumnitrid wird beispielsweise auch in den Verdrahtungsebenen der CPU genutzt. Strained Silicon soll daher die Fertigungskosten der CPU lediglich um zwei Prozent erhöhen.

Low-k-Kupferverdrahtung

Die Transistoren zu beschleunigen, ist aber nur ein Schritt auf dem Weg zu schnelleren Prozessoren. Die Ausgangssignale eines Transistors müssen auch möglichst schnell an die nächste Verarbeitungsstufe weitergeleitet werden. Vor allem die Laufzeit in den Verbindungsleitungen, den Interconnects, verhindert bei aktuellen Prozessoren eine höhere Taktrate.

Die Geschwindigkeit, mit der Schaltsignale in den Interconnects von einem Transistor zum nächsten laufen, ist in erster Linie von zwei Faktoren abhängig: dem Widerstand der Leiterbahn und der parasitären Kapazität. Je kleiner beides ist, desto schneller lädt ein Schaltvorgang den Interconnect um und desto schneller liegt am Eingang der nächsten Stufe ein stabiles Signal an.

Daher erhält der Prescott, wie auch schon der Northwood und AMDs Athlon, eine komplette Verdrahtung in Kupfer. Dessen spezifischer Widerstand ist um 40 Prozent niedriger als der von Aluminium, das noch beim Pentium 4 Willamette genutzt wurde. Neu ist allerdings, dass alle sieben Ebenen in ein so genanntes Low-k-Material eingebettet sind.

Das früher genutzte Siliziumdioxid zwischen den Leiterbahnen sorgte durch seine relative Dielektrizitätskonstante k von 4,0 für eine hohe Kapazität der Leitungen. Beim Northwood kam erstmals eine Fluor-Dotierung hinzu, die den k-Wert der Isolation auf 3,6 drückt. Jetzt nutzt Intel kohlenstoffdotiertes Siliziumdioxid, das ein k von unter 3,0 haben soll. Dies sorgt für 25 Prozent geringere parasitäre Kapazitäten und erhöht die Geschwindigkeit der Signale um den gleichen Faktor.

Optimierte Gatterverteilung

Neben der Geschwindigkeit der Signale spielt der Abstand der zu verdrahtenden Funktionsblöcke eine ebenso große Rolle. Und hier beschreitet Intel beim Prescott vollkommen neue Wege. Wie der Plan der Northwood-FPU exemplarisch zeigt, sind hier die Gatter einzelner logischer Funktionsblöcke auch auf dem Die physikalisch zu einem Block zusammengefasst.

So ist es für die Chipentwickler einfacher, einen Prozessorbefehl in Teilaufgaben zu zerlegen und diese einzeln in Hardware zu gießen. Anschließend werden die Blöcke so platziert, dass ihr Abstand möglichst gering ist.

Dieses Vorgehen vereinfacht zwar die Konstruktion einer CPU, sorgt aber nicht für eine optimale Platzierung der Gatter. Beim Prescott sortiert Intel in einer rechenaufwendigen Designstufe automatisch die Lage der einzelnen Gatter und nicht mehr ganzer Blöcke auf dem Die.

Dadurch wandern Transistoren aus dem Block, dem sie logisch zugehören, heraus an die Stelle, mit der sie interagieren müssen. Die einzelnen Transistoren sind also nicht mehr funktionell platziert, sondern die kürzesten Wege dienen als Sortierkriterium. Dadurch reduziert sich die Laufzeit der Signale auf den Interconnects, und die Taktfrequenz kann entsprechend erhöht werden.

Fazit

Der kleine Prescott-Core sorgt auf den 300-mm-Wafern für einen hohen Ausstoß der Fabs bei geringen Herstellungskosten. Laut Intel soll deshalb schon Mitte 2004 jede zweite Pentium-CPU ein Prescott sein.

Beim Prescott hat Intel zwar an etlichen Stellen Neuland beschritten, um die NetBurst-Architektur für die nächsten Jahre fit zu machen. Mehr Cache, neue Befehle, optimierte Branch-Prediction, besseres Hyper-Threading, das klingt zunächst viel versprechend. Doch für den Anwender ist davon nichts übrig geblieben: Die "wohl längste Pipeline der Welt" frisst alle Performance-fördernden Maßnahmen gleich wieder auf. Prescott ist so schnell wie ein gleich getakteter Northwood - kostet den Käufer aber zumindest auch nicht mehr.

Für Intel ist Prescott eine Investition in die Zukunft, die momentan das in ihr steckende Potenzial zur Taktsteigerung noch nicht preisgibt. Aus technischer Sicht faszinierend ist jedoch, wie man physikalische Grenzen immer weiter ausreizt, um die Prozessoren noch höher takten zu können.

Und mit dem Prescott ist damit sicher noch nicht Schluss. In bewährter Salamitaktik veröffentlicht Intel bereits zahlreiche Details der Generationen 65 nm (2005), 45 nm (2007) und 32 nm (2009) und spricht dabei jetzt schon Marketing-trächtig vom kommenden Terahertz-Transistor. (ala)

Mehr zu zukünftigen Prozessor- und Speichertechnologien sowie zu kommenden Standards im Hardwaresegment finden Sie in unserem Compact "ITechnologie-Ratgeber 2004" aktuell am Kiosk und im Bahnhofsbuchhandel. Das Compact können Sie auch direkt in unserem Onlineshop versandkostenfrei bestellen.