IDF: Drei Tage Intel total

06.06.2000 von NICO ERNST 
Vom 22. bis 24. August 2000 fand das siebte Intel Developer Forum (IDF) statt. Drei neue Mikroarchitekturen konnte Intel zeigen, doch im Mittelpunkt stand die Produkteinführung des Pentium 4 und Itanium.

Knapp 5000 Entwickler und über 400 Journalisten und Analysten waren aus aller Welt nach San Jose gepilgert, um herauszufinden, wie sich aus Intels Technologien und Visionen sinnvolle Computer und Anwendungen machen lassen. Zwar ist Intel auf dem Weg zu einem Mischkonzern, der neben CPUs auch komplette Netzwerke, Spielzeug-Kameras und Online-Dienstleistungen anbietet. Dennoch erregten neben Visionen wie dem Peer-Networking wieder einmal die Prozessoren das meiste Aufsehen.

Bereits einen Tag vor Beginn der Veranstaltung hatte Intel weitere Details der auf dem letzten IDF im Februar präsentierten Architektur des Pentium 4 bekannt gegeben. Dieser Striptease sollte sich bis zum letzten Tag des Herbst-IDF hinziehen. Beim Itanium, Intels erstem 64-Bit-Chip für Server, stand in den technischen Sessions für Entwickler vor allem die Optimierung von Software im Vordergrund. Daneben war die neuerliche Verschiebung des Launchs heftig umstritten.

Wesentlich mehr Begeisterung als über die Geburtswehen von Pentium 4 und Itanium konnte Intel für XScale ernten. Dabei handelt es sich um eine neue Architektur für mobile Geräte wie PDAs und Smartphones, die vor allem ein hervorragendes Verhältnis von Stromverbrauch und Performance bieten soll. Und womit kaum noch einer gerechnet hatte: Auch das lange totgesagte und nun leicht umgestrickte Projekt Timna - ein Celeron mit Grafiklogik und Speicherinterface -wurde auf dem IDF offiziell angekündigt.

Pentium 4 - komplett neues Design

Bereits auf dem letzten Intel Developer Forum hat Intel einiges zum Pentium 4 vorgelegt, ein ausführlicher Bericht findet sich hier. Da die Markteinführung nach tecChannel vorliegenden Informationen jetzt Mitte Oktober erfolgt, geht Intel mit den technischen Details großzügiger um. Die bisher schon bekannte 20-stufige Pipeline hört nun auf den Namen Hyper Pipelined Technology. Sie kann bis zu 126 Befehle zur gleichen Zeit aufnehmen, drei Mal so viele wie bei P6-Prozessoren wie dem Pentium III. Damit diese Pipeline immer genug zu tun hat, sind 48 Load- und 24 Store-Vorgänge gleichzeitig möglich.

Bei einer derart langen Pipe würden sich falsche Sprungvorhersagen (Branch Predictions) fatal auswirken. Deshalb hat Intel den Branch Target Buffer von 512 Byte auf 4 KByte verachtfacht. Als weiterer Pipe-Fütterer soll der effektiv 12 KByte große Trace Cache des Pentium 4 einer der zentralen Performance-Bringer werden.

Der Trace Cache speichert bereits dekodierte Mikro-Ops, also bereits übersetzte x86-Befehle. Da bei der Dekodierung jeder x86-Befehl in zahlreiche Mikro-Ops zerlegt wird, belegen die effektiv 12 KByte Code rund 200 KByte tatsächlichen Speicherplatz. Dies erklärt den großen Platzbedarf auf dem Diagramm des Die. Was Intel dabei am Rande erwähnte: Der Datencache des Pentium 4 ist mit 8 KByte geradezu winzig ausgefallen.

Die Fähigkeit, echte x86-Befehle in Mikro-Ops zu übersetzen und dann so anzuordnen, dass der Prozessor sie so schnell wie möglich abarbeiten kann, hatte Intel schon mit dem Pentium als Dynamic Execution bezeichnet. Für die lange Pipe und die neue Sprungvorhersage verdiente sich das Konzept nun den Namen Advanced Dynamic Execution. Dass die ALUs mit doppeltem Core-Takt arbeiten, war Intel, wie bereits berichtet, den Namen Rapid Execution Engine wert.

.

Pentium 4 - lange Pipeline gut gefüttert

Wenn Intel derart viel Die-Fläche für den Trace Cache opfert, muss er sich wirklich lohnen. Wie der Chef-Designer des Pentium 4, Doug Carmean, am letzten Tag des IDF an einem einfachen Programm-Beispiel zeigte, kann der Pentium 4 mit Hilfe des Trace Cache unter anderem Verzweigungen in einer einzigen Cache-Line zusammenfassen. Dadurch soll die mit zwanzig Stufen sehr lange Pipeline des Pentium 4 nur noch selten ins Stocken geraten.

Derartig lange Pipelines verlieren bei Verzweigungen (Branches) viel Zeit. Daher ist eine gute Sprungvorhersage entscheidend für die Leistung. Intel will mit der neuen Vorhersagestrategie des P4 das beste derzeit bekannte Verfahren geschaffen haben. Der Pentium 4 soll sich um ein Drittel weniger verschätzen als der Pentium III.

Das Herz der Umsortiererei von Befehlen, Intels Out-of-Order-Execution, stellen die neuen Scheduler des Pentium 4 dar. Sie füttern die vier bereits bekannten und mit dem doppelten Takt der CPU arbeitenden ALUs sowie FP-, MMX- und SSE2-Einheiten. Dabei sollen die neuen Scheduler maximal vier Befehle pro Takt übergeben können.

Das Gesamtbild der Pentium-4-Architektur ist dem Blockschaltbild zu entnehmen. Der Speicherbus mit 3,2 GByte pro Sekunde bezieht sich dabei auf die beiden Rambus-Kanäle des Tehama-Chipsatzes (i850), mit dem die ersten Systeme in den Handel kommen werden.

Pentium 4 - Streit um Performance

Bei dem massiven technischen Aufwand des Pentium 4 stellt sich die Frage nach der Performance mit realen Anwendungen. Intels Beispiele basierten auf dem IDF immer auf einem Vergleich des Pentium III mit 1 GHz gegen einen Pentium 4 mit 1,4 GHz. Dabei sieht der Pentium 4 natürlich besser aus. Immer wieder war die Rede von sehr hohen Taktfrequenzen, die die NetBurst getaufte Architektur mit der Zeit erreichen soll.

Das ist realistisch, kam doch die P6-Architektur, auf der auch der Pentium III basiert, zuerst im Pentium Pro nur mit 150 MHz an den Start. Inzwischen ist Intel bei 1,13 GHz angelangt, hat den Takt also knapp verachtfacht. Zwar soll es gerüchteweise 2001 auch noch schnellere Pentium IIIs geben, aber de facto ist das P6-Design am Ende. Nicht umsonst hatte Intels Vize-Präsident Albert Yu am ersten Tag schon einen Pentium 4 mit 2 GHz demonstriert.

Die einzige reale Angabe zur Leistung machte Chef-Architekt Doug Carmean in seiner Präsentation mit Microsofts Encoder für Windows-Media-Dateien aus der Benchmark-Suite SysMark2000. Hier soll der Pentium 4 mit 1,4 GHz 50 Prozent schneller sein als ein Pentium III mit 1 GHz. Auf gleichen Takt umgerechnet bedeutet das nur eine Steigerung von sechs Prozent - da hätte sich Intel diese eine Zahl wohl lieber auch gespart. Aber auch der erste P6, der Pentium Pro, hatte seine Schwierigkeiten mit der Performance, vor allem mit 16-Bit-Code. Bei einer komplett neuen Architektur ist das kein Wunder.

Pentium 4 - langsamer als Pentium III?

Auch auf hartnäckiges Nachbohren rückte Carmean später in einer kleinen Runde von Journalisten keine weiteren Performance-Daten heraus. Das fiel ihm als leidenschaftlichem Entwickler sichtlich schwer. Intel hatte dem armen Ingenieur jedoch zwei Aufpasser aus der PR-Abteilung zur Seite gestellt, die den Informationsfluss streng kontrollierten. Knapp zwei Monate vor der Markteinführung wirkt dieses Verhalten zwar etwas albern - doch wie hatte Intel-Gründer Andy Grove formuliert: Nur die Paranoiden überleben.

Ohne PR-Experten war von einem anderen Intel-Mitarbeiter zu erfahren, dass der Pentium 4 bei einigen Code-Kombinationen deutliche Schwächen hat. Erst mit der Zeit würden Programmierer ihren Code auch an den Pentium 4 anpassen und auch die 144 neuen SSE2-Befehle verwenden, die dann ordentlich Tempo bringen sollen. Von der durch Intel nie geäußerten Vermutung, der Pentium 4 würde bei gleichem Takt alles niederrechnen, muss man sich aber wohl verabschieden.

Doch gleich, wie der endgültige Chip abschneidet: Die lange Pipeline, die ob Intels Maßnahmen selten ins Stocken kommen soll, in Verbindung mit dem hohen Takt dürfte beim Pentium 4 eine neue Leistungsdimension für Desktop-PCs eröffnen. Anfangs hat das seinen Preis: Auch wenn Intel den teuren Rambus-Speicher, wie tecChannel berichtete, mit 70 Dollar sponsert, wurde auf dem IDF offen von Einstandspreisen von über 5000 Mark für Komplett-Rechner gesprochen.

Pentium 4 - Bilder und heiße Eisen

Seinen Tribut fordert der Pentium 4 auch in puncto Stromverbrauch und Die-Größe. Die 42 Millionen Transistoren nehmen statt wie bisher vermutet 170 nun inoffiziell 217 Quadratmillimeter Silizium ein.

Dieses große Die führt trotz Fertigung mit 0,18 Mikrometern zu einer enormen Leistungsaufnahme: 66,3 Watt sind bei 1,7 Volt Spannung und 1,4 GHz gefordert. Die passenden Kühlkörper waren auf dem IDF von mehreren Herstellern, unter anderem ArcticCircle zu sehen.

Vor dem Launch hat Intel dem Pentium 4 offenbar ein neues Stepping verpasst - gegenüber den früheren Bildern ist der Heat Spreader an der Oberseite deutlich kleiner ausgefallen. Da überrascht die Angabe zur Die-Größe umso mehr.

Auf der Unterseite des fertigen Pentium 4 finden sich etliche Bauteile und Drahtbrücken - ob Übertakter damit so gut spielen können wie bei AMDs Duron und Thunderbird, ist aber noch offen.

Itanium - Server fertig, Chip nicht

Die währen des IDF immer wieder vermuteten Probleme von Intels erstem 64-Bit-Chip wurden von mehreren Herstellern bestätigt: Itanium braucht vor der Markteinführung mindestens noch ein weiteres Stepping , weil der Bus des Core zum L3-Cache noch nicht bei hohen Geschwindigkeiten funktioniert.

Vor einem Jahr hatte Intel auf dem IDF die ersten Itanium-Prototypen vorgestellt. Wie bei CPUs üblich, werden die verschiedenen Versionen, auch Steppings genannt, mit Buchstaben und Zahlen bezeichnet. Der erste Itanium war ein a0-Stepping. Inzwischen ist man mit dem b1-Stepping mindestens schon bei der dritten Version angekommen.

Wie in San Jose von Server-Herstellern zu erfahren ist, war an einen funktionierenden L3-Cache bis zum b1-Stepping noch nicht zu denken. Diesen, auf einem zusätzlichen Die im Gehäuse des Itanium untergebrachten Cache braucht Itanium aber wegen der sehr spekulativen Befehlsverarbeitung unbedingt, da sonst zu viele Zeit raubende Zugriffe auf den Hauptspeicher erfolgen. Mehr zu Intels EPIC getaufte Architektur des Itanium finden Sie in einem Bericht vom letzen Microprocessor Forum.

Der 128-Bit-breite Bus zum L3-Cache erweist sich als größtes Problem des Itanium. Bis zum b0-Stepping wollte er nicht laufen, was auch die merkwürdigen Performance-Angaben erklärt, mit denen Intel auf dem IDF herausrückte. Die ersten Itanium-Prototypen liefen nur mit 500 bis 600 MHz (a0- bis b0-Stepping). Erst mit dem b1-Stepping wurden 733 MHz erreicht, allerdings nur mit 2 MByte L3-Cache. Die 4-MByte-Variante bringt es derzeit nur auf 667 MHz. Geplant sind für die Markteinführung aber 733 MHz und 800 MHz mit jeweils 2 MByte oder 4 MByte L3-Cache.

Itanium - 6000 CPUs zum Anschieben

Intel wiegelt freilich ab: Neben der Hardware läge es vor allem an Compilern, Betriebssystemen und Anwendungen für die IA-64, die vor dem Launch noch optimiert werden müssten. Das mag freilich zutreffen - die Server-Hersteller aber stehen allesamt mit fertigen Designs in den Startlöchern und warten auf die endgültigen Prozessoren, um die Itanium-Rechner endlich verkaufen zu können.

Ob all dieser Probleme hat sich Intel zu einer Art öffentlichen Beta-Programms entschlossen. Noch im Jahr 2000 sollen 6000 Pilot Processors des Itanium ausgeliefert werden. Dann können die Server-Hersteller ihren Kunden Systeme zur Evaluierung zur Verfügung stellen. Der endgültige Launch des Prozessors soll dann in der ersten Hälfte des Jahres 2001 stattfinden. Anders ausgedrückt: Der Itanium kommt nochmals drei bis sechs Monate später als geplant.

Dann aber auch gleich richtig: NEC zeigte auf dem IDF den ersten Itanium-Server "AzusA" für sechzehn CPUs, 32 PCI-Busse und damit bei je vier Karten für maximal 128 Ethernet-Karten - eine echte Datenschleuder also.

Beim Blick auf solche Systeme ist wohl endgültig klar: Mit einem "normalen" PC hat Itanium nichts mehr zu tun. Aber auch für diesen Monster-Server gilt: Warten.

XScale - Skaliere und spare

XScale ist noch kein konkreter neuer Prozessor. Intel möchte die XScale-CPUs, die unter Journalisten vorab auf StrongARM2 getauft wurden, für verschiedene Anwendungen maßschneidern. Der Core von XScale ist dabei kompatibel zu ARM 5.0. Auf dieser Architektur basiert der derzeit lieferbare StrongARM, mit dem beispielsweise Compaqs Windows-CE-PDA iPaq arbeitet.

Der StrongARM läuft bisher jedoch nur mit 206 MHz und saugt dabei im iPaq den Akku in drei bis fünf Stunden leer. Trotz höherem Takt von 200 MHz bis 1 GHz sollen XScale-CPUs nur maximal 1,6 Watt verbrauchen. In Verbindung mit der dabei erreichten Rechenleistung ist XScale beeindruckend: Der derzeitige StrongARM verbrät für knapp 400 MIPS 1 Watt - XScale kann die dreifache Performance bei gleicher Leistungsaufnahme erzielen. Die weiteren Vergleiche sind dem folgenden Diagramm von Intel zu entnehmen.

Interessant sind auch die besonderen Sparmodi von XScale. Hier verbraucht der Prozessor bei 200 MHz und 0,7 Volt nur noch ganze 50 Milliwatt. Wenn die neuen CPUs fast gar nichts mehr zu tun haben, sind laut Intel sogar 10 Milliwatt machbar.

XScale - der Takt ist's nicht allein

Nicht nur der hohe Takt von bis zu 1 GHz sorgt für die Leistung von XScale. Intel hat der Architektur je 32 KByte Cache für Daten und Instruktionen spendiert. Dazu kommt noch ein Mini Data Cache von 2 KByte, der beispielsweise beim Streaming von Audio und Video das gefürchtete Cache-Trashing des Daten-Cache durch sich ständig ändernde Inhalte verhindern soll.

Die Pipeline von XScale kennt sieben Stufen für Befehle sowie acht für Daten - auch hier zeigt sich, dass XScale für effektive Bearbeitung von digitalen Medien optimiert wurde. Dem trägt auch Rechnung, dass XScale mit 16-Bit-Daten SIMD-artige Multiplikationen durchführen kann.

Ein noch in Entwicklung befindlicher Chipsatz für XScale soll über eine spezielle Anbindung an den Core auch DSP-Funktionen ermöglichen. Damit könnte ein XScale-Prozessor beispielsweise in einem UMTS-Gerät einen Teil der Audio/Videoverarbeitung übernehmen. Da in diesem Fall weniger Spezial-Chips benötigt werden, reduziert das den Stromverbrauch des gesamten Geräts noch weiter.

Mit dem Speicher kommuniziert XScale über einen 64-Bit-Bus samt ECC. Damit Schreibzugriffe auf den Speicher die CPU nicht aufhalten, wurde ein Write Buffer mit acht Einträgen eingebaut. Gefertigt werden XScale-Prozessoren in 0,18 Mikron; bis Jahresende sollen die Chips ausgeliefert werden.

Mitsubishi hat sich schon für XScale entschieden; die laut Intel unterstützten Betriebssysteme Windows CE 3.0 und EPOC lassen auf neue Gigahertz-PDAs hoffen. Dass Compaq einen neuen iPaq mit XScale baut, gilt als wahrscheinlich, wurde von Intel aber nicht bestätigt. Daneben sollen die neuen CPUs auch mit VXWorks und IXWorks arbeiten, was eine Eignung für den Embedded-Markt erwarten lässt.

Timna - spät und trotzdem alt

Das seit anderthalb Jahren von Gerüchten umrankte Projekt Timna wurde in allerletzter Minute auf dem IDF enthüllt: Genau wie vermutet, handelt es sich um einen Celeron mit integrierter Grafik, nämlich der des i810-Chipsatzes.

Ein Memory Controller sitzt auch auf dem Die, sodass Timna sich in der Theorie hervorragend für Produkte wie Intels ebenfalls auf dem IDF gezeigte Dot.Station oder noch kleinere Internetgeräte eignet.

In der Theorie deshalb, weil Timna praktisch schon vor der Markteinführung veraltet ist: Das Projekt sieht Rambus als Speicher vor und macht wegen der damit hohen Speicherpreise im Zielmarkt wenig Sinn. Inzwischen gibt es zwar einen neuen Memory Protocol Translator (MPT), den Namen "MTH-2" hat Intel wegen dem gescheiterten ersten MTH vermieden. Doch der neue Speicherumsetzter von Rambus nach SDRAM arbeitet nur mit dem langsamen PC-100-Speicher zusammen und dürfte Timna deutlich ausbremsen.

Wenn Intel aus dem integrierten Konzept nicht bald ein Produkt macht, ist Timna trotz des guten Ansatzes völlig veraltet - für echte PCs sieht's schon jetzt angesichts anderer Boards mit integrierter Grafik und AMDs Duron schlecht aus.

Fazit

Die meiste Begeisterung konnte Intel bei den Keynote-Ansprachen für XScale ernten. Kein Wunder - das Handy-Fieber ist inzwischen auch in den USA endgültig ausgebrochen, und schnelle PDAs kann zumindest jeder Entwickler und Journalist brauchen. Genau diese Klientel saß ja auch im Publikum.

Auf den Pentium 4 freuen sich die Hersteller von Kühlkörpern und Netzteilen, Board-Bastler und PC-Anbieter schienen weniger begeistert.

Fast in den Keller sinkt die Spaßkurve beim Itanium: Bei allem Verständnis für eine neue Rechner-Architektur und die damit verbundenen Schwierigkeiten sitzen die Server-Hersteller nun schon seit einem halben Jahr auf fertigen Systemen.

Timna bekam ein Großteil der Besucher am letzten Tag des IDF kaum noch mit - viel verpasst haben sie damit auch nicht.

Das erste IDF in San Jose, eine Viertelstunde vom Intel-Hauptquartier entfernt, darf jedoch als voller Erfolg gewertet werden. Intels Entwickler-Konferenz mit angeflanschter Hausmesse und PR-Rundumschlag ist so erfolgreich, dass sich inzwischen auch VIA bemüht, eine derartige Veranstaltung zu etablieren. AMD sieht ebenfalls nicht entspannt zu: Intels Erzkonkurrent hatte während des IDF eine Suite in dem Hotel gemietet, in dem die meisten Journalisten untergebracht waren. Neue Produkte oder Technologien gab es dort jedoch nicht zu sehen. nie)