2in1: Pentium 4 Hyper-Threading Benchmarks

15.11.2002 von ALBERT  LAUCHNER
Mit nur einer aktiven Applikation verpuffen viele der Vorteile von Hyper-Threading. Doch im professionellen Umfeld laufen meist zahlreiche parallele Prozesse, und dann schlägt Intels neue CPU richtig zu.

Mit dem 3,06 GHz Pentium 4 will Intel eine neue Ära für Desktop-PCs einläuten. Ab jetzt soll Hyper-Threading das bislang nur im oberen Preissegment übliche Multi-Prozessing in die Consumer-PCs bringen - zumindest virtuell. Wie in unserem Grundlagenbeitrag detailliert zu lesen ist, stellt sich Intels neue CPU dem System als zwei unabhängige Prozessoren dar. Vor allem multithreaded programmierte Anwendungen und Multitasking sollen dadurch deutlich an Performance gewinnen. Wie dieser Test zeigt, sind dafür aber einige Randbedingungen erforderlich.

Hyper-Threading ist die revolutionärste Designänderung bei Intel seit der Einführung der ersten Pentium-CPUs. Zukünftig werden alle neuen Intel-Prozessoren das virtuelle 2in1-Konzept unterstützen. Intel steht mit der Einführung des neuen Pentium 4 marketingmäßig aber vor einer schweren Aufgabe: Hyper-Threading ist eine strategisch wichtige Technologie, der AMD nichts Vergleichbares entgegenzusetzen hat. Doch das Konzept von Hyper-Threading lässt sich potenziellen Käufern nur schwer vermitteln.

Hinzu kommt, dass bisherige Benchmarks für Hyper-Threading-CPUs nur bedingt geeignet sind. Sie liefern in Bezug auf eine echte Multitasking-Umgebung keine praxisrelevanten Ergebnisse. Selten zuvor hat Intel daher einen so intensiven Kontakt zu den Redaktionen gesucht, um für eine neue Art des Benchmarking zu werben.

Auch tecCHANNEL hat für diesen Beitrag eine neue Art von Leistungstests entwickelt - allerdings nicht nach der Intel-Doktrin. Im Folgenden lesen Sie zunächst eine kurze Beschreibung von Hyper-Threading und den Anforderungen an einen zeitgemäßen Benchmark. Anschließend erfahren Sie, wie sich Intels Hyper-Threading bei unseren neuen Benchmarks schlägt. Einen ausführlichen Test mit den bisherigen Benchmark-Programmen im Vergleich zu anderen Prozessoren lesen Sie hier.

Pipelines und Fließbandarbeiter

Folgendes Analogon soll die Funktionsweise von Hyper-Threading in Kürze veranschaulichen und als Grundlage der folgenden Analysen dienen. Eine detaillierte technische Beschreibung lesen Sie in unserem Beitrag Hyper-Threading im Detail

Die Abarbeitung eines Befehls geschieht innerhalb einer CPU in mehreren Teilschritten. So muss die CPU vor der eigentlichen "Berechnung" beispielsweise die betroffenen Daten aus dem Speicher anfordern oder bei indirekter Adressierung die Speicherorte der beteiligten Operanden ermitteln. Wie bei einem Fließband in der industriellen Fertigung durchlaufen die Befehle dafür verschiedene Stationen, so genannte Pipeline-Stufen. Intels Pentium 4 enthält eine Pipeline mit 20 Stufen, an denen im Idealfall parallel an den Befehlen gearbeitet wird.

Im Gegensatz zur gut organisierten industriellen Fertigung stockt jedoch die CPU-Pipeline ständig. Beispielsweise ist erst nach der kompletten Abarbeitung einer Fallunterscheidung sicher geklärt, an welcher Stelle im Code das Programm weiter geht. Spekulatives Vorarbeiten und Sprungvorhersagen sorgen zwar in vielen Fällen für eine Beschäftigung der Pipeline-Stufen. Doch trotz aller Optimierungen sind die einzelnen Pipeline-Stufen beim Pentium 4 laut Intel nur zu 35 Prozent ausgelastet.

Statt wie bislang zu versuchen, die Pipeline besser zu organisieren, geht Intels Hyper-Threading einen vollkommen neuen Weg: Die schlecht ausgelasteten Stufen sind zwei unabhängigen Pipelines zugeordnet, nach außen wirkt die eine CPU wie zwei.

Höhere Auslastung steigert die Leistung

Im Fließband-Analogon würde man dazu eine zweite Fertigungslinie aufbauen, an der die Arbeiter ebenfalls arbeiten können. Im Optimalfall, wenn beide Pipelines laufen, wird abwechselnd an beiden gearbeitet. Gerät der Nachschub an einer Station im Band ins Stocken, widmet sich der Arbeiter ganz dem zweiten Produktionsband. Insgesamt steigt so die Auslastung jedes Arbeiters und damit der Gesamt-Output deutlich.

Während dieses Verfahren in der Industrie an den Kosten des zweiten Fließbandes scheitert, benötigt Intel nur rund zwei Prozent mehr Transistoren und fünf Prozent mehr Die-Fläche für Hyper-Threading.

Theoretisch steigt die Auslastung mit zwei Pipelines auf gut 50 Prozent an, was diesen Aufwand rechtfertigt. In Zukunft könnten die Intel-CPUs gar mit vier logischen Pipelines kommen. Die nötigen Controllbits, etwa für das Interrupthandling im APIC, hat Intel schon entsprechend breit ausgelegt.

Multithreading und Multitasking

Allerdings zeigt das Beispiel des Fließbandarbeiters auch die Schwäche des neuen Konzepts auf. Hyper-Threading bringt nur dann Vorteile, wenn auch Arbeit für die zweite Pipeline vorhanden ist. Dafür gibt es zwei Möglichkeiten: Eine multithreaded programmierte Anwendung oder Multitasking mit zwei unabhängigen Programmen.

Beim Multithreading teilt sich eine Anwendung in mehrere unabhängig voneinander laufende Programmpfade auf. So kann etwa eine Rendering-Software die Arbeit in zwei Threads aufteilen und jedem Thread einen anderen Bildteil zuordnen. Bei einem Multiprozessor-System oder einer Hyper-Threading-CPU könnte etwa die eine CPU die obere Bildhälfte berechnen und die andere unabhängig davon die untere. Im Server- und Workstation-Umfeld sind derartige Programme üblich, und Hyper-Threading kann seine Vorteile ausspielen.

Doch bei Desktop-PCs waren Multiprozessor-Systeme bislang unüblich. Daher existiert auch kaum ein Desktop-Programm, das Multithreading für den echten Arbeits-Thread nutzt. Üblich ist vielmehr, kleine Nebenaufgaben wie die Druckausgabe oder die Rechtschreibprüfung in eigene Hintergrund-Threads auszulagern. Doch da hierfür wenig Rechenleistung benötigt wird, sind diese Threads meist in einem Wartezustand. Hyper-Threading bringt bei einer derartigen Anwendung kaum Vorteile.

Beim Multitasking laufen mehrere Anwendungen parallel auf dem Rechner ab. Doch auch hier gibt es "echtes" und "falsches" Multitasking. Viele geöffnete Anwendungen, die im Hintergrund nur warten, sind im eigentlichen Sinne kein Multitasking. Sichtbar wird dies im Taskmanager von Windows, wenn man die Spalte "CPU-Zeit" einblendet. Mit ein paar Minuten CPU-Zeit pro Tag kann man etwa das oft zitierte E-Mail-Programm im Hintergrund nicht wirklich als Multitasking-Last bezeichnen. Doch nur wenn mehrere Programme gleichzeitig CPU-Leistung benötigen, bringt Hyper-Threading Vorteile beim Multitasking.

Echtes Multitasking und Multithreading

Im Arbeitsumfeld gibt es aber durchaus Situationen, wo echtes Multitasking oder Multithreading stattfindet. Meist merkt man es daran, wenn das Arbeiten am PC zur Qual wird. Ein Beispiel ist ein im Hintergrund laufender Virenscan der Festplatte, der aber im Notfall auch zu einem anderen Zeitpunkt gestartet werden kann.

Kritischer sind Multimedia-Anwendungen, bei denen etwa mehrere Leute gemeinsam an einem Dokument oder einem Whiteboard arbeiten und sich gleichzeitig über VoIP oder eine Video-Konferenz miteinander austauschen. Die Vordergrundanwendung sollte dabei flüssig ablaufen, im Hintergrund hat der PC jedoch mit der Kompression und Dekompression der Audio- und Video-Daten alle Hände voll zu tun. Kommt er nicht nach, führt dies zu Bildaussetzern oder Tonstörungen.

Im Home-Segment stellen teamorientierte Online-Spiele ein ähnliches Szenario dar. Während das Spiel läuft, besprechen die Teammitglieder über einen Audio-Kanal ständig die aktuelle Taktik.

Ein weiteres Beispiel für Multitasking ist die Video-Bearbeitung. Die Manipulation der Filme benötigt meist mehrere Stunden an CPU-Zeit. Will man daneben noch am PC arbeiten, ist echtes Multitasking angesagt.

Multitasking-Benchmarks

Ein Benchmark soll eine praxisrelevante Aussage über die Leistungsfähigkeit eines PCs abgeben. Synthetische Benchmarks eignen sich dafür nur bedingt. Typische CPU-Benchmarks sind oft so kompakt, dass sie vollständig im Cache laufen. Dadurch sind sie zwar für Detailanalysen gut geeignet, erlauben aber wenig Rückschluss auf echte Anwendungen, die häufig durch Speicherzugriffe auf Code und Daten gebremst werden. Einen vor allem für Software-Entwickler interessanten Test mit synthetischen Benchmarks, der einige Kernprobleme von Hyper-Threading analysiert, finden Sie hier.

Bei den bislang üblichen Single-CPU-Desktops liefern Application-Benchmarks die beste Aussage zur Leistungsfähigkeit eines Systems. Anwendungen müssen eine bestimmte Aufgabe erledigen, die dafür benötigte Zeit dient als Messwert. Bei gebräuchlichen Benchmarks wie SYSmark 2002 laufen dabei sogar mehrere Anwendungen gleichzeitig. So erstellt etwa Dreamweaver eine Website, die dafür benötigten Bilder bearbeitet Photoshop. Meist erfolgt dabei nur ein Umschalten der Anwendung, echtes Multitasking tritt kaum auf.

Nicht zuletzt durch Intels Hyper-Threading wird sich das Arbeitsumfeld in nächster Zeit deutlich mehr in Richtung Multithreaded-Programme und Multitasking entwickeln. Benchmarks, die diese Fähigkeiten testen, sind bislang rar. Intel empfiehlt daher, zwei Anwendungen, die annähernd die gleiche Zeit benötigen, parallel zu starten und die Zeiten zu addieren.

Dabei tritt jedoch ein Problem auf: Wechselt man zu einer anderen Testkonfiguration, können sich die Laufzeiten der Programme deutlich verändern. Zwei Programme, die auf einem Pentium 4 mit 3 GHz die ganze Zeit über parallel ablaufen, zeigen auf einem Athlon 2600+ ein anderes Laufzeitverhalten. Ein Programm ist wesentlich früher fertig, das zweite läuft längere Zeit als einzige Anwendung weiter. Dadurch ergeben sich Seiteneffekte, die zu Fehlinterpretationen führen können.

Standard-Benchmarks mit Zusatzlast

tecCHANNEL geht bei künftigen Messungen von Hyper-Threading-CPUs zusätzlich einen anderen Weg: Gemeinsam mit den bisher verwendeten Tests läuft dabei eine Hintergrundlast, die unabhängig vom System ein konstantes Datenaufkommen abarbeitet und damit eine konstante Rechenleistung belegt.

Als Last kommt ein eigens programmierter MP3-Encoder zum Einsatz, der im Kern auf der Lame-Engine Version 3.92 basiert. Aus höherer Warte betrachtet gleichen der Datenfluss und der Funktionsablauf dieser Kodierung anderen Multimedia-Kodierungen wie der Video-Kompression oder Streaming-Media-Formaten. Die Last repräsentiert somit auch Anwendungsfälle wie eine Video-Konferenz oder IP-Telefonie im Hintergrund.

Das tecCHANNEL-Lastprogramm konvertiert eine Audio-WAV-Datei in ein 128-kbit/s-MP3-File. Im Gegensatz zu normalen MP3-Encodern lässt sich unsere Last aber auf einen konstanten Datendurchsatz einstellen. So ist es möglich, auf allen Testplattformen - unabhängig von der absoluten Leistungsfähigkeit des Prozessors -parallel zu den Tests den Encoder mit einem Durchsatz von beispielsweise 1000 KByte/s im Hintergrund laufen zu lassen. Dadurch wird erreicht, dass alle Testkandidaten die gleichen Multitasking-Randbedingungen vorfinden.

Programmtechnisch erfolgt die Durchsatzsteuerung über die Prozesspriorität der Last. Der Windows-Scheduler verteilt die zur Verfügung stehende Rechenzeit anhand dieser Priorität. Über einen Systemaufruf kann jede Anwendung dem Scheduler seine "Wichtigkeit" mitteilen und die eigene Priorität ändern. Dies ist übrigens auch im Taskmanager durch einen Rechtsklick auf den Prozess manuell möglich.

Die Last überprüft ständig, ob sie ihr Soll erfüllt. Liegt sie hinter dem Plan, erhöht sie ihre Priorität und bekommt vom Windows-Scheduler mehr von der CPU-Zeit zur Verfügung gestellt. Liegt sie vor dem Sollwert, reduziert sie die Priorität entsprechend und lässt mehr Rechenleistung für andere Anwendungen übrig. Unser Lastprogramm ist nicht Thread-basiert und nutzt auch keine speziellen Techniken, die Hyper-Threading bevorzugen.

Konstante Last und die Folgen

Die Hintergrundlast mit konstantem Datendurchsatz hält die Multitasking-Randbedingungen unabhängig von dem zu testenden Prozessor während aller Benchmarks konstant. Neben dem reinen Selbstzweck der gleichen Randbedingungen treten Hintergrundanwendungen mit konstanter Last auch in der Praxis auf: Brennen von CD-ROMs, bei Audio- und Video-Wiedergabe sowie -Aufnahme und bei Video-Konferenzen. Beim Virenscannen über ein Netzwerk oder beim Remote Access über DSL und Modem ist die zu verarbeitende Datenrate ebenfalls konstant.

Wichtig für die Benchmarks ist eine vernünftige Höhe der Last. Ist sie zu gering, findet auf dem System kein echtes Multitasking statt. Ist sie zu hoch, kann das System nicht einmal diese Grundlast abarbeiten.

Im Folgenden haben wir die Tests mit einer Last von 500, 1000 und 2000 KByte/s laufen lassen. Bei höchster Priorität und ohne zusätzlich laufende Benchmarks war unser Testsystem mit dem 3,06 GHz Pentium 4 in der Lage, 3500 KByte/s zu bearbeiten. Damit belegt die Last ohne Seiteneffekte rund 15, 30 und 60 Prozent der CPU. Der Athlon 2600+ zeigte eine Obergrenze von 2500 KByte/s. Bei ihm bewirkt das Encoding somit eine weitaus höhere Grundlast von 20, 40 und 80 Prozent.

Selbst wenn daher der Athlon 2600+ bei einzelnen Benchmarks ohne zusätzliche Last ein ähnliches Ergebnis wie der Pentium 4 mit 3,04 GHz liefert, ist es natürlich, dass er mit Last weitaus stärker einbricht. Ebenso einleuchtend ist, dass bei einer Last von 2000 KByte/s beim Athlon kaum noch Rechenzeit für die Vordergrundanwendung bleibt und die Messwerte stark abfallen. Dies entspricht aber dem Verhalten in der Praxis. Schluckt eine Anwendung viel CPU-Leistung, bleibt für weitere Programme nicht mehr viel übrig, und das Arbeiten wird unmöglich.

Wie viel Performance kostet der MP-Kernel?

Um Hyper-Threading nutzen zu können, muss das Betriebssystem mehrere Prozessoren unterstützen. Dazu ist bei Windows XP der Multiprozessor-Kernel (MP-Kernel) nötig. Selbst die Home-Edition von Windows-XP installiert im Bedarfsfall diesen Kernel und unterstützt Multiprocessing - allerdings nur mit einer physikalischen Hyper-Threading-CPU.

Hartnäckig hält sich das Gerücht, die Verwaltung mehrerer CPUs würde so viele Ressourcen kosten, dass dadurch die Leistung merklich sinken würde. Zunächst haben wir daher getestet, wie viel Tribut man für den Multiprozessor-Kernel von Windows XP wirklich zahlen muss. Die folgenden drei Benchmark-Diagramme wurden mit einem 3,06 GHz Pentium 4 durchgeführt, bei dem Hyper-Threading deaktiviert war. Obwohl per se nicht sinnvoll, haben wir das 1-CPU-System dafür mit dem MP-Kernel installiert.

Alle Messungen unterliegen einer gewissen Streuung, jedoch bleiben die Trends auch bei Wiederholungsmessungen eindeutig: Einige Programme laufen mit dem MP-Kernel geringfügig schneller, andere langsamer. Der zusätzliche Verwaltungsaufwand des MP-Kernels mag zu Windows-NT-Zeiten auf einem 386er noch eine Rolle gespielt haben - eine 3-GHz-CPU spürt davon wenig.

Offensichtlich verwaltet der MP-Kernel seine Threads jedoch etwas anders. Dadurch kann sich etwa eine andere Abfolge der Abarbeitung von Threads ergeben, was den Inhalt von Daten im Cache beeinflusst. Einige Programme profitieren davon, andere laufen langsamer.

SYSmark 2002

SYSmark 2002 setzt sich aus zwei Teilen zusammen, einem Office- und einem Content-Creation-Test. Der Office-Test verwendet Programme wie Word, Exel, Outlook, Netscape6, Natural Speeking und Winzip. Damit bildet er Aufgaben aus dem typischen Office-Alltag nach. SYSmark2002 will auch das parallele Arbeiten mit mehreren Programmen gleichzeitig simulieren. So arbeitet beispielsweise im Hintergrund zeitweise ein Virenscanner. Unter dem Punkt "Content Creation" fasst der Hersteller BABCo Programme wie Photoshop, Dreamweaver, Premiere und Flash zusammen. Gemeinsam erstellen die Programme Inhalte für die Online-Publikation.

Betrachtet man zunächst die Office-Messwerte ohne Hintergrundlast, ist der Pentium 4 mit Hyper-Threading ein Prozent langsamer als ohne. Wie auf der vorherigen Seite zu lesen ist, reagiert SYSmark jedoch sehr kritisch auf den Wechsel zum MP-Kernel. Hyper-Threading kann den dadurch entstehenden Verlust von 2,5 Prozent nicht ganz kompensieren. Leicht besser sieht Hyper-Threading bei der Content Creation aus. Ohne Last ergibt sich ein Plus von 2,5 Prozent.

Bei einer leichten bis mittleren Last im Hintergrund (500 und 1000 KByte/s MP3-Encodierung) bleibt dieses Gesamtbild erhalten. Dass Hyper-Threading hier im Gegensatz zu den Benchmarks auf den nächsten Seiten wenig bringt, liegt an einer Besonderheit von SYSmark: Der Benchmark simuliert einen Anwender, der zwischen seinen Tastatur- und Mauseingaben immer wieder kurze Denkpausen einlegt. In dieser Zeit kann aber die Hintergrundlast ihr Soll erledigen, so dass wenig echtes Multitasking auftritt.

Erst wenn man die Last auf 2000 KByte/s steigert, zeigen sich die Vorteile von Hyper-Threading. Betrachtet man etwa den Official-Run, bricht der Pentium 4 ohne Hyper-Threading damit um 40 Prozent ein. Mit Hyper-Threading bremst diese Last den Arbeitsfluss nur um 26 Prozent.

Zum Vergleich haben wir einen Athlon 2600+ die Benchmarks absolvieren lassen. Auch ohne Last ist der Athlon dem Pentium 4 bei SYSmark 2002 deutlich unterlegen, da SYSmark an einigen Stellen SSE2-optimiert ist. Da die Last zudem auf dem Athlon mehr CPU-Zeit belegt, geht das System damit weiter in die Knie. Bei 2000 KByte/s ist der Athlon am Ende, die Benchmarks geben um bis zu 75 Prozent nach.

GLmark

GLmark von Vulpine ist ein weiterer OpenGL-Benchmark. Er erlaubt dank seiner ausführlichen Benchmark-Statistik einen detaillierten Vergleich der verschiedenen CPUs. Wir testen mit den optimalen Einstellungen für die verwendete Hardware und höchster Darstellungsqualität.

Bereits ohne Hintergrundlast profitiert GLmark mit 1,5 Prozent von Hyper-Threading. AMDs Athlon 2600+ kann mit dem 3,06 GHz Pentium 4 erstaunlich gut mithalten. Doch sobald im Hintergrund der MP3-Encoder läuft, trennt sich das Testfeld auf. AMDs Athlon bricht bei 2000 KByte/s um 76 Prozent ein. Dieser Wert deckt sich gut mit den Vorüberlegungen, dass diese Hintergrundlast das System zu rund 80 Prozent belegt.

Auch beim Pentium 4 ohne Hyper-Threading passiert das Erwartete. Er bricht um 46 Prozent ein. Intels neue Technologie verbringt bei diesem Benchmark unter Last aber wahre Wunder. Fast unbeeindruckt von dem zusätzlichen Nebenjob reduziert sich die Leistung nur um 11 Prozent.

Auch subjektiv zeigt sich bei diesem Test ein Vorteil, von dem auch echte Multiprozessor-User immer wieder berichten: Trotz hoher Hintergrundlast läuft die Vordergrundanwendung flüssig und geschmeidig ab. Ohne Hyper-Threading kommt es auch bei hohen durchschnittlichen Frame-Raten immer wieder zu leichten Rucklern. Denn der Scheduler von Windows teilt der Anwendung manchmal für mehrere Millisekunden keine CPU-Zeit zu, wenn ein anderer Task parallel abläuft. Mit Hyper-Threading hat der Scheduler mehr Möglichkeiten zur Aufgabenverteilung, und millisekundenlange Denkpausen treten viel seltener auf.

Raytracing

Das 3D-Programm Lightwave 3D 7.5 von NewTek ist für den Pentium 4 optimiert. Laut NewTek betrifft das speziell den SSE2-Befehlssatz. Neben Intel-CPUs werden auch die AMD-Prozessoren besonders unterstützt. NewTek selbst hat die Athlon-Prozessoren für Lightwave 3D bereits im März 2001 zertifiziert. Als Besonderheit kann Lightwave seine Rendering-Aufgaben auf mehrere Threads aufteilen. Deshalb haben wir den Test einmal mit einem Thread und einmal mit vier Threads durchgeführt.

Ohne weitere Last geben sich die beiden Pentium-Modi nicht viel. Doch mit steigenden Zusatzaufgaben zieht Hyper-Threading klar davon. Bei 2000 KByte/s verlängert sich mit Hyper-Threading die Laufzeit um 50 Prozent, ohne benötigt der Pentium 4 für die gleiche Aufgabe 136 Prozent länger. Nach einer Verfünffachung der Laufzeit ist der Athlon mit dieser Last am Ende.

Bei vier Threads ändert sich die Laufzeit ohne Hyper-Threading im Vergleich zu den Messungen mit einem Thread kaum. Mit der CPU-Aufteilung ändert sich das Bild jedoch. Ohne Last gewinnt Lightwave 14 Prozent. Mit Last reduziert sich der relative Gewinn durch die zusätzlichen Threads auf drei Prozent. Dies ist einleuchtend, da die Last ja bereits die zweite Pipeline der CPU füllt und Hyper-Threading schon voll zum Einsatz kommt. Verglichen mit dem Pentium 4 ohne Hyper-Threading läuft Lightwave bei 2000 KByte/s Hintergrundlast 38 Prozent schneller.

Multithreaded-Benchmarks

Neben Multitasking mit mehreren Applikationen bietet Hyper-Threading auch Vorteile, wenn eine Anwendung ihre Arbeit auf mehrere Threads aufteilt. Anhand folgender drei Anwendungen haben wir die Leistungssteigerung für Multithreaded-Programme ermittelt:

Bei den betrachteten Programmen liegt der Gewinn durch Hyper-Threading zwischen 4 und 23 Prozent. Bei Mainconcept scheint die Thread-Aufteilung des MPEG1-Encoders noch nicht sonderlich gut gelungen. Dass es besser gehen kann, zeigt die Implementierung des MPEG2-Encoders, der um 18,3 Prozent zulegt.

Lightwave ist ein Paradebeispiel für ein wenig intelligentes Thread-Management. Bei zwei Threads zerlegt es die Aufgabe in zwei Teile und rechnet damit los. Wird einer der Threads deutlich früher fertig, etwa weil in seinem Teilgebiet keine komplexen Berechnungen nötig waren, terminiert Lightwave diesen Thread und rechnet die Restzeit nur noch mit einem Thread weiter. Dies erklärt, warum Hyper-Threading mit wachsender Thread-Zahl schneller wird: Bei acht Threads sind fast bis zum Schluss zwei Threads vorhanden, die die zwei Pipelines füllen.

Besser gelöst ist das Problem bei dem zweiten getesteten Render-Programm. Cinema 4D teilt das Bild ebenfalls und rechnet mit zwei Threads los. Ist jedoch einer fertig, wird die restliche Aufgabe erneut geteilt und wiederum auf zwei Threads verteilt. Der Lohn für diese Mehrarbeit: bis zu 23 Prozent Performance-Steigerung.

Fazit

Der Pentium 4 mit 3 GHz und Hyper-Threading ist ein interessanter Schachzug von Intel. Hyper-Threading bringt vor allem Powerusern und professionellen Anwendern viel und kostet Intel fast nichts. Der Anwender muss hingegen mit 637 US-Dollar fast 240 US-Dollar mehr bezahlen als für den nächst kleineren Pentium 4 mit 2,8 GHz, aber noch ohne Hyper-Treading. Die 637 US-Dollar stellen dabei keinen neuen Rekord dar: Schon das erste Modell mit FSB 533, der 2,53 GHz Pentium 4, war bei seiner Markteinführung vor einem halben Jahr so teuer. Bereits nach vier Monaten viel dessen Preis auf 243 Dollar.

Die Pläne für Hyper-Threading hatte Intel schon seit dem Pentium Pro (1995) fertig in der Schublade, doch fehlte das passende Betriebssystem für den Desktop-PC. Microsoft schob die dafür nötige Verschmelzung der Windows NT- und Windows-95-Linie immer wieder hinaus. Mit Windows XP ist diese Hürde gefallen, und Intel kann diesen Hieb gegen AMD setzen. AMD hat dem derzeit nichts entgegenzusetzen und ist bis zur (Massen-) Markteinführung der Hammer-CPUs technologisch und frequenzmäßig kaltgestellt.

Bislang profitieren nur Poweruser wirklich von Hyper-Threading, die entweder mit mehreren aktiven Programmen arbeiten oder Software nutzen, die aus der Workstation-Ecke kommt. Doch die Software-Hersteller von Desktop-Programmen werden sich an die neuen Spielregeln anpassen müssen. Anders als bei MMX und SSE ist es zwar für sie nicht damit getan, in einigen Unterroutinen ein paar neue Befehle zu nutzen und die Daten anders zu organisieren. Multithreaded-Anwendungen erfordern ein komplett anderes Design mit einer neuen Programmlogik. Aber da Intel künftig alle neuen Prozessoren mit Hyper-Threading ausstatten wird und Betriebssysteme wie Windows XP und Linux das passende Umfeld bieten, ist die Zukunft des Desktop-PCs vorgezeichnet. (ala)

tecCHANNEL Preisvergleich & Shop

Produkte

Info-Link

Prozessoren

Preise & Händler

Testkonfiguration

Wir testen alle Prozessoren in einer exakt festgelegten Testumgebung unter Windows XP mit SP1. Die Tests erfolgten bei einer Auflösung von 1280 x 1024 und 75 Hz. Bei allen Tests ist die V-Synchronisation abgeschaltet. Die AGP-Aperture-Size ist auf 256 MByte eingestellt.

Nähere Angaben zu den einzelnen Tests finden Sie im jeweiligen Textabschnitt und in den Diagrammen.

Eine detaillierte Auflistung der verwendeten Hardware-Komponenten bieten wir Ihnen auf den nachfolgenden Seiten.

Testkonfiguration Intel-CPU

Komponente

Daten

Mainboard

Intel D845PEBT2

Serien-Nr.

--

BIOS

BT84520A.86A.0005.P01.0209191212

Sonstiges

Socket 478, DDR-SDRAM, i845PE

RAM

2 Module Corsair XMS3200

Serien-Nr.

---

Firmware

---

Sonstiges

256 MByte DDR400-SDRAM CL2

Grafikkarte

MSI G4Ti4600

Serien-Nr.

G4TI4600-VTD0204019549

Firmware / Treiber

Detonator 28.32

Sonstiges

AGP, 128 MByte DDR-SDRAM

SCSI-Controller

Adaptec AHA-2940UW Pro

Serien-Nr.

BC0B90904KF

Firmware

v2.11.0

Sonstiges

Rev. C

Festplatte

Seagate ST336705LW

Serien-Nr.

Firmware

Sonstiges

UW-SCSI, 40 GByte

DVD-ROM

Pioneer DVD-303S-A

Serien-Nr.

TGT0059423WL

Firmware

1.09

Sonstiges

SCSI

Sound-Karte

TerraTec XLerate Pro

Serien-Nr.

1293900011590

Firmware

---

Sonstiges

Rev. C / 4.06.2016 / 13.03.1999

Netzwerkkarte

Realtek RTL8139B 10/100 Ethernet

Serien-Nr.

1562912232546

Firmware

--

Sonstiges

Rev: 1.2

Netzteil

Enermax EG-365P-VE

Serien-Nr.

Firmware

---

Sonstiges

350 W

Diskettenlaufwerk

TEAC FD-235HF

Serien-Nr.

E081321

Firmware

---

Sonstiges

---

Tastatur

Cherry RS 6000 M

Serien-Nr.

G 0064322 4 L28 3 I

Firmware

---

Sonstiges

---

Maus

Logitech M-S35

Serien-Nr.

LZA84352020

Firmware

---

Sonstiges

3 Tasten

Testkonfiguration AMD-CPU

Komponente

Daten

Mainboard

EPOX EP-8K3A

Serien-Nr.

--

BIOS

03/28/2002

Sonstiges

Socket A, VIA Apollo KT333

RAM

2 Module Corsair XMS3200

Serien-Nr.

---

Firmware

---

Sonstiges

256 MByte DDR400-SDRAM CL2

Grafikkarte

MSI G4Ti4600

Serien-Nr.

G4TI4600-VTD0203058542

Firmware / Treiber

Detonator 28.32

Sonstiges

AGP, 128 MByte DDR-SDRAM

SCSI-Controller

Adaptec AHA-2940UW Pro

Serien-Nr.

BC0B90905QN

Firmware

v2.11.0

Sonstiges

Rev. C

Festplatte

Seagate ST336705LW

Sonstiges

UW-SCSI, 40 GByte

DVD-ROM

Pioneer DVD-303S-A

Serien-Nr.

TGT0059424WL

Firmware

1.09

Sonstiges

---

Sound-Karte

TerraTec XLerate Pro

Serien-Nr.

1293900011399

Firmware

---

Sonstiges

Rev. C / 4.06.2016 / 13.03.1999

Netzwerkkarte

Realtek RTL8139B 10/100 Ethernet

Serien-Nr.

1562912232539

Firmware

--

Sonstiges

Rev: 1.2

Netzteil

Channel Well Technology ATX-230

Serien-Nr.

540299070594

Firmware

---

Sonstiges

230 W

Diskettenlaufwerk

TEAC FD-235HF

Serien-Nr.

B210033

Firmware

---

Sonstiges

---

Tastatur

Cherry RS 6000 M

Serien-Nr.

G 0064318 4 L28 3 I

Firmware

---

Sonstiges

---

Maus

Logitech M-S35

Serien-Nr.

LZA84352013

Firmware

---

Sonstiges

3 Tasten