HyperTransport im Detail

18.09.2002 von ALBERT LAUCHNER

Die Speicher- und I/O-Anbindung wird für schnelle CPUs zum Flaschenhals. HyperTransport soll mit bis zu 12,8 GByte/s für genügend Luft nach oben sorgen und kommt bei AMDs Hammer als CPU- und Systembus zum Einsatz.

Die Taktrate der PC-Prozessoren hat sich seit 1978 von 4,77 MHz auf über 2,5 GHz erhöht. Gleichzeitig stieg die Breite des Datenbusses von 16 auf 64 Bit an. Beide Parameter ermöglichen einer aktuellen CPU, rund 2000 Mal mehr Daten pro Sekunde zu bewegen als vor 25 Jahren - schnelle Transfers über die 128 Bit breiten Multimedia-Register nicht einmal mit berücksichtigt. Verglichen damit hinkt die Steigerung vom ISA-Bus mit 8 Bit und 4,77 MHz zu PCI-X mit 133 MHz und 64 Bit deutlich hinterher. Sie entspricht nur einer Beschleunigung um den Faktor 200.

Der I/O-Bus als Flaschenhals macht sich nicht nur beim Zugriff auf Erweiterungskarten bemerkbar. Die Standardbusse werden zum Teil auch für den Datenaustausch zwischen Komponenten auf dem Mainboard genutzt. Deshalb haben Chipsatzhersteller begonnen, eigene Hochgeschwindigkeitsbusse etwa zwischen der North- und Southbridge sowie zwischen den CPUs eines Servers zu entwickeln. So bietet etwa die 16 Bit breite MuTIOL-Verbindung von SiS eine Datentransferrate von bis zu 1 GByte/s. Die proprietären Busse implizieren jedoch einen enormen Entwicklungsaufwand und verhindern die Anbindung von Chips anderer Hersteller.

HyperTransport soll als serieller Universalbus die Performance- und Kompatibilitätsprobleme lösen. Preiswert, skalierbar und schnell soll er nicht nur Peripheriekomponenten auf dem Mainboard miteinander verbinden. AMDs 64-Bit-Opteron-CPUs kommunizieren mit der Außenwelt nur noch über drei unabhängige HyperTransport-Links und greifen darüber in SMP-Systemen sogar auf Teile des Hauptspeichers zu. Künftig sollen HyperTransport-Steckplätze auch zur extrem schnellen Anbindung von Erweiterungskarten dienen.

Entwicklungsziele

Der HyperTransport-Bus dient derzeit ausschließlich zum Verbinden von zwei Chips auf einem Board. Somit ist er nicht direkt mit externen I/O-Bussen wie PCI (-X, -Express) zu vergleichen. Die Daten sollen vielmehr vom Prozessor über den HyperTransport-Bus zu entsprechenden Interface-Bausteinen laufen. Infiniband-, 10GB-Ethernet, PCI-X- oder simple I/O-Bridges wandeln die HyperTransport-Signale dann passend für die jeweilige Schnittstelle um.

Folgende Designziele waren bei der Entwicklung von HyperTransport maßgeblich:

Hohe Bandbreite bei niedriger Latenzzeit.

Einheitlicher Bus und gemeinsames Protokoll für alle Verbindungen auf dem Mainboard.

Flexible Geschwindigkeiten und variable Busbreite.

Unterschiedliche Geschwindigkeit je nach Richtung.

Möglichst wenige Leitungen und preiswertes Chip-Interface.

Geringer Energieverbrauch und Stromsparmechanismen.

Unterstützung von Multiprozessor-Systemen und "System Network Architecture"-Bussen

Das im Juli 2001 gegründete HyperTransport Consortium steuert die Entwicklung des neuen I/O-Busses. Die universellen Ansprüche spiegeln sich auch in deren aus den verschiedensten Bereichen stammenden Mitgliedern wider. Zu den prominentesten Vertretern zählen neben AMD, Sun, Apple, sgi, Transmeta und NVIDIA auch Firmen aus dem Netzwerksegment wie Cisco, Broadcom und Api Networks.

Modularer Aufbau

Der HyperTransport-Bus besteht aus einer Punkt-zu-Punkt-Verbindung von zwei Bausteinen. Um damit komplexe Schaltungen aufzubauen, stehen drei generische Device-Typen zur Verfügung:

Cave: Dieser Typ enthält nur einen HyperTransport-Link. Er sitzt am Ende einer Kette und empfängt nur für ihn bestimmte Daten.

Tunnel: Ein Tunnel besitzt zwei HyperTransport-Links. Er empfängt Daten, filtert die für ihn bestimmten heraus und leitet die für andere Devices in der Kette bestimmten Daten am "gegenüber liegenden" Ausgang weiter.

Bridge: Eine Bridge hat typischerweise drei HyperTransport-Links. Sie empfängt eigene Daten und leitet fremde Daten passend an die angeschlossenen Ketten weiter. Ein Sonderfall ist die Host-Bridge, die als Ausgangspunkt der Topologie die Steuerung übernimmt. Sie kann auch mit einem zweiten, unabhängigen Netzwerk verbunden sein und damit Daten austauschen.

Mit den genannten Bausteinen lassen sich beliebige Topologien erstellen, von der simplen Zwei-Chip-Verbindung über eine Kette bis zu komplexen Baumstrukturen. Die HyperTransport-Terminologie bezeichnet diese Topologien auch als Fabric. Konkrete Anwendungsbeispiele von Fabrics finden Sie im Kapitel zu AMDs Hammer. Das Modell im Bild demonstriert lediglich die verschiedenen Device-Typen sowie die mögliche Skalierbarkeit der Busbreite.

Einer der Vorteile von HyperTransport besteht darin, dass sich die Bitbreite und Taktfrequenz jeder Verbindung individuell anpassen lassen. So dürfte die Verbindung von der CPU zu einem AGP 8X-Tunnel mit etlichen GByte/s relativ schnell und breit ausfallen. Der weitere Weg zur "langsamen" Southbridge kann dann mit weniger Aufwand erfolgen, ein GByte/s dürften hierfür leicht ausreichen.

Durch den einheitlichen Bus lassen sich die Devices verschiedener Hersteller mischen. Ein Mainboard mit VIA-AGP-Bridge, AMD-PCI-Express-Interface und ALi-I/O-Hub in einer Kette ist ohne Weiteres machbar. Das Design einer neuen Schaltung reduziert sich auf die Auswahl von bestehenden Building Blocks - Lego-Spielen für Ingenieure.

Physikalisches Interface

Der HyperTransport-Bus besteht auf dem untersten Layer des ISO/OSI-Schichtenmodells aus zwei unidirektionalen Punkt-zu-Punkt-Verbindungen. Die Datenbreite kann dabei 2, 4, 8 oder 16 Bit je Richtung betragen. Asymmetrische Konfigurationen mit unterschiedlichen Breiten je Richtung sind möglich. Die Frequenz auf den Datenleitungen kann von 400 MHz bis 1,6 GHz variieren.

Kommandos, Adressen und Daten nutzen dieselben Leitungen und werden in Paketen mit Vielfachen von vier Byte übertragen. Eine eigene Control-Leitung ermöglicht die Unterscheidung zwischen Kommandos (mit Adressen) und Daten. Als letzte Hochfrequenzleitung ist noch ein Taktsignal erforderlich. Da HyperTransport die Daten an beiden Taktflanken übernimmt, läuft der Bustakt mit der halben Datenfrequenz.

Um mit zunehmender Busbreite nicht die Timing-Probleme der parallelen Busse zu erhalten, ist ein Taktsignal maximal für acht Bit zuständig. Zu einem mit 32 Bit ausgebauten Bus gesellen sich dadurch noch einmal vier Taktsignale. Innerhalb jeder Gruppe müssen die Laufzeiten und Leitungslängen beim Routing auf dem Mainboard annähernd identisch sein. Bei 1,6 GHz darf der Laufzeitunterschied nur 20 Picosekunden, entsprechend einigen Millimetern, betragen. Zwischen den Gruppen sind 1000 Picosekunden erlaubt.

Vier weitere Leitungen, die im unkritischen Niederfrequenzbereich arbeiten, komplettieren den HyperTransport-Bus. RESET# setzt das Device zurück und leitet die Initialisierung ein. PWROK signalisiert ihm eine stabile Versorgungsspannung und einen sauberen Takt. LDTSTOP# und LDTREQ# steuern das optionale Powermanagement.

Pinanzahl und Busbreite
Link-Breite (je Richtung)	2	4	8	16	32
Optional sind noch zwei Leitungen für das Powermanagement erforderlich.
Daten-Pins	8	16	32	64	128
Takt-Pins	4	4	4	8	16
Control-Pins	4	4	4	4	4
Summe High-Speed	16	24	40	76	148
Stromversorgung	2	2	3	6	10
Masse	4	6	10	19	37
PWROK	1	1	1	1	1
RESET#	1	1	1	1	1
Summe total	24	34	55	103	197

Differenzielle Übertragung

Hochfrequente Signale überträgt HyperTransport differenziell. Gegenüber dem IEEE-Standard LVDS (Low Voltage Differential Signaling) wurde die Spannung dabei von 2,5 Volt auf 1,2 Volt gesenkt. In Kombination mit der 100 Ohm differenziellen Impedanz fällt die Leistungsaufnahme für den Bus dadurch gering aus.

Die elektrischen Spezifikationen von HyperTransport sind speziell für preiswerte vierlagige Board-Designs optimiert. Durch die Störfestigkeit der differenziellen Übertragung kann die Leitungslänge etwa bei einer Datenfrequenz von 800 MHz bis zu 60 Zentimeter betragen.

Auf den ersten Blick kostet die unidirektionale differenzielle Übertragung sehr viele Datenleitungen. Zwei Vorteile wiegen dies aber mehr als auf: Zum einen können dedizierte Ein- und Ausgänge mit einer viel höheren Frequenz betrieben werden als bidirektionale Universalanschlüsse.

Zum anderen fließt der Strom bei zwei differenziellen Leitungen auf der einen zum Empfänger, auf der anderen, direkt benachbarten, wieder zurück. Da der Summenstrom damit zu Null wird, sind Abschirmungen und die sonst übliche hohe Anzahl an Massepins unnötig. Zudem entfällt die Belastung der Masseleitungen mit Strömen im HF-Bereich. Auch die Stromaufnahme ist sowohl für ein übertragenes High- als auch Low-Bit konstant. Dadurch vereinfacht sich die HF-feste Stromversorgung des Bauteils, und die Anzahl der dafür erforderlichen Versorgungspins sinkt.

Busbreite und Bandbreite

HyperTransport bietet mit knapp 60 MByte/s pro Pin eine sehr hohe Datenübertragungsrate. Sie wird lediglich von PCI Express geschlagen. Während jedoch HyperTransport schon in zahlreichen Designs auf dem Markt ist, existiert von PCI Express erst seit Ende Juli 2002 die erste Spezifikation. Mit welchem Aufwand sich der 2,5-GHz-Express-Bus implementieren lässt und wie schnell Systeme in der Praxis damit laufen, dürfte sich frühestens in einem Jahr zeigen. Doch dann ist auch HyperTransport 2.0 mit mindestens verdoppelter Datentransferrate nicht mehr fern.

Pinanzahl und Übertragungsrate
	HT 2 x 2 Bit	HT 2 x 8 Bit	HT 2 x 16 Bit	PCI	PCI-X	PCI Express 2 x 8 Bit	AGP 4x
Minimale Pinanzahl inklusive nötiger Versorgungsspannung und Ground-Pins, Transferraten sind theoretische Zirkawerte.
Pinanzahl	24	55	103	84	150	40	108
Transferrate MByte/s	763	3052	6104	127	954	3815	954
Transferrate MByte/s pro Pin	31,8	55,5	59,2	1,5	6,4	95,4	8,9

Initialisierung

Bei HyperTransport-Bausteinen müssen nicht alle vorhandenen I/O-Pins genutzt werden. Ungenutzte Ausgänge bleiben offen, Eingänge verbindet man mit Masse. Nach einem Reset senden sich zwei Bausteine automatisch Bitmuster zum Test zu und überprüfen so die Breite ihrer Verbindung. Dabei kommt die niedrigste Taktfrequenz von HyperTransport mit 200 MHz zum Einsatz.

Die automatische Konfiguration gewährleistet einen rudimentären Start des Systems. Ohne sie könnte etwa eine HyperTransport-CPU nicht auf das BIOS an der Southbridge zugreifen, um sich von dort erweiterte Konfigurationsparameter zu holen. Allerdings nutzt die automatische Anpassung nur maximal 8 Bit Busbreite. Bei einer asymmetrischen Verbindung verwendet sie die Breite des schmäleren Busses. Deshalb ist bei einem Systemstart auch eine Software-seitige Optimierung durch Parameter aus dem BIOS erforderlich. Diese enthalten auch die maximale Taktfrequenz, die neben den verwendeten Bausteinen vom Board-Design und Platinenmaterial abhängt.

Für eine möglichst einfache Konfiguration stellen HyperTransport-Devices ihre Controlregister Plug-and-Play-konform dar. Beim Scannen der Busse und der Konfiguration verhalten sich HyperTransport-Devices exakt wie PCI-Devices. So soll für BIOS- und Treiberprogrammierer der Umstieg möglichst einfach ausfallen.

Host Bridge

Jede HyperTransport-Topologie enthält eine so genannte Host Bridge an ihrer "Spitze", die den Datenverkehr steuert. Alle Pakete kommen entweder von der Host Bridge oder sind für sie bestimmt. Erst zukünftige Netzwerkerweiterungen sollen auch die direkte Kommunikation zwischen Bausteinen ermöglichen (Peer-to-Peer). Bei Systemen mit AMDs 64-Bit-Opteron übernimmt die CPU die Aufgabe der Host Bridge.

Innerhalb einer HyperTransport-Kette können bis zu 32 Devices hintereinander geschaltet sein. Zur Adressierung erhält jedes eine UnitID, wobei für die Host Bridge die UnitID 0 reserviert ist.

Für bestimmte Anwendungen können auch zwei Host Bridges an einer Kette angeschlossen sein. Sinnvoll ist dies bei redundanten Systemen oder Clustern, die sich ein gemeinsames I/O-Device teilen. In diesem Fall müssen beide Host Bridges jeweils am Ende der Kette angeschlossen sein. Eine arbeitet dann als Master Bridge und verwaltet alle Devices in der Kette. Die zweite Slave Bridge kann unabhängig vom Master auf alle Devices zugreifen.

Ein interessanter Sonderfall etwa für große Netzwerkinstallationen ist die non-sharing double-ended Kette. Dabei wird die Kette in der Mitte per Software unterbrochen, und die beiden Host Bridges verwalten je ihren Teil. Fällt ein Device in der Kette aus, konfigurieren die beiden Host Bridges die Kette neu mit dem defekten Device als Trennungspunkt. Dieses Verfahren eignet sich ebenfalls zur dynamischen Umverteilung der Buslast durch Load Balancing.

Kommandos und Daten

HyperTransport ist ein befehlsorientierter Bus, der Kommandos und Daten in Paketen zu Vielfachen von 4 Byte überträgt. Möchte etwa die CPU Daten von einem Festplatten-Controller lesen, schickt sie diesem eine Leseanfrage in Form eines 8 Byte großen Read-Request-Kommandos. Dieses enthält unter anderem die Adresse und die Größe des gewünschten Datenblocks.

Während die CPU anschließend auf eine Antwort wartet, kann sie weitere Kommandos absetzen. Zur Unterscheidung der später folgenden Antworten dient das Feld SrcTag. Dessen Breite von 5 Bit legt die Anzahl der maximal ausstehenden Antworten pro Device (UnitID) auf 32 fest. Die Felder PassPW (Pass Posted Writes) und SeqID steuern, ob die Antworten in einer bestimmten Reihenfolge eintreffen müssen oder sich gegenseitig überholen dürfen. Gleichzeitig regeln sie das Verhalten gegenüber ausstehenden Schreibkommandos.

Hat der Empfänger, hier der Festplatten-Controller, die Daten bereit, sendet er ein 4 Byte großes Read-Response-Paket als Antwort. Direkt daran angeschlossen folgen die Daten. Zur Unterscheidung zwischen den Kommandos und den Daten dient eine eigene Control-Leitung, die bei Kommandos logisch 1 ist.

Memory Mapping

HyperTransport regelt die Kommunikation mit Devices über speziell zugeordnete Adressbereiche. Durch dieses Memory Mapping entfallen die früher üblichen I/O-Control-Leitungen, mit denen beispielsweise Konfigurationsdaten in Register von Schnittstellenbausteinen geschrieben werden. Selbst Interrupts löst ein Device durch einen Schreibzugriff auf eine vorher bestimmte Adresse aus.

Die kleinste Datengröße bei HyperTransport beträgt 4 Byte. Greift man aber etwa auf Control-Register oder den Framebuffer einer Grafikkarte zu, möchte man oft nur ein einziges Byte verändern. Deshalb beherrscht HyperTransport einen Byte-Write- und -Read-Befehl. Zwar überträgt der Bus dabei auch 4 Byte an Daten. Im Kommando selbst ist jedoch in einer Maske angegeben, welche Daten-Bytes berücksichtigt werden und welche nur Lückenfüller sind.

Streams und Virtual Channels

Pakete, die in Richtung Host Bridge (Upstream) laufen, tragen die eindeutige ID der Quelle, die UnitID. Alle Pakete, die von der Host Bridge gesendet werden (Downstream), tragen die UnitID 0. Die Pakete einer Quelle bezeichnet man auch als Stream.

Innerhalb eines Streams bestimmen Flags und die Sequenz-ID (SeqID) in den Kommandos, ob und wie die Pakete voneinander abhängen. Zudem sind die Befehle in logische Gruppen wie Request und Response eingeteilt. Für diese so genannten Virtual Channels existieren fixe Verkehrsregeln, etwa wer wen überholen darf und wer in einer Bridge Vorfahrt hat. Diese Regeln verhindern einen ansonsten möglichen Kollaps auf dem Bus.

Verschiedene Streams können innerhalb einer Fabric aber immer unabhängig voneinander behandelt werden. So dürfen sich Pakete verschiedener Streams in einzelnen Devices einer Kette beliebig überholen. Lediglich die Host Bridge ist in der Lage, Abhängigkeiten zwischen Streams zu erkennen, Daten von einem Stream in einen anderen zu leiten und für Ordnung zu sorgen.

Zukünftige Netzwerkerweiterungen

Hersteller von Switches und Routern sind besonders auf einen flexiblen und schnellen Bus angewiesen. Netzwerkchips mit HyperTransport-Interface ermöglichen ein modulares Design und eine fast beliebige Skalierung der Geräte. Noch 2002 soll HyperTransport deshalb um einige Funktionen erweitert werden, die speziell auf eine große Netzwerkinfrastruktur zugeschnitten sind:

Durch ein "Message Passing"-Protokoll und virtuelle Streams können zusammengehörige Datenströme mit wenig Aufwand vom Start- zum Endpunkt geroutet werden.

Ein Fehlerprotokoll in Hardware erkennt Übertragungsfehler und fordert die Daten automatisch neu an.

Peer-to-Peer-Transfers ermöglichen den direkten Datenaustausch zwischen zwei (Netzwerk-) Devices, ohne über eine Host Bridge laufen zu müssen.

Optionale 64-Bit-Adressen erweitern den 40 Bit (1TByte) großen Adressbereich und unterstützen selbst sehr große Speichermodelle.

Eine Verbreiterung des SrcTag-Feldes von 5 auf 10 Bit erhöhte die Maximalzahl der ausstehenden Transaktionen von 32 auf 1024 pro Device. Dadurch steigt die Parallelität der Datentransaktionen.

HyperTransport und AMD-CPUs

AMD setzt mit seinen kommenden 64-Bit-Prozessoren der Hammer-Serie ganz auf HyperTransport. Die CPUs enthalten erstmals in der Intel/AMD-Welt eine integrierte Northbridge, die den DDR-Hauptspeicher direkt anspricht. Der klassische proprietäre Frontside-Bus existiert bei den Hammer-CPUs nicht mehr. Die komplette Kommunikation mit allen anderen Systemkomponenten geschieht nur noch über den HyperTransport-Bus. Nicht zufällig passen deshalb auch der physikalische Adressbereich von HyperTransport und Hammer-CPU perfekt zusammen: Beide können mit ihren 40-Bit-Adressen 1 TByte verwalten.

Derzeit stehen zwei Hammer-CPUs auf der Roadmap. AMDs kleiner Clawhammer ist für Desktops und Workstations vorgesehen. Er besitzt nur ein HyperTransport-Interface und dürfte zum Jahreswechsel 2002/2003 erhältlich sein.

Der große Bruder für Server hat seinen Codenamen Sledgehammer schon abgelegt und läuft jetzt unter dem Namen Opteron. Mit seinen drei unabhängigen HyperTransport-Interfaces lassen sich selbst 8fach-Server ohne Verbindungslogik aufbauen - die CPUs sind direkt über HyperTransport verbunden. Erste Server dürften zur CeBIT 2003 zu sehen sein.

Wie schon bei der Einführung des Athlon sorgt sich AMD auch bei der Hammer-Serie um passende Chipsets zum Aufbau eines PCs. Durch die in der CPU integrierte Northbridge fallen die HyperTransport-I/O-Chipsets - sehr zum Leidwesen der taiwanischen Chipsatzhersteller - jedoch weitaus einfacher aus als ihre Vorgänger. Im Folgenden werden zur Erläuterung einige AMD-HyperTransport-Komponenten herangezogen.

Für eine Handvoll Dollar

Das Systemdesign für einen günstigen Clawhammer-PC reduziert sich im Wesentlichen auf das Verbinden des CPU-Sockels mit einem einzigen weiteren Chip. Der AMD-8111 I/O-Hub enthält ein 8-Bit-HyperTransport-Interface sowie alle üblichen Peripherieschnittstellen.

Die HyperTransport-Anbindung des AMD-8111 erfolgt über ein 8-Bit-Interface. Aus der angegebenen Datentransferrate lässt sich schließen, dass dieses nur mit einem Takt von 200 MHz (Daten 400 MHz) läuft. Dennoch dürften die 763 MByte/s leicht ausreichen, um alle Peripherie-Devices parallel mit voller Performance zu versorgen.

Ein derartiger Billig-PC könnte aber nur mit einer PCI-Grafikkarte bestückt sein. Deshalb bietet AMD mit dem AMD-8151 einen AGP-3.0-/8x-Tunnel an. In Richtung CPU (Upstream) ist er mit 16 Bit und 400 MHz Takt via HyperTransport angebunden. Dies ergibt eine mögliche Datentransferrate von 6,0 GByte/s. Downstream stellt er ein 8-Bit-Interface mit maximal 400 MHz zur Verfügung, an dem der I/O-Hub angebunden sein kann.

Außer dem HyperTransport-Interface enthält eine derartige AGP-Bridge nur einen einfachen Umsetzer des parallelen AGP-Busses auf das serielle Interface. Dennoch bezeichnet etwa ALi einen derartigen Chip als AMD K8-Northbridge.

Für einen Sack voll Dollar

Eine interessante Neuerung bietet AMD mit der 64-Bit-Server-CPU Opteron. Sie enthält drei unabhängige HyperTransport-Interfaces, die mit 16 Bit und 800 MHz Takt je 6,0 GByte/s bewegen können. Über diese Schnittstellen soll der Opteron jedoch nicht nur mit der Peripherie kommunizieren. Die Prozessoren lassen sich darüber ohne zwischengeschaltete Logik (Glue-Bausteine) zu einem Multiprozessor-System verbinden.

Neben der eigentlichen Rechenleistung der CPU entscheiden zwei Kernparameter über die Leistungsfähigkeit von Multiprozessor-Systemen: Die I/O Performance und die Speicher-Performance.

Über die I/O-Performance muss man sich bei AMDs Konzept zum Aufbau von SMP-Rechnern wenig Sorgen machen. Bei zwei CPUs stehen noch vier HyperTransport-Schnittstellen für die externe Kommunikation bereit, die mit 24 GByte/s ablaufen kann. Passend dazu bietet AMD mit dem 8131 eine HyperTransport-PCI-X Bridge an, die zwei unabhängige PCI-X-Kanäle enthält.

Knackpunkt Speicher-Performance

AMDs Serverkonzept setzt auf symmetrisches Multiprocessing. Jede CPU besitzt dabei den vollen Zugriff auf die gemeinsamen Ressourcen des Systems wie Arbeitsspeicher, Grafikkarte, Controller und sonstige Peripherie. Im konkreten Fall bedeutet dies aber, dass jeder Opteron im SMP-System über den HyperTransport-Bus auf den Arbeitsspeicher der anderen CPUs zugreift.

Schon bei einem Single-CPU-System stellt der Zugriff auf den Speicher einen entscheidenden Flaschenhals dar. Deshalb hat AMD den DDR-Memory-Controller auch direkt in die CPUs der Hammer-Serie integriert. Für die Performance ist dessen Übertragungsrate von bis zu 5 GByte/s aber weniger entscheidend. Viel wichtiger ist die Latenzzeit beim Speicherzugriff. Denn wenn die Pipeline zur Ausführung eines Befehls ein Datum aus dem Speicher benötigt, muss sie warten, bis dieser Wert eingetroffen ist. Durch die direkte Integration des Memory Controllers und den Wegfall der Northbridge soll sich diese Latenzzeit beim Zugriff auf den direkt angeschlossenen Speicher halbieren.

Bei einem Opteron-SMP-System mit zwei CPUs verwaltet jeder Prozessor physikalisch einen Teil des Speichers. Doch sowohl aus Sicht der Software als auch aus Sicht des Core handelt es sich um einen gemeinsamen Speicher mit einem durchgängigen Adressbereich. Statistisch gesehen muss deshalb jeder zweite Speicherzugriff, der nicht aus dem Cache befriedigt werden kann, über HyperTransport aus dem Speicher der anderen CPU erfolgen. Und das erhöht die Latenzzeit beträchtlich.

8x-Server mit HyperTransport-Speicher

Um externe Speicheranfragen beim Opteron dennoch möglichst schnell zu beantworten, hat AMD zwischen dem Memory Controller und dem eigentlichen CPU-Core eine Crossbar integriert. In ihr sind auch die drei HyperTransport-Interfaces enthalten. Die Crossbar verteilt die Anfragen der lokalen CPU und die via HyperTransport eingehenden gleichmäßig auf den Speicher. Interne und externe Anfragen für Speicheradressen, die die CPU nicht verwaltet, leitet sie zudem über HyperTransport weiter.

AMD will so bis zu acht Opteron-CPUs ohne Zusatz-Hardware zusammenschalten. Dabei bietet die Speicherarchitektur einen großen Vorteil: Mit jeder zusätzlichen CPU erhöht sich die totale Speicherbandbreite. Bei einem 4x-System soll die Datenrate beim Kopieren von Speicherblöcken bis zu 8 GByte/s betragen.

Allerdings laufen etwa bei einem 8x-System im Durchschnitt fast 90 Prozent aller Speicheranfragen über HyperTransport. Einige davon müssen sogar durch zwei Zwischenstationen routen. Laut AMD soll die Latenzzeit selbst in diesem Fall nur 160 ns betragen. Wie sich dieses Konzept aber tatsächlich bewährt, muss die Praxis erst noch zeigen.

Ausblick

HyperTransport skaliert von seiner Leistung und seinen Kosten vom Low-End-Consumer-Device bis hin zu großen Servern und Netzwerk-Equipment. Aktuell bietet es in der Version 1.03 eine Datenrate von 1,5 Gbit/s pro Leitungspaar. Doch bereits jetzt erreichen die Entwickler in den Laboren problemlos 2 Gbit/s. Für die Version 2.0, die 2004 auf den Markt kommen soll, sind mindestens 3 Gbit/s geplant. Die maximale Datenübertragungsrate steigt damit auf 12 GByte/s je Richtung an. Da die HyperTransport-Chips bei der Initialisierung ihre höchste Taktrate automatisch aushandeln, sollen die neuen Bausteine voll abwärtskompatibel sein.

Der erste marktrelevante Meilenstein für HyperTransport sind die neuen AMD 64-Bit-CPUs und deren Peripheriebausteine. Sie werden zunächst den Entwicklern zeigen, welche Möglichkeiten in dem neuen Bus stecken. Doch einige Gruppen im HyperTransport Consortium arbeiten bereits an der Spezifikation eines Steckers für Erweiterungskarten. Spätestens dann dürfte HyperTransport von seinem Schattendasein auf dem Mainboard auch in das Bewusstsein der Konsumenten treten. (ala)

HyperTransport im Überblick

Features und Funktionen
Feature/Funktion	Technologie

Bustyp	Duale, unidirektionale, Vollduplex-Punkt-zu-Punkt-Verbindung
Busbreite	2, 4, 8, 16, 32 Bit je Richtung
Protokoll	Paketbasiert, Request-, Response- und Broadcast-Pakete
Paketgröße	Minimum 4 Byte, Maximum / Bust 64 Byte
Bandbreite pro Richtung	95,4 MByte/s bis 5,96 GByte/s
Busfrequenz	400, 600, 800, 1000, 1200, 1600 MHz
Bandbreite pro Pin (inkl. aller nötigen Anschlüsse)	31,8 Mbit/s bei 2 x 2 Bit bis 59,2 Mbit/s bei 2 x 16 Bit
Signalpegel	1,2 Volt LVDS (Low-Voltage Differential Signaling), 100 Ohm Impedanz
Energiesparmodus	ACPI-kompatibel