Sicherer Speicher für PC, Server und Workstations

Fehlertoleranter Speicher schützt vor Systemausfällen und Datenverlust

Chipkill-Technologie

Um die Datensicherheit des Hauptspeichers weiter zu maximieren, führte IBM Ende der 90er Jahre die Chipkill-Technologie ein- sie wird auch als Advanced ECC bezeichnet. Die Speichertechnologie wurde ursprünglich explizit für die NASA entwickelt. Das Raumfahrtunternehmen setzte Chipkill erstmals in der Marsmission "Pathfinder" ein. Hier hätten Speicherfehler und somit ein Systemausfall fatale Folgen gehabt und enorme Kosten verursacht. Anschließend nutzte man die Chipkill-Speichertechnologie auch für kommerzielle Zwecke in Servern und Workstations.

Anders als die ECC-Fehlerkorrektur, die nur einen Bitfehler korrigieren kann, ist die Chipkill-Funktion in der Lage, bis zu vier Bitfehler zu korrigieren und acht Bitfehler zu erkennen. Bei Fehlerhäufung in einem Speicherchip kann sie diesen sogar ausblenden, ohne das System herunterzufahren. Ein Vorteil der Chipkill-Technologie: Es sind keine speziellen Speichermodule notwendig, handelsübliche ECC-DIMMs genügen. Zusätzlich arbeitet das Korrekturverfahren unabhängig vom Betriebssystem und hängt somit nur vom Chipsatz und vom BIOS ab.

Die Chipkill-Technologie funktioniert ähnlich wie ein Festplatten-RAID-System nach dem Striping-Verfahren mit Parity-Prüfung. Muss ein Speicher-Controller zum Beispiel vier DIMM-Module mit 4-Bit-Organisation verwalten, so bestehen die Speicherdaten aus vier mal 64 Datenbits und vier mal acht ECC-Bits. Insgesamt beträgt die Datenweite 288 Bit und enthält vier ECC-Words zu je 72 Bit. Der Chipkill-Algorithmus verteilt das 72-Bit-Datenwort systematisch zu je 18 Bit auf die vier DIMM-Speichermodule (Striping). Gleichzeitig werden die 18-Bit-Segmente ebenfalls regelmäßig auf die 18-DRAM-Chips eines DIMMs aufgesplittet. Aus dieser Verteilung resultiert, dass sich jeweils das erste Bit eines 18-Bit-Datensegments im ersten Datenbit eines Speicherchips befindet. Diese spezielle Aufteilung der einzelnen Datenbits ist wichtig für die spätere Rekonstruktion von Multi-Bit-Speicherfehlern durch den Memory Controller nach dem ECC-Verfahren.

Nach einer IBM-Laborstudie über eine Zeitspanne von drei Jahren erreichte das Chipkill-Verfahren eine Zuverlässigkeitsrate von 99,94 Prozent. Eine höhere Sicherheit vor Speicherfehlern erreicht man nur noch durch die Kombination mit anderen Speichertechniken.