Google-Studie

Hardware-Fehler im Hauptspeicher verursachen häufiger Server-Abstürze als angenommen

Hardware-Fehler in Hauptspeicher-Modulen von Servern, die zum Absturz des Systems führen, kommen weit aus häufiger vor als bisher angenommen. Zu diesem Ergebnis kommt eine von Google veröffentlichte Studie, die die eigenen Standard-Server auf Fehleranfälligkeit analysiert.

Als Oracle-Tochter Sun vor rund drei Jahren seine UltraSparc-Rechner systematisch auf Fehlerquellen bei der Datenverarbeitung in Prozessoren und Cache-Speichern untersuchte, gaben nur wenigen IT-Spezialisten zu, dass Fehler in Hauptspeichern relativ häufig sind und das Ihre zu Hardwareausfällen und korrupten Daten beitragen.

Jetzt hat Google eine Studie zur Fehleranfälligkeit seiner Standard-Server (x86-Server) im Betrieb veröffentlicht. Das Resultat: DRAM-Fehler passieren weitaus häufiger als angenommen. Dabei sind Hardwarefehler, also Fehler in den einzelnen Speicherzellen häufig vertreten. Dagegen kann man sogenannte Soft Errors, die zufällig durch elektromagnetische Einstrahlungen entstehen, so gut wie vernachlässigen.

Google hatte sein Server-Flotte zweieinhalb Jahre gemessen und analysiert; PCs oder Notebooks dagegen nicht. Die Studie, die in Zusammenarbeit mit der Universität Toronto gemacht wurde, listet als Ergebnis auf: Bei rund ein Drittel aller Server beziehungsweise bei acht Prozent aller DIMMs trat jede Jahr mindestens ein korrigierbarer Fehler auf. Nicht korrigierbare Fehler, die in der Regel zum Absturz oder zum Herunterfahren des Servers führen, traten bei 1,3 Prozent je Server beziehungsweise 0,22 Prozent je DIMM auf.

Server sind in der Regel mit Fehlerkorrektur-Controllern ausgestattet, die Multi-Bit-Fehler erkennen und korrigieren. Dabei werden vier beziehungsweise acht gleichzeitig auftretende Fehler stillschweigend korrigiert, so dass auch der Ausfall eines kompletten Chips mit vier beziehungsweise acht Datensignalleitungen überbrückt werden kann. Zudem ist es möglich, diese Fehler und deren Korrektur zu protokollieren.

Bei PCs und Notebook findet solche vergleichsweise aufwendige Korrektur nicht statt. Stattdessen werden Fehler mittels Paritätsprüfung von Bits erkannt, aber nicht korrigiert. Das führt zu Speicherabstürzen - der Rechner muss neu gestartet werden. (ChannelPartner/hal)