![]() |
Emploi
|
![]() |
Start-up
|
![]() |
Evénements 01 | ![]() |
Avis d'expert | ![]() |
Vidéos | ![]() |
Indicateurs
|
![]() |
Distribution
|
![]() |
Telecharger Pro
|
![]() |
Livres blancs | |||||||||||||||||||||












S'il est un acteur de l'informatique qui connaît les data centers, c'est bien Google et ses centaines de milliers de serveurs. De quoi mener des études sérieuses et à grande échelle sur le fonctionnement de ces derniers. En collaboration avec l'université de Toronto, les ingénieurs de Google se sont penchés sur les mémoires DRAM qui équipent ces serveurs, et plus particulièrement sur les erreurs qu'elles occasionnent.
Les conclusions de cette étude sont sans appel : les erreurs sont bien plus nombreuses que prévu et surviennent rapidement. Par erreur, il faut comprendre une modification de la valeur d'un bit depuis sa dernière écriture (la lecture d'un 1 à la place d'un 0). Cette erreur peut être aléatoire, car due à différents paramètres (taux d'utilisation, température, rayonnement cosmique, etc.) ou répétitive et dans ce cas liée à un problème matériel.
Les travaux de Google, menés de janvier 2006 à juin 2008, portent sur divers types de mémoire (DDR 1, 2 et 3), et capacités (modules de 1, 2, 4 Go). Résultat : en moyenne, un tiers des serveurs subissent une erreur corrigible (par un algorithme) par an, et un serveur sur 100 essuie une erreur non corrigible.
Autre conclusion : alors qu'on estimait le taux d'erreurs de l'ordre de 200 à 5 000 défaillances par milliard d'heures de fonctionnement, par mégabit, les chiffres de l'étude sont d'un tout autre ordre de grandeur : de 25 000 à 75 000 !
Autre enseignement, la survenue des erreurs corrigibles augmente drastiquement au bout de 10 à 18 mois.
Une surprise se dégage également de cette étude : contrairement à des résultats obtenus en laboratoire, la température n'a que peu d'influence sur le taux d'erreur. Par contre, celui-ci est fortement lié à l'utilisation de la mémoire : plus le processeur sollicite celle-ci et plus le taux d'erreur augmente.
Signalons enfin une bonne nouvelle : les mémoires les plus récentes, pourtant plus denses, ne provoquent pas davantage d'erreurs. La conclusion va de soi : il est vital d'employer sur les serveurs de la mémoire ECC (Error Checking and Correcting) qui dispose d'un mécanisme de correction des erreurs, même si évidemment elle est plus chère.
















