Actualités
|
![]() |
Emploi
|
![]() |
Start-up
|
![]() |
Avis d'expert | ![]() |
Vidéos | ![]() |
Indicateurs
|
![]() |
Distribution
|
![]() |
Telecharger Pro
|
![]() |
Livres blancs | |||||||||||||||||||||||||












On peut rattacher la déduplication de données à la grande famille des mécanismes de compression. Capable de réduire l'espace de stockage consommé par certains systèmes de sauvegarde de plus de 90 %, cette technique suscite un vif intérêt. D'une part, elle abaisse le coût de la sauvegarde sur disque, la rendant plus compétitive avec la bande magnétique. D'autre part, elle autorise des périodes de rétentions des données plus longues.
La déduplication a pourtant fait ses premiers pas comme une fonction intégrée à certains systèmes de fichiers. Aujourd'hui, Netapp en fait une fonction à part entière de ses équipements. Sur ses serveurs de stockage, la déduplication spatiale offre ainsi des gains d'espace de 20 à 50 %, voire plus si on l'applique au stockage des serveurs virtuels (leurs disques systèmes stockent des données très largement identiques).
Mais c'est lors des opérations de sauvegarde que la déduplication, dans sa forme temporelle, s'avère la plus spectaculaire. Dans son principe, cette technique consiste à repérer et à éliminer les blocs de données redondants. Or où a-t-on le plus de chance de trouver des redondances que sur un système de sauvegarde disque à disque, sur lequel ne cessent de s'accumuler les sauvegardes complètes ? Voilà pourquoi les fournisseurs de librairies de bandes virtuelles VTL (Virtual Tape Library) ont adopté cette technologie. Les premiers retours d'expérience montrent que la réduction des espaces physiques utilisés atteint aisément un facteur de 5 à 10.
Des gains aussi importants requièrent que les données et les procédures de sauvegarde se prêtent à la déduplication. Ce qui n'est pas toujours le cas. Les données bureautiques possèdent de nombreuses redondances, les données transactionnelles beaucoup moins. Les flux multimédias, souvent déjà compressés, ne sont pas de bons candidats à la déduplication. Et le chiffrement des données avant leur sauvegarde rend la déduplication inopérante. De même en ce qui concerne les sauvegardes incrémentales, puisqu'elles ne prennent en compte que les données nouvelles et les copies instantanées.
L'acquisition d'une appliance de déduplication nécessite, au préalable, une remise à plat des politiques de sauvegarde et de réplication. Mais compte tenu de la jeunesse de l'offre, il convient de s'interroger sur la richesse fonctionnelle, mais aussi sur la fiabilité, la robustesse et la performance en écriture ou en restitution des solutions commerciales.
Fiabilité, d'abord, car le mécanisme d'identification des blocs redondants, qui s'appuie sur des algorithmes de calcul d'empreinte, peut connaître des collisions, impliquant une faible probabilité de corruption de données. Les fournisseurs doivent donc proposer des mécanismes de vérification additionnels. Robustesse, ensuite, car selon le rôle que joue la base d'indexation de la solution de déduplication – simple mécanisme de gestion des pointeurs ou table de routage des accès aux données –, cette base constituera un point de faiblesse unique du système de back up. Performance, enfin, puisque le débit en écriture dépend du stade (avant sauvegarde, au fil de l'eau ou en tâche d'arrière-fond une fois les données récupérées) auquel intervient la déduplication. Pour toutes ces raisons, la déduplication ne devrait atteindre la maturité que d'ici deux à cinq ans. Dixit Gartner Group.
Lors de la sauvegarde initiale (S1), les données sont segmentées. Le moteur de déduplication crée un index des segments identifiés par une empreinte, puis expédie chaque segment vers l'espace de stockage. Lors des sauvegardes suivantes, les données sont segmentées. Pour chaque segment, le moteur de déduplication vérifie si son empreinte se trouve déjà dans l'index (colonne S2 du tableau). Si tel est le cas, un pointeur dans l'index renvoie au segment déjà stocké lors de la sauvegarde initiale. Sinon, le moteur de déduplication crée un nouvel identifiant dans l'index et stocke la donnée correspondante.
















