Actualités
|
![]() |
Emploi
|
![]() |
Start-up
|
![]() |
Avis d'expert | ![]() |
Vidéos | ![]() |
Indicateurs
|
![]() |
Distribution
|
![]() |
Telecharger Pro
|
![]() |
Livres blancs | |||||||||||||||||||||||||












“ Hors de la déduplication, point de salut ”, affirme avec une pointe d'ironie Philippe Nicolas, directeur de la SNIA (Storage Networking Industry Association) Europe, en considérant à la fois l'intérêt réel de cette technologie pour les utilisateurs et le ballet d'alliances et de rachats qu'elle provoque sur le marché. La déduplication, également connue sous le nom de factorisation, de réduction des données, ou encore de stockage d'instance unique (SIS, pour Single Instance Storage), consiste à détecter des segments de données redondants par calcul d'empreintes et à ne stocker qu'une fois les données présentes en plusieurs exemplaires, en remplaçant les copies par des pointeurs stockés dans un index.
La détection peut s'effectuer à différents niveaux de finesse : fichiers, mais beaucoup plus souvent blocs de données de taille variable selon les fournisseurs (quelques kilo-octets pour les plus petits). D'une certaine façon, la déduplication est une nouvelle extension des technologies de compression bien connues dans le monde informatique (comme les zip, bzip2, gzip), avec la capacité à fonctionner de façon beaucoup plus dynamique que les logiciels d'archive traditionnels.
Aujourd'hui, ces algorithmes de traitement sont lourds, ce qui interdit leur emploi en stockage primaire pour des raisons de performances. C'est dans le domaine de la sauvegarde que la déduplication s'impose. “ Pour nous, librairie de bandes virtuelles et réduction de données sont totalement associées. Les deux ont été mises en œuvre et fonctionnent en même temps, nous ne les distinguons pas ”, témoigne Eric Ras, responsable du bureau de la production informatique à la Mairie de Paris, qui a mis en place une solution basée sur le logiciel Protectier de Diligent. Pour d'autres, la déduplication est venue après une première expérience de sauvegarde sur disques. Les motivations se ressemblent beaucoup : faire face à une augmentation du volume de données à protéger, souvent de 30 % par an, en particulier pour les messages électroniques. Sauvegarder plus signifie soit saturer sa robotique de bandes, soit devoir rajouter des baies de disques, opération coûteuse. La déduplication permet d'augmenter les capacités d'accueil d'une baie sans y rajouter de disques.
Timecruiser, un fournisseur nord-américain de portails de services pour l'enseignement, effectuait auparavant ses sauvegardes sur des volumes Raid 6, un mode de redondance capable de survivre à la perte simultanée de deux disques d'une même grappe. “ La déduplication nous évite d'acheter plusieurs baies à 15 000 dollars pièce ”, justifie James Wang, directeur technique et cofondateur de la société américaine. Assertion identique à la Mairie de Paris : “ Sans déduplication, la sauvegarde sur disques nous aurait obligés à multiplier les baies. ” Pourtant, si cette technologie est source d'économies, elle soulève un problème : on connaît d'avance la capacité d'un disque dur, mais pas le taux de réduction que permet d'atteindre la déduplication. “ Ce taux dépend de la nature des données et de la politique de sauvegarde. En effectuant des sauvegardes complètes du même serveur 365 jours par an, on peut atteindre des taux faramineux ”, explique Didier Bouvet, directeur du centre d'expertise de l'intégrateur APX Synstar, spécialiste du stockage. Pour des documents bureautiques, le taux de réduction initial sera important. Il sera moindre avec une base de données dont le niveau de redondance est inférieur. Ensuite, la progression dans le temps dépend du niveau de modification des données au quotidien. “ Avec un logiciel de sauvegarde classique en mode différentiel ou incrémentiel, on sauvegarde comme nouveaux beaucoup de fichiers qui ne sont que modifiés. C'est bien là, pour ces sauvegardes récurrentes, que la déduplication a tout son sens, avec des taux de 1 pour 10 à peu près assurés, et pouvant atteindre 1 pour 30, ou même 1 pour 50 ”, commente Bertrand Letemplier, expert technique chez Rise, autre intégrateur spécialisé. “ Nous prenons un engagement minimum de réduction de 1 pour 8, alors qu'une compression matérielle sur bande n'assure qu'un taux de 1 pour 2, explique Michel Alliel, directeur technique d'HDS France, mais nous attendons plutôt des taux de 1 pour 15, voire plus. ”
En tout cas, le processus s'avère évolutif. Timecruiser obtenait les premiers mois des taux de réduction de 1 pour 4, avec un équipement SIR (Single Instance Repository) de Falconstor. “ Au bout de neuf mois d'utilisation, nous atteignons 1 pour 20, en associant la déduplication et les fonctions de compression traditionnelles ”, constate James Wang, qui table à terme sur des taux de 1 pour 30, voire 1 pour 40. Au CIG (Centre interdépartemental de gestion) Petite Couronne, qui a mis en place des équipements de déduplication Quantum, “ le taux de réduction tend à se stabiliser à 1 pour 12, après avoir augmenté régulièrement. Atteindre 1 pour 10 était déjà pour nous un bénéfice considérable ”, témoigne Eric Auvray, le chef du service exploitation et support technique. La Mairie de Paris, elle, annonce des taux d'environ 1 pour 18.
Autre bénéfice secondaire fortement apprécié : l'association d'une librairie de bandes virtuelles (VTL) et de la déduplication permet de limiter le recours aux bandes, voir de s'en affranchir complètement. Il s'agissait déjà d'un des arguments clés de la sauvegarde sur disques. La déduplication, en augmentant les capacités de stockage des VTL, assure une augmentation des temps de conservation des données en ligne. “ Nous sommes passés de quinze jours à presque deux mois, constate Eric Auvray. C'est lors des restaurations que le gain de temps est le plus significatif. Grâce à l'association de la VTL et de la déduplication, plus besoin de remonter des bandes, ni d'aller physiquement les chercher lorsqu'elles ont quitté le site ”, renchérit Eric Ras. Timecruiser, comme toutes les entreprises nord-américaines, a vu se multiplier les contraintes réglementaires ces dernières années. Par exemple, les données concernant la scolarité des étudiants doivent rester accessibles pendant sept ans, période durant laquelle les autorités peuvent exiger la remontée rapide de certains éléments. Aussi l'entreprise a-t-elle choisi de ne pas recourir du tout aux bandes, et de préserver toutes ses données sur disques. Selon Philippe Nicolas, “ il s'agit de la seule technologie capable de faire mieux que la bande, y compris en termes de prix. Les comparaisons établies jusqu'ici entre sauvegarde sur disques et bandes n'étaient pas très honnêtes, mais dans une configuration incluant VTL et déduplication, on commence à voir des coûts réellement comparables ”.
L'une des grandes vertus de la bande reste sa capacité à être déplacée pour externaliser les données. Là encore, la déduplication redistribue les cartes. “ Aujourd'hui, les entreprises recourent à la déduplication pour la sauvegarde, mais nous leur recommandons de ne pas regarder les choses par le petit bout de la lorgnette - l'optimisation de l'espace disque -, mais plutôt de penser à des plans de secours sans manipulation de supports physiques. La déduplication fait partie des outils qui permettent d'y parvenir ”, explique Bertrand Letemplier. En effet, pour éloigner les sauvegardes du site principal sans manipuler de bandes, des données de taille réduite transitent plus facilement d'un point à un autre, par des liens réseaux. Le CIG Petite Couronne en témoigne : si le déploiement d'une solution de VTL avec déduplication visait d'abord à faire face à l'augmentation du volume des données, il a vite intégré une composante plan de secours. Il a permis d'installer un système de réplication dans une autre partie du bâtiment de façon à se prémunir contre la perte de la salle informatique. Timecruiser étudie de son côté les possibilités de mettre en place un plan de reprise sur sinistre plus complet en créant une copie secondaire des données dédupliquées.
La déduplication serait-elle le remède à tous les maux de la sauvegarde ? “ Non, ce n'est qu'un ajout technologique à la panoplie existante, considère Bernard Letemplier. Nous allons vite retomber sur un problème classique : d'abord, la déduplication augmente virtuellement l'espace disponible pour la sauvegarde, donc nous allons essayer de stocker plus, au risque de saturer le réseau. Ensuite, les petits fichiers sont lents à sauvegarder. Dédupliquer n'y change rien. ” Et la façon dont elle se pratique le plus souvent aujourd'hui, au niveau d'une VTL, ne contribue pas non plus à réduire significativement les fenêtres de sauvegarde. “ Le gain n'est pas énorme par rapport à ce que nous obtenions avec une robotique de bandes, si ce n'est la disparition du temps de montage des bandes et des débits plus soutenus. Nous avons gagné de 15 à 20 % sur nos fenêtres ”, témoigne Eric Ras.
Au-delà des problèmes de facteur de réduction, les questions d'implémentation restent en suspens. Un débat oppose les tenants de la déduplication en ligne, qui s'effectue en plaçant le moteur de traitement directement sur le chemin du flux de données, et ceux de la déduplication post-traitement, qui consiste à stocker les données sur un disque, et à lancer ensuite les opérations de déduplication en tâche de fond. La première solution risque de ralentir les opérations de sauvegarde, la seconde demande plus de disques pour stocker temporairement les données. “ Aujourd'hui, il n'y a pas d'offre unique ou de fonctionnement uniforme. Mais les besoins des entreprises en matière de sauvegarde ne sont pas non plus les mêmes ”, conclut Didier Bouvet d'APX-Synstar.
Le domaine de la déduplication se consolide doucement : EMC a racheté Avamar, Adic (racheté ensuite par Quantum) s'est emparé de Rocksoft, Symantec a hérité des technologies de Datacenter Technologies acquises par Veritas. Dans le même temps, Falconstor a développé sa propre technologie SIR, et Netapp la sienne, Asis, désormais embarquée sur ses équipements de stockage. Enfin, il reste des indépendants comme Datadomains et Diligent, les deux plus visibles, mais aussi Sepaton et Asigra. Tous les grands fournisseurs de stockage qui ne développent pas leur propre technologie ont signé des accords pour proposer un voire deux mécanismes de déduplication plus ou moins intégrés à leurs matériels.
...Au stockage secondaire.
Il existe déjà dans certains serveurs de fichiers (comme Windows Storage Server 2003 R2) et de messagerie (Exchange, Groupwise) des processus de stockage d'instances uniques, qui ne conservent qu'une version des différentes copies d'un même fichier. Les serveurs les moins exigeants en performances, en particulier ceux utilisés en environnement bureautique, devraient rapidement intégrer des technologies de déduplication au niveau bloc, appréciables lors du stockage de nombreuses versions d'un document : présentations marketing, courriers commerciaux, factures, bons de commandes…
...Au stockage primaire.
Contourner les problèmes de performance que pose l'intégration de la déduplication sur des équipements de stockage primaires prendra du temps. Même si les bénéfices sur des données applicatives seront plus restreints puisque la redondance y est relativement faible, les grands constructeurs s'y intéressent déjà. Netapp livre en standard le moteur de déduplication Asis (Advanced Single Instance Storage) sur ses serveurs de stockage.
...Aux systèmes de fichiers.
Et pourquoi pas intégrer la déduplication directement dans le système de fichiers ? Il existe au moins un précédent : Plan9, le système d'exploitation expérimental des Bell Labs, avait reçu des fonctionnalités de ce type par l'association entre le système de fichiers Fossil et le moteur de stockage Venti. Là encore, il faudra résoudre d'importants problèmes de performance, et ce dans un domaine où toute évolution se fait avec la plus grande prudence.
1. Des données réexpédiées
Le serveur de sauvegarde reste en place, mais expédie les données vers une VTL ou une baie de disques. La bande sert à archiver les sauvegardes ou à les externaliser.
2. En ligne ou post-traitement
La déduplication s'effectue soit directement sur le flux de données à sauvegarder (comme sur le schéma), soit hors ligne, après le stockage sur les disques de sauvegarde.
3. Une bande passante moins encombrée
En cas de réplication des sauvegardes sur un second site, les données transitent sous forme dédupliquée pour économiser la bande passante.
Coût : réduire le volume des données stockées lors des sauvegardes permet d'acheter moins de disques, de gagner de la place en salle informatique et de consommer moins d'énergie.
Simplicité : comme les disques se remplissent plus lentement au fil des sauvegardes, la durée de rétention des données en ligne augmente. En cas de restauration, plus besoin de manipuler des bandes.
Sécurité : la déduplication a sa place dans une stratégie de protection des sauvegardes par réplication. Elle limite en effet la taille des données à répliquer, rendant le processus plus rapide et moins gourmand en bande passante.
Cohérence : des utilisateurs profitent de la déduplication pour effectuer, sur certaines applications, des sauvegardes complètes en lieu et place du cycle traditionnel “ complète + incrémentielles ou différentielles ”. Les jeux de données sont toujours cohérents.
Extension : la déduplication est très efficace lorsqu'elle s'applique aux images systèmes de serveurs et stations de travail, qui sont souvent redondantes à plus de 90 %.
“ Nous nous sommes rendus compte qu'avec l'association de la librairie de bandes virtuelles (VTL) et de la déduplication, nous pouvions faire des sauvegardes complètes de certains serveurs applicatifs tous les jours plutôt que de suivre un cycle de sauvegardes complètes hebdomadaires et d'incrémentielles quotidiennes. Cela était auparavant impossible pour des raisons évidentes d'occupation des bandes. Ce mode de fonctionnement nous garantit des reprises de données bien plus faciles, puisque nous disposons de jeux de données complets et cohérents. Nous avons donc fiabilisé les sauvegardes. Point non négligeable, sans la déduplication, la sauvegarde sur disques nous aurait obligés à multiplier les baies de stockage. Or, la salle informatique commence à saturer aussi bien en termes de surface au sol disponible que de puissance électrique. Le taux de réduction des données, 1 pour 18, est aujourd'hui déjà au-delà de nos espérances initiales, et continue de progresser. ”
Solution mise en place
“ Il y a deux ans, nous avons découvert les bénéfices de la sauvegarde sur disques : l'accélération des opérations, un réseau local non encombré, la conservation des données en ligne durant une quinzaine de jours. Mais le nombre des données à stocker augmentant rapidement, nous sommes passés sur des baies de déduplication, ce qui nous a permis de résoudre deux problèmes : l'augmentation des volumes et la réplication de notre espace de sauvegarde primaire dans une autre partie du bâtiment, afin de nous prémunir contre une perte de la salle informatique. Les deux baies sont reliées par un lien à 100 Mbit/s. Sans déduplication, il aurait été trop étroit pour le volume de données à répliquer. Nous avons amélioré la sécurité, augmenté le temps de rétention des données de sauvegarde en ligne, tout en utilisant moins de disques, moins d'espace dans nos armoires informatiques, moins d'énergie. ”
Solution mise en place
















