Actualités
|
![]() |
Emploi
|
![]() |
Start-up
|
![]() |
Evénements 01 | ![]() |
Avis d'expert | ![]() |
Vidéos | ![]() |
Indicateurs
|
![]() |
Distribution
|
![]() |
Telecharger Pro
|
![]() |
Livres blancs | ||||||||||||||||||||||||












Chaque nuit, ce sont des gigaoctets qui sont agrégés, calculés et transférés par les ETL (Extract, Transformand Load). Ces logiciels sont devenus, en une dizaine d'années, une brique clé dans les systèmes d'information. Au mode de traitement batch sont venues s'ajouter des capacités pseudo-temps réel qui ont permis la mise en place d'échanges interapplicatifs et de procédures de synchronisation de serveurs sans avoir à utiliser la lourde mécanique d'intégration d'applications d'entreprise (EAI).
Tout éditeur de base de données a, maintenant, un ETL à son catalogue, mais les logiciels indépendants continuent d'évoluer et l'open source apporte désormais une alternative viable aux offres commerciales.
La mise en place des grands entrepôts de données a été à l'origine d'une première vague d'équipement en ETL des entreprises. Cela reste d'ailleurs leur tâche prioritaire. Comme, par exemple, chez GE Capital Solutions Fleet Services Europe. Raphaël Franco, alors responsable des études (il travaille aujourd'hui dans la filiale GE Corporate - Global Information Services), retrace le projet lancé en 2001 : “ IManage est notre service de tableau de bord en ligne destiné à la gestion de flottes automobiles de nos clients européens. Nous disposions déjà d'un ODS (base en amont de l'entrepôt de données – NDLR) européen sous Oracle pour lequel nous avions développé notre propre ETL, en C, afin d'aller chercher les données dans les bases de production. Le besoin, pour nos clients, de disposer de données agrégées de façon quotidienne, mais aussi le souci de mettre en place une solution véritablement industrielle, nous a poussés à déployer un ETL du marché. ”
Même constat chez Virgin Mobile France où l'idée d'entrepôt de données est récente. L'opérateur virtuel n'a lancé son projet qu'en 2006, afin de se doter d'outils de pilotage pour faire face au marché concurrentiel des MVNO : “ Nous chargeons dans nos bases de production les fichiers de données de trafic issus d'Orange, et ce au moyen des outils de chargement de MySQL, explique Lionel Beaudet, directeur informatique de Virgin Mobile France. Toutefois un véritable ETL s'imposait pour alimenter notre datawarehouse : son rôle est de filtrer, d'assurer des corrections sur les informations complexes et de répartir les champs de données exactement là où nous les souhaitons. ”
Puiser les données dans les SGBD, les progiciels ou dans les fichiers plats générés par des applications métier au moyen de multiples connecteurs en mode batch n'est plus la seule tâche de l'ETL. Veolia Propreté a ainsi doté son ETL Genio de capacités de pseudo-temps réel : “ Notre ETL possède deux utilisations différentes : l'alimentation de nos systèmes d'information décisionnels et les échanges interapplicatifs ”, commente Hamza Kebir, responsable du domaine échanges et reporting auprès de la direction des systèmes d'information de Veolia Propreté. “ Pour les alimentations, il s'agit de faire face à des flux de données à fortes volumétries. Pour notre application de gestion commerciale, d'exploitation et de facturation Diva, les bases de reporting peuvent atteindre un volume de plus de 100 Go avec des transferts quotidiens de plusieurs méga-octects. ”
Etant donné la maturité des outils ETL, leurs interfaces utilisateurs sont désormais très graphiques, et paramétrer un flux de données consiste à tracer des liens entre les structures de données des systèmes à relier. Une simplicité de façade selon Hamza Kebir : “ La prise en main d'un ETL est généralement aisée mais il est toujours nécessaire d'avoir une vraie expertise dans le domaine des bases de données. ” Un avis partagé par Raphaël Franco : “ La mise en place de l'ETL n'est pas, en tant que telle, particulièrement complexe ; nous l'avons menée en interne avec l'éditeur pour la phase d'optimisation. L'outil ETL est un logiciel parfaitement rodé qui fonctionne bien. Le seul gros travail dans ce type de projets a porté sur l'analyse du modèle de données qui doit être le plus ouvert possible pour s'adapter aux évolutions. ”
Des packs existent pour simplifier l'intégration de données des grands progiciels du marché (SAP, Peoplesoft…) dans un processus ETL, les informations étant alors clairement identifiées. Mais lorsque l'on a affaire à des progiciels moins connus ou des développements propriétaires, une partie du projet ETL va consister à renseigner le référentiel de données et nouer un lien entre les structures de données et les métadonnées relatives aux champs découverts par l'ETL. Une difficulté de mise enœuvre à laquelle a dû faire face Virgin Mobile France.
Le premier apport d'un ETL est de mettre fin aux intégrations “ spaghetti ”, aux développements spécifiques, comme le souligne Rémi Jacquet, DSI de la SMACL : “ Pour la méthodologie, l'ETL est une approche à laquelle j'adhère complètement. Il apporte une approche métier construite sur un moteur de règles qui est parfaitement adapté à la négociation avec nos maîtrises d'ouvrage. ” L'ETL s'est imposé, mais il doit justifier son coût dès lors que les éditeurs SGBD offrent des capacités proches, à l'image de Microsoft qui fournit Integration Services pour SQL Server. Denis-Romain Dubuis, chef de projet décisionnel chez SMACL et consultant chez Umanis, souligne toutefois l'intérêt de maintenir une certaine indépendance vis-à-vis des SGBD : “ Face à leur évolution, un ETL représente une certaine tranquillité. Ainsi, nous avions développé des tâches de transformation de données (DTS – NDLR) sous SQL Server 2003. Or, avec la version 2005, Microsoft à complètement refondu SQL Server sur ce point. L'ETL permet de faire face à un tel changement plus facilement. ”
L'ETL est un moyen d'intégrer aux systèmes d'information des nouvelles technologies en minimisant leur impact sur l'existant. “ La version 7 de Genio vers laquelle nous migrons nous donne la possibilité d'exposer ou de consommer des services web ”, illustre Hamza Kebir. Car, au-delà de l'intégration, l'ETL apporte à l'entreprise un cadre pour gérer ses échanges et se montre très structurant, à l'image de ce qui s'est passé chez Veolia Propreté : “ Le service échanges et reporting a mis en place un guide de bonnes pratiques relatif au développement de projets Genio, et a généralisé la rédaction de dossiers architectures, exploitation et intégration des flux. Cette rigueur est aujourd'hui un atout majeur pour la réussite de nos projets. ”
Les temps de traitement sont toujours l'obsession du responsable de pôle décisionnel. L'explosion des volumes de données, les demandes des utilisateurs pour une information toujours plus à jour font de l'ETL un goulet d'étranglement en amont des entrepôts de données.
Les éditeurs apportent des solutions techniques innovantes, notamment à base de grid computing, mais Hamza Kebir prévient : “ Miser sur des machines de plus en plus puissantes ne suffit pas pour contenir les temps de traitement, il faut nécessairement modéliser rigoureusement les bases de données cibles et tenter d'optimiser les sources de données. ” Recourir à des ODS (Operationnel Data Store), ces zones tampon dans lesquelles les données sont pré-agrégées, ou se tourner vers une architecture ETL qui va reporter les traitements sur la base de données cible constituent des solutions.
Autre difficulté, la disponibilité des connecteurs. Celle-ci est apparue comme décisive dans le choix d'Information Builders par la SMACL qui devait extraire les données de son mainframe Unisys. “ Un des atouts incontestables de l'offre Information Builders est la multiplicité des connecteurs disponibles. A l'époque de notre choix, peu d'éditeurs pouvaient extraire les données d'un mainframe Unisys vers une plate-forme Windows ”.
L'existence de connecteurs pour les progiciels en place dans l'entreprise, sur les bonnes plates-formes et les bons numéros de version demeure problématique. C'est, selon Jean-Michel Franco, directeur des solutions chez Business & Décision, le talon d'Achille des ETL open source : “ Le jour où Talend pourra fournir un connecteur SAP open source, alors l'alternative sera réellement intéressante pour les entreprises. Effectivement, je distingue deux classes d'ETL : les solutions haut de gamme qui visent les hautes performances, des fonctions avancées en termes de qualité de données, et des solutions qui répondent à des besoins plus tactiques. ”
Activité : location, pour de longues durées, de flottes de véhicules.
Siège Europe : Hounslow (Royaume-Uni).
Effectif Europe : 1 200 personnes.
CA Europe : non communiqué.
Problème à résoudre : mettre en place une base de données centralisant les informations relatives à la location de flottes de véhicules dans tous les pays européens.
Solution déployée : Informatica Powercenter v.7 en 2005, puis v.8 déployé sur serveur dédié Sun V890, Solaris 10, 8 CPU, 32 Go de mémoire.
Activité : groupe mutualiste d'assurances.
Siège : Niort (79).
Effectif : 543 personnes.
CA 2007 : 223,8 M d'euros de cotisations.
Problème à résoudre : installer une plate-forme décisionnelle liée au mainframe Unisys Dorado 140 hébergeant les applications métier.
Solution déployée : ETL Information Builders Data Migrator alimentant un datawarehouse SQL Server sous Windows 2003.
Activité : métiers de la collecte, du traitement et de la valorisation des déchets.
Siège : Nanterre (92).
Effectif : 92 560 personnes dans le monde.
CA 2007 : 9,2 M d'euros.
Problème à résoudre : alimenter des SI décisionnels pour le pilotage de Veolia Propreté. L'ETL assure les échanges de données interapplicatifs au plan régional, notamment vers le siège central.
Solution déployée : Open Text-Hummingbird Genio 5.1 sur 14 serveurs en production. Plates-formes sous Windows 2000 et 2003. En cours de migration vers Genio 7.
Activité : opérateur virtuel de téléphonie mobile (MVNO).
Siège : Londres.
Effectif : 150 personnes à Suresnes.
CA : non communiqué. Virgin Media (maison mère) : 4 Md£ en 2007.
Problème à résoudre : mettre en place un datawarehouse visant à répondre aux besoins de pilotage financier et marketing de l'opérateur.
Solution déployée : Talend Integration Suite déployé sur serveur Sun Solaris 10.
Appelés à déplacer d'importants volumes de données, les serveurs d'ETL lisent et traitent des informations des heures durant. Le plus souvent la nuit et les week-ends afin que les systèmes soient à jour à l'arrivée des utilisateurs dans l'entreprise. Mais avec la multiplication des processus d'intégration, ces plages horaires peuvent ne plus suffire. Des serveurs plus puissants s'imposent alors.
A l'origine outils de traitement batch visant l'alimentation des grands entrepôts de données, les ETL se sont peu à peu transformés en plates-formes d'échanges. Support des services web, des protocoles de messageries interapplicatives, ils se sont transformés en hub d'intégration, y compris sur des applications web 2.0 avec l'apparition de connecteurs pour les applications orientées Saas.
Outre ses capacités d'échange et de traitement, l'ETL est aussi un outil de cartographie du système d'information. Il héberge en effet le référentiel des données et constitue ainsi un véritable outil de cartographie orienté modèles de données du SI de l'entreprise. Un moyen d'assouplir la rigidité du couplage entre les applications.
Livrés avec des environnements de développement de flux conviviaux et efficaces, les ETL acquièrent vite une certaine popularité chez les développeurs. Les traitements peuvent se multiplier rapidement et le serveur montrer ses limites en termes de puissance. Mettre en place un ETL doit s'accompagner d'un lourd volet méthodologique : une gouvernance à laquelle chacun devra se plier pour ne pas faire plier… l'ETL lui-même.
“ Informatica assure le traitement de 2 Go de données chaque nuit pour notre extranet qui exploite plusieurs téraoctets de données. Le frontal applicatif, distribué sur huit serveurs-lames Sun, se charge en temps réel des agrégats multipays et de la génération des graphiques et rapports clients. La mise en place de Powercenter et sa grande simplicité d'utilisation ont révolutionné notre approche de l'extraction et de la transformation des données, aussi de nombreux chefs de projet ont rapidement voulu l'utiliser. Powercenter n'est pas un “ simple ” data middleware, mais doit être vu comme un véritable environnement de développement. Afin d'éviter les dérives, nous avons mis au point des standards de codage et des bibliothèques de “ maplets ” facilitant au maximum le réemploi du code, des flux de traitements et des métadatas métier. ”
“ Un ETL démontre toute sa valeur dans les gros centres d'exploitation. Là où il faut gérer de nombreux points d'entrée sur des systèmes différents dont des bases de données parfois exotiques. Dans notre cas, l'existence d'un connecteur pour les plates-formes Unisys a été un critère décisif dans notre choix de la plate-forme Information Builders. Nous voulions avoir le moins d'intégration possible, éviter l'empilement de couches logicielles pour arriver au graphe. Information Builders nous a permis d'avoir le moins d'interlocuteurs possible sur notre projet, ce que les éditeurs du décisionnel tels que BO, Hyperion ou Cognos ne pouvaient nous fournir au moment de notre choix. IWay Data Migrator assure aujourd'hui l'alimentation d'une vingtaine de datamarts via des batchs essentiellement exécutés sur un rythme hebdomadaire. ”
“ Genio assure les échanges de données entre nos applications. En effet, au plan régional, cet ETL peut être considéré comme un bus applicatif pour le traitement des fichiers destinés, par exemple, à notre système comptable Coda. Au niveau central où nous disposons de licences Webmethods, nous arbitrons entre notre EAI et l'ETL en fonction de critères tels que la volumétrie, la fréquence ou la complexité des flux de données. En outre, Genio a permis d'établir un référentiel centralisé de toutes les règles de gestion liées aux flux de données. Tout flux y est versionné et documenté. Grâce à son analyse d'impact, il nous permet d'identifier la moindre modification de structure des données, de connaître l'impact d'une modification d'objet (process, module…) sur les autres objets du projet. ”
“ La mise en place d'un entrepôt de données nous a poussés à nous équiper d'un ETL pour extraire les données de notre système de production (base MySQL) et en assurer l'alimentation. L'ETL Talend se marie particulièrement bien à MySQL, un plus car nous avons de fortes compétences internes sur MySQL. Dans notre base, 1 million de clients, soit un volume de 6,2 millions de tickets de communication nouveaux générés chaque jour. Des volumes qui restent gérables. L'ETL qui doit charger en batch tous les tickets d'appel du jour ainsi que les données GRC réalise ce traitement la nuit en quatre à cinq heures. La principale difficulté dans ce type de projets a été de comprendre la logique des données ; notre GRC, notre plate-forme d'acquisition des clients, tout a été développé en interne. ”
“ Un nivellement des offres ETL ”
“ Capacités d'intégration, fonctions de transformations, de planification, de qualité des données, reporting… tous offrent aujourd'hui ce type de fonctionnalités. Ils visent, avec le support des services web par exemple, à répondre à de plus en plus de problèmes d'intégration. Le choix d'une solution va être dicté par l'environnement du client : souhaite-t-il un ETL, une solution d'intégration plus large avec des possibilités de temps réel ou bien une plate-forme décisionnelle ? ”
“ Face à l'open source, les ETL haut de gamme gardent un intérêt certain ”
“ De manière générale, les ETL sont déployés largement depuis plus de cinq ans. Les utilisateurs ont pu s'approprier les outils et les exploiter sur de nombreux projets. De fait les volumétries sont en train d'augmenter considérablement. Selon Gartner, leur croissance annuelle va passer de 5 % à 25 % dans quelques années. Cela va dans le sens des ETL haut de gamme qui sont maintenant capables de gérer de très grosses volumétries avec des temps de réponse très bons. ”
















