Serge Abiteboul : « Le big data est avant tout un effet de mode »
Professeur au Collège de France et directeur de recherche à l’Inria, Serge Abiteboul est l’un des meilleurs spécialistes mondiaux de la gestion de l’information. Il dresse un bilan critique du big data et de l’utilisation des données personnelles des internautes.
agrandir la photo
Dans vingt ans, un individu aura-t-il le contrôle de ses données personnelles ?
SERGE ABITEBOUL : Il est possible qu’une entreprise commerciale, comme Facebook ou Google, finisse par concentrer toutes les informations personnelles du monde. Nous n’aurons plus alors qu’à lui faire confiance. Ou bien, je l’espère, nos données seront distribuées sur des milliards de systèmes. Une configuration qui permettra à chacun d’en garder la maîtrise ; ce qui n’est pas encore le cas.
Est-ce pour cela que vous prônez des sortes de « tiers de confiance de données personnelles » ?
SA : La masse de renseignements est en constante augmentation. Tout gérer soi-même n’est plus possible, et laisser un Dropbox le faire ne me plaît pas beaucoup… Je préfère payer un fournisseur de service et avoir un contrat qui me protège. Nous serions dans un contexte d’échanges pair à pair avec une multitude de systèmes collaborant entre eux pour gérer nos données ou chercher de l’information pour nous. C’est là-dessus que je travaille dans le cadre de l’ERC Webdam, sur comment faire de la gestion de données du Web de manière distribuée sans concentrer toutes les données sur un serveur ou sur une ferme de serveurs.La tendance actuelle est plutôt de déployer des systèmes qui les concentrent et qui font du parallélisme massif, comme Hadoop.
Vous estimez que le big data est surtout un effet de mode ?
SA : Oui. Cela fait vingt ans que l’on travaille sur l’analyse de données, et il n’y a rien de vraiment nouveau. Sauf peut-être que les entreprises essaient aujourd’hui de croiser leurs données avec celles, très volumineuses, du web. Les sociétés innovantes se jettent dessus parce que c’est la mode. Et, dans une perspective de gestion de carrière technique, c’est rentable d’ajouter sur son CV : « spécialiste Hadoop ». De leur côté, les dirigeants d’entreprise succombent à la mode en encourageant leur DSI à s’y mettre.
Pourquoi cet intérêt marketing pour le big data ?
SA : Les données sont des gisements potentiels de valeur. On touche là à l’essence même du problème : comment tirer de la valeur des données dont on dispose. Vous connaissez les tendances d’achat de vos clients, est-ce que c’est monnayable ? Les entreprises se mettent à réunir le maximum d’infos sur vous en s’asseyant souvent sur les grandes idées comme la protection des données privées. Vous devenez des objets d’analyse.
Tout ce qui est récolté est vraiment exploité ?
SA : A mon avis, non. Comme le stockage est devenu bon marché, les DSI récoltent tout, à tout hasard. Après, il faut analyser les résultats ; mais, là, ce n’est pas facile. Ensuite, il faut utiliser les résultats. Ça devient un problème de business et de marketing. Comment découvrir dans les données qu’un client est particulièrement susceptible de vous préférer un autre fournisseur : c’est un problème d’analyse. Comment faire pour le garder : c’est un problème de business. Aucun des deux problèmes n’est simple. Conclusion : des téra octets de documents dorment, inexploités.
Les technologies comme Hadoop sont-elles vraiment utilisées ?
SA : Elles le sont par les sociétés web, qui ont été des précurseurs en la matière pour faire des trucs comme l’indexation du Web. Le cœur d’Hadoop vient de l’algorithme Map-Reduce de Google qui s’en sert depuis les années 90. De très grandes entreprises, notamment dans les télécoms et la grande distribution, s’y mettent aussi. Mais j’ai l’impression qu’elles en sont encore souvent à bricoler et que ces technologies sont peu utilisées en production. J’ai aussi l’impression que pas mal d’utilisations de ces technologies qui ne sont pas vraiment nécessaires.
Que faire avant de se lancer dans le big data ?
SA : Il faut se demander si une seule machine avec beaucoup de mémoire (vive et flash) ne suffirait pas à résoudre le problème, sans avoir recours au parallélisme massif. Ensuite, on doit vérifier si la dimension du problème ne pourrait pas être réduite, soit par sélection d’une partie des données, soit par échantillonnage aléatoire. Enfin, il est impératif de s’assurer que le problème est vraiment parallélisable.
Hadoop est-il suffisamment mûr ?
SA : Non ! Pas du tout. Dans quelques années, les successeurs d’Hadoop auront peut-être le niveau de qualité et la robustesse des modèles relationnels d’aujourd’hui, mais ce n’est pas le cas pour l’instant. Il manque des fonctionnalités. Prenez les mises à jour sur les données. Avec Hadoop, si vous effectuez un calcul et que les données ont été modifiées dans l’intervalle, il faut tout recharger pour refaire le calcul. Les systèmes du type d’Hadoop sont utilisés en batch. Du coup, le temps de latence avant d’avoir une réponse est non négligeable. Et puis, ces technologies ne sont pas encore à la portée d’un analyste. Les entreprises font de la business intelligence (BI) depuis longtemps. Avec le big data, elles redécouvrent les galères de la BI d’autrefois.
Au final, on assiste à une multiplication des systèmes de gestion de données ?
SA : Oui. C’est notamment la mode du No SQL. L’intérêt des bases de données relationnelles, c’était qu’un seul système résolvait une énorme gamme de problèmes. On tombe maintenant sur des problèmes dont le niveau de complexité est tel qu’aucun système existant n’offre de solution. On aurait donc plutôt tendance à dédier un système à chaque problème. Mais le nombre de problèmes à résoudre est trop important, il va falloir développer des systèmes plus génériques.
Bio express de Serge Abiteboul
1982 : Ph.D. de l’université of Southern California.
1986 : thèse de l’université Paris-Sud.
Depuis 1982 : chercheur à l’Inria.
Depuis 2008 : membre de l’Académie des sciences.
Depuis 2011 : professeur au Collège de France, chaire informatique et sciences numériques. Membre de l’académie Europea.
à lire aussi
SUR LES MÊMES THÈMES 


nos newsletters
Lisez 01Business pour 6,54 € / n°















