Actualités Emploi Start-up Evénements 01 Avis d'expert Vidéos Indicateurs Distribution Telecharger Pro Livres blancs

Le textmining s'invite au cœur de l'entrepôt de données

La reconnaissance et le traitement de contenus textuels est simplifié par l'insertion de données dans le datawarehouse. C'est l'innovation proposée par IBM.
envoyer
par mail
imprimer
l'article
partager sur Viadeo
partager sur Facebook
partager sur LinkedIn
partager sur Scoopeo
partager sur Technorati
partager sur Digg
partager sur Delicious
partager sur Google
partager sur Myspace
partager sur Yahoo!

Les faits

Annoncée à la mi-octobre à Las Vegas, la version 9.5 de DB2 Warehouse stocke et interprète des contenus textuels. La prochaine mouture de la plate-forme Clementine, de SPSS, ainsi que les recherches conjointes de Temis, KXEN, et Eptica travaillent aussi à rapprocher données structurées et non structurées.

L'analyse

“ Ma connexion à internet est rompue depuis des semaines, j'ai essayé de vous joindre dix fois, je résilie mon contrat. ” Panne, qualité de service, défection de client… ce message posté sur le site d'un opérateur contient ces trois sujets. Ils ne seront pourtant pas exploités à des fins d'analyse. Celles-ci ne s'applique qu'aux données structurées stockées dans un entrepôt : référence client, nom, type d'équipement… Les entreprises gagneraient pourtant à ordonner et exploiter ce gisement d'informations et à le rapprocher des données historisées. Souhaitée depuis longtemps, cette convergence se concrétise avec la dernière version de DB2 Warehouse. L'entrepôt d'IBM s'ouvre en effet aux textes courts : saisis en ligne ou envoyés par courrier électronique. Il embarque nativement deux annotateurs des modules d'analyse de texte. L'un importe des dictionnaires (de produits, de clients, de lieux…), l'autre reconnaît des formes (numéro de téléphone, référence client…). Tous deux reposent sur UIMA (Unstructured Information Management Architecture), framework open source lancé par IBM en 2005 et récemment standardisé par l'Oasis. UIMA présente un environnement de modélisation d'annotateurs et spécifie le format des métadonnées issues d'un traitement textuel : indexation, catégorisation, traduction… Résultat, tous les éditeurs qui reconnaissent UIMA, tels Arisem, Temis, ou Nstein, peuvent incorporer leurs annotateurs dans le nouveau datawarehouse d'IBM.

Les métadonnées issues de ces traitements (taux de satisfaction, de défection, type de panne) viennent ensuite peupler les champs de l'entrepôt. Elles sont dès lors traitées comme tout enregistrement d'une base de données. Les outils de requêtage, de datamining ou les frontaux des centres de contacts les exploitent pour générer des alertes, dresser des profils ou déceler les principales thématiques des courriers envoyés par un client. SPSS, spécialiste du datamining, est aussi sur ce terrain depuis l'acquisition en 2002 du Français Lexiquest. Fin 2005, avec la version 10 de sa plate-forme Clementine, l'éditeur parvient à faire fonctionner datamining et textmining au sein d'un même processus. La prochaine mouture V12, disponible début 2008, fera la part belle à la modélisation d'annotateurs et à l'ajout de bibliothèques.

Les Français aussi sur le coup

Notons également l'initiative conjointe de KXEN (datamining), Temis (textmining), et Eptica (relation client), assistés par le Laboratoire informatique Paris-VI et le Laboratoire informatique de Paris-Nord. Soutenu par l'ANR (Agence nationale de la recherche), leur projet Septia vise à automatiser les traitements des courriels dans les centres de contacts. Il s'agira notamment d'identifier des concepts (avec Temis) et de les rapprocher de catégories thématiques (grâce à KXEN) pour un meilleur routage des messages vers les agents compétents. Ou encore de relancer le processus de catégorisation thématique (assuré par Temis) sur la base d'alertes générées par le système de prévision des courriers reçus (fourni par KXEN).

Si avec IBM, SPPS, le trio KXEN-Temis-Eptica, ou encore SAS Text Miner et Teradata (via un partenariat avec l'éditeur Attensity), les technologies gagnent en maturité, les clients manquent encore à l'appel. Chacun de ces éditeurs n'en compte au mieux que quelques dizaines. “ Certes 80 % des informations disponibles en entreprise proviennent du non-structuré, reconnaît Jean-Marc Bonnet, de Teradata. Mais la priorité porte encore sur l'analyse des 20 % de données stockées dans des bases. ”

publicité
à lire aussi
SUR LES MÊMES THÈMES
Un nuage de 1 Po pour la Business Intelligence d'IBM
Tibco rapproche enfin le décisionnel de la gestion de processus
Coheris se recentre sur l’édition
Pentaho s’achète un nouveau frontal analytique
Oracle met la main sur les technologies d'HyperRoll
SAP fournit un outil décisionnel temps réel en ligne
Le décisionnel remet au goût du jour la hiérarchisation du stockage
Une nouvelle offre décisionnelle version cloud computing
IBM acquiert SPSS pour 1,2 milliard de dollars
Microstrategy, le franc-tireur
Information Builders s'attaque à la gestion de la performance
Un reporting open source proche de l'utilisateur final
John Schwarz répond aux utilisateurs de Business Objects
John Schwarz répond aux utilisateurs de Business Objects
Pilotage commun du SIRH au Crédit Agricole
Pourquoi les petits de la BI séduisent
Teradata descend en gamme
Informatica intègre les données de Pernod Ricard
Comment SAS séduit les opérationnels
L'offre open source gagne ses premiers galons
01Informatique
01 INFORMATIQUE
L'hebdo de référence des décideurs informatiques.
Micro Hebdo
MICRO HEBDO
L'hebdo qui vous simplifie la micro
et Internet.
L'Ordinateur Individuel
L'ORDINATEUR INDIVIDUEL
Le mensuel informatique qui vous informe et vous conseille.
Tous droits réservés © 1999 - 2009 Internext - 01net.