En poursuivant votre navigation sur ce site, vous acceptez l’utilisation de cookies pour vous proposer des services et offres adaptés à vos centres d’intérêts.FERMER  x
Pour en savoir plus et paramétrer les cookies...

L'analyse sémantique devient sentimentale

Les plates-formes de textmining placent l'analyse des sentiments au c?"ur de leur recherche. Mais mesurer la satisfaction des utilisateurs exige qu'elles s'ouvrent au web collaboratif des réseaux sociaux et des blogs.

Les faits

SPSS annonce un nouveau module pour analyser des données non structurées issues de réseaux sociaux et de blogs. Quelques jours auparavant, son concurrent Temis a lancé Luxid for Sentiment Analysis, une bibliothèque censée détecter les perceptions, les tonalités et les attentes autour d'un produit, d'un service ou d'une société.

L'analyse

Le monde de l'analyse sémantique (ou textmining) est en effervescence. Les spécialistes du domaine sont attaqués de toute part. Un simple coup d'?"il sur l'actualité des douze derniers mois suffit à s'en convaincre : rachats d'Inxight par Business Objects, de Teragram par SAS, de Clearforest par Reuters, collaboration étroite entre Nstein et IBM dont l'entrepôt de données embarque depuis peu nativement des annotateurs de texte... Tous ces rapprochements répondent à une même logique : organiser des corpus non structurés afin de les rendre interrogeables par les logiciels décisionnels. Mais ce n'est pas tout. Sur le front technologique, l'analyse sémantique est en train de mener sa petite révolution. D'une part, elle s'ouvre aux nouveaux corpus issus du web collaboratif. L'annonce de SPSS en est la parfaite illustration : l'éditeur s'est s'associé à un spécialiste du crawling de sites pour analyser les contenus des réseaux sociaux. D'autre part ?" et c'est totalement lié ?", les plates-formes de textmining cherchent désormais à déceler un nouveau concept : le sentiment et plus précisément la notion de satisfaction, comme en témoigne Luxid for Sentiment Analysis, la dernière annonce de Temis.

Une nouvelle approche révolutionnaire

Capturer les sentiments que les leaders d'opinion ou les consommateurs laissent transparaître sur le web et les structurer pour les rendre analysables, telle est la promesse de cette révolution. Seulement aujourd'hui, force est de constater que si les éditeurs savent parfaitement rapprocher des entités nommées (personnes, sociétés, lieux...), cette notion de sentiment est loin d'être maîtrisée. ' En ce qui concerne la catégorisation, les plates-formes comme celle de Temis, Lingway ou Sinequa sont matures. Elles classent avec des taux de précision très élevés des informations par type, secteur, famille de produits... ', affirme Françoise Bretonneau, consultante indépendante en textmining. Lors de cette opération, les textes sont regroupés par thèmes, voire associés à des contenus structurés (base de données, catalogue...) jusque-là isolés. Il s'agit par exemple de rattacher une discographie ou un catalogue à l'artiste mentionné dans un article. Au-delà de la catégorisation, la maturité de l'analyse sémantique se mesure également à sa capacité à caractériser les relations entre les entités. Autrement dit à déceler du sens. Temis, par exemple, s'est spécialisé sur les concepts d'acquisition de sociétés ou de relations entre molécules (dans un contexte pharmaceutique). SPSS se positionne dans le rapprochement de personnes ou la notion de budget. Tous s'appuient pour cela sur des bibliothèques thématiques (énergie, industrie...) dans lesquelles sont modélisés les types de relations entre les entités nommées.
Le problème ? Cette approche est optimisée pour un domaine vertical se référant à un champ sémantique fini et maîtrisable. Le contraire de l'analyse des sentiments... ' Celle-ci est particulièrement complexe à modéliser. Elle nécessite une bibliothèque autrement plus importante que celles conçues pour les autres concepts ', reconnaît Hervé Mignot, directeur technique de SPSS qui fournit depuis un an un référentiel dédié à l'analyse d'opinion. L'expression des sentiments est par essence ambiguë. ' Les constructions sont relativement figées pour signifier des acquisitions. Il n'existe pas plus d'une trentaine de façons. Le sentiment prend au contraire mille et une formes ', explique François-Régis Chaumartin, membre du laboratoire Alpage et créateur de Proxem, société de conseil en analyse sémantique. Double négation, ironie, métaphore... Si la liberté de forme est totale, celle de la syntaxe l'est tout autant. Les blogs, wikis, mails et autres réseaux sociaux sont remplis d'expressions télégraphiques style SMS... ' Sans compter les erreurs de saisie au niveau des tags ou les fautes d'orthographe dans les métadonnées renseignées par les utilisateurs sur les sites ', ajoute Françoise Bretonneau. Le challenge est donc ardu pour les spécialistes du textmining habitués à travailler sur des corpus relativement propres.

Un travail de rapprochement

Mais outre les difficultés liées au style, les éditeurs devront résoudre la problématique de fond : l'interprétation des sentiments. Ceci passe par un travail de rapprochement de mots à des connotations affectives. François-Régis Chaumartin a conçu cette modélisation sur Wordnet, l'un des plus gros lexiques sémantiques électroniques conçu pour la langue anglaise (issu de l'université de Princeton). Et visiblement avec succès : le système de détection d'émotions qu'il a développé au-dessus de Wordnet a obtenu la meilleure précision à Semeval-2007, une compétition de recherche internationale sur l'évaluation sémantique. L'enjeu était de déceler six notions de base (colère, joie, surprise, peur, dégoût, amertume) dans des titres de la presse anglophone. A noter que Wordnet devrait voir le jour en français. Ce qui ne l'empêche pas d'être critiqué par une partie des linguistes.

Associer la gestion documentaire

L'analyse des sentiments connaît une autre difficulté : des sources de contenu difficilement accessibles. C'est vrai sur le web (les avis sur un produit sont disséminés sur une multitude de sites) comme dans l'entreprise. ' On ne compte plus les lots d'information tels que les saisies libres effectuées par les opérateurs des centres d'appel, qui sont abandonnées faute de processus pour les acheminer vers nos plates-formes de traitements ', indique Hervé Mignot, de SPSS. D'où l'intérêt d'associer les moteurs de textmining à des processus documentaires. Autrement dit, d'en faire des services réutilisables au sein d'une chaîne de traitement. Une telle approche fait ressortir les atouts des moteurs sémantiques par rapport aux moteurs de recherche basiques. Elle rend également le retour sur investissement plus évident auprès d'une direction générale.
Une fois maîtrisées, les techniques d'analyse des sentiments donneront un coup de fouet à l'analyse sémantique. Mais en attendant, leur déploiement en entreprise est encore ralenti. Beaucoup d'initiatives se limitent à des départements isolés alors qu'ils pourraient concerner toute l'entreprise. Résultat, des projets souvent mort-nés, les directions générales ne leur trouvant pas de retour sur investissement. D'autant que les plates-formes de textmining sont relativement chères (des centaines de milliers d'euros pour les gros projets). Autre raison : ' Ces offres ont été confrontées un temps à la réticence des documentalistes, qui les voyaient comme des concurrents ', explique Luc Grivel, maître de conférences à la Sorbonne en sciences de l'information Aujourd'hui, cette concurrence aurait laissé la place à une certaine complémentarité : ' Les documentalistes sont indispensables pour déployer et maintenir ces outils. Et avec eux, ils sont relevés des tâches répétitives et se focalisent pleinement sur les problématiques d'interprétation '.

L'analyse des sentiments pour...

Selon le degré de mécontentement exprimé dans un courriel, ce dernier peut être redirigé vers un opérateur spécialisé. A noter le projet conjoint de recherche de KXEN (datamining), Temis (textmining) et Eptica (relation client). Ou encore le positionnement de la start up Erdil.

La notion de satisfaction est au c?"ur de la convergence des donnés structurées/non structurées, tant annoncée par les éditeurs. Car une fois notée cette satisfaction peut venir enrichir un entrepôt de données ou un module de datamining.

L'analyse des sentiments concerne toutes les organisations amenées à interagir avec des partenaires ou des clients. C'est-à-dire la quasi-totalité des entreprises ou des institutions.

Ce qu'ils en pensent

Françoise Bretonneau : ' rapprocher les métiers de la documentation et de l'informatique '

' Avec l'avènement d'internet, puis du web 2.0, les documentalistes ont gagné en indépendance vis-à-vis des informaticiens. Néanmoins, les deux populations gagneraient à davantage travailler ensemble. Surtout autour des déploiements, souvent complexes, de plates-formes d'analyse sémantique. La plus grande difficulté étant sans conteste la préparation des taxonomies, autrement dit la structuration de l'information dans les référentiels. La convergence des données structurées et non structurées devrait sûrement inciter le rapprochement des deux populations. Par ailleurs, certaines entreprises hésitent à se doter de telles plates-formes lorsqu'elles emploient déjà des documentalistes. En réalité, ces derniers sont précisément ceux qui font vivre ce type d'outil. '

François-Régis Chaumartin (laboratoire Alpage) : ' l'analyse sémantique entraîne le retour de l'intelligence artificielle '

' Après l'analyse des sentiments, un autre enjeu du textmining porte sur la compréhension de requêtes en langage naturel. Pour le traitement des questions complexes, nécessitant des raisonnements, les inférences, ou des calculs d'agrégats, les méthodes purement statistiques à la Google ne suffisent pas. Car si elles permettent de trouver l'aiguille dans la botte de foin, elles sont incapables de placer cette aiguille dans une chaîne de raisonnement. En fait, seuls les systèmes qualifiés de ' raisonneurs ' seront en mesure de traiter une question telle que la suivante : ' Quel métier exerçait le père du Premier ministre au pouvoir en 1995 ? ' Ces héritiers des systèmes experts des années 90 devront reprendre les techniques de l'intelligence artificielle. '

Philippe Gautier (Benedicta) : ' s'affranchir à terme des protocoles d'échange entre systèmes '

' Dans les chaînes de valeur comme celles qui caractérisent les mondes de l'industrie ou de la consommation, chaque acteur ?" fabricant, logisticien, distributeur... ?" dispose souvent de son propre référentiel pour décrire ses entités métier. Pour échanger, ils passent par des protocoles très formatés, l'exemple le plus connu étant l'EDI et ses différents standards. Avec les progrès de la sémantique, les systèmes pourraient être amenés à interagir sans l'aide de référentiels ou d'étapes de transformation. La compréhension des messages par ces systèmes se ferait sur le même mode que celui des textes par les plates-formes actuelles d'analyse sémantique. S'affranchir ainsi de toute connaissance ou négociation préalable ?" au sens informatique ?" permettra à des éléments aujourd'hui extérieurs à ces chaînes de valeurs d'intervenir plus librement. '

envoyer
par mail
imprimer
l'article
@01Business_fr sur
à lire aussi
SUR LES MÊMES THÈMES
L’interface universelle pour la gestion documentaire en passe d’être ratifiée
L'armée de l'air met le cap sur l'open source
Anios fiabilise sa communication scientifique
Le retour du XML natif dans les référentiels
Désinfectez votre PC avec une clé USB
Les Français en pleine love story avec les Anglais, Éric Bantegnie, un héros numérique trop méconnu, Criteo entre au Nasdaq
Comptez-vous remplacer vos Blackberry par des terminaux Windows Phone ?
Les contrats de la quinzaine
Études et essais
“ Grâce au digital, les consommateurs sont en train de prendre le pouvoir ”
Leur système d'échange de maisons fait un carton
Florajet offre un bouquet de technos à ses fleuristes
Chez Rip Curl, la douane n'est plus qu'une formalité numérique
Idées de business
La Poste regroupe ses douze sites marchands en une même boutique
Il protège vos données même hors de l'entreprise
Les nouveaux fleurons français du high-tech
Une flopée de jeunes pousses aux ambitions mondiales
Un secteur où nos ingénieurs restent parmi les meilleurs