01net Pro Entreprise informatique
01net. web avec Google
Actualités gestion et logiciel informatique professionnel
Offre et recherche Emploi informatique internet
Salon conférences inofrmatique IT ebusiness 01
Informatique et TIC pour les PME TPE
Vidéos reportage entreprise acteur informatique
Retrouvez tous les services 01Net dédiés aux professionnels !
Télécharger logiciels Pro et progiciels
Livres blancs e-commerce informatique et nouvelles technologies
Retrouvez l'ensemble des dossiers de la rédaction 01net Entreprise
Les synthèses des bonnes pratiques sur les sujets IT du moment

La recherche en entreprise se professionnalise

Devenus plus aboutis, les moteurs de recherche constituent désormais une brique essentielle des portails Internet, des intranets et des sites d'e-commerce.

envoyer
par mail
imprimer
l'article
' J'ai besoin du document en allemand qui prouve que nous avons contrôlé le niveau d'activité de notre sous-traitant basé en Chine. ' Répondre à une telle requête devient plus aisé grâce aux innovations des moteurs de recherche. Certains sont désormais capables d'interpréter et de traduire une requête dans une langue étrangère, de parcourir les index de la langue cible et de rapatrier les données ad hoc. Ainsi, l'utilisateur peut poser des questions dans une langue et trouver des documents pertinents dans une autre. Dans bien d'autres domaines, les moteurs ont récemment enrichi leur couverture fonctionnelle. Ils peuvent, par exemple, supprimer les redondances, classer les réponses en fonction de l'organisation de l'entreprise, ouvrir de nouvelles pistes de recherche avec des restrictions par périodes, types de fichiers, etc.
À ce jour, le domaine des moteurs de recherche professionnels reste pourtant un marché de niche. ' Le chiffre d'affaires d'un éditeur spécialisé dépasse rarement les trois millions d'euros à ce jour ', confirme Alain Garnier, président de l'Apil, une association qui regroupe des éditeurs. Mais ce marché est en mutation. ' Les appels d'offres de portails ou d'intranets comportent de plus en plus souvent des applications de recherche. Les budgets qui y sont consacrés s'échelonnent de 25 000 à 250 000 euros ', ajoute Alain Garnier.
Une tendance également confirmée par Fabien Tavernier, PDG d'Hemisphere, une SSII partenaire de Fast, éditeur du moteur de recherche du même nom : ' La nouvelle génération de moteurs réduit le nombre de clics pour accéder aux données sur un intranet, et facilite la transformation de visiteurs en acheteurs sur des sites marchands. Les projets de commerce en ligne comportent désormais une brique pour la recherche. ' Autre signe de maturité du marché, les acquisitions démarrent. Dernière en date, l'éditeur Lingway vient d'acheter e-manation, une société spécialisée dans l'analyse automatique des CV, une déclinaison métier des technologies de recherche et d'indexation.

Utilisation : rationaliser les recherches

Créée par Nicole Notat, Vigeo est une agence de notation qui cherche à évaluer les pratiques sociales et environnementales des entreprises. Pour ce faire, les sites Web des multinationales, des syndicats et de quelques ONG et organisations internationales, comme l'OIT pour le travail, sont des sources de données importantes pour réaliser la cinquantaine de rapports d'analyse de dix à vingt pages produits tous les mois. Utilisés à l'origine par les analystes, ' les moteurs grand public, Google en particulier, se sont révélés inadaptés à notre métier. Pas de fonction d'alerte, difficulté à qualifier les sources, à partager l'information, doublons, etc. ', constate Meryam Maizi, ingénieur documentaliste.
En outre, Vigeo a besoin d'être alertée très rapidement sur tout événement touchant l'environnement ou le social. Au quotidien, quelque vingt-cinq analystes lancent des recherches à partir de l'application métier. Cette dernière prend en charge la réalisation des rapports et facilite le workflow pour leur validation. Basée sur Autonomy, l'application de recherche indexe plus de cinquante sites institutionnels, de multinationales et de syndicats. ' Un chiffre qui devrait monter rapidement à quatre-vingts ', ajoute Arnaud Jésupret.
Spécialisée dans la collecte et l'analyse de la presse, la société Press Index recense un nombre beaucoup plus important de sources. Elle reçoit chaque jour pour la seule presse quotidienne régionale 400 éditions produites par les vingt-cinq éditeurs majeurs nationaux dans des flux XML. Et ce, sans compter plus de 3 000 titres papier pour la presse nationale et spécialisée et environ autant de sites Web d'informations. ' Pour trier et analyser ces articles sur un sujet donné, la notion de mots-clés est insuffisante, constate Dominique Fournier, directeur marketing et communication. Regrouper tous les articles portant sur le même sujet et créer automatiquement des résumés pertinents implique l'utilisation d'un outil capable de comprendre le sens d'un texte. ' Pour ce faire, Press Index a lancé, début 2006, le projet MAP, moteur d'analyse de la pertinence, basé conjointement sur les logiciels de Temis et de Mondeca. Actuellement en phase de prototype, ce logiciel facilite le regroupement d'articles par thèmes.
Motivation différente pour la banque d'affaires Espirito Santo et de la Vénétie. ' Notre métier nécessite de travailler avec des quantités considérables de documents ', rappelle Fabrice Bouland, responsable informatique de la banque. Pour gérer ces documents, ce dernier avait commencé par demander un audit destiné à choisir une solution de gestion de contenu. L'audit a conclu à l'inutilité d'un tel outil, car la plupart des documents ne servent qu'une seule fois, lors de la demande d'un prêt bancaire. En revanche, l'audit a mis en exergue l'intérêt d'un moteur de recherche. ' Nous créons à peu près 100 000 documents par an. Ces documents sont stockés dans des arborescences sur un serveur de fichiers. Trouver un document peut demander du temps ', analyse Fabrice Bouland. En dehors de la DSI, les services Organisation et Financements structurés, le département dédié au montage de prêts complexes et internationaux, utilisent le moteur. ' Ces utilisations justifient largement le coût de la licence de 10 000 euros ', assure Fabrice Bouland.

La mise en ?"uvre : connecter les moteurs d'indexation

Fast a été choisi pour l'intranet de la branche Power Service d'Alstom, spécialisée dans les services à la production d'énergie (maintenance des turbines électriques, etc.). Ce choix découle d'une raison simple. Basé sur BroadVision, le portail utilise déjà ce moteur pour indexer ses pages HTML. ' Nous avons ajouté et mis en production au printemps le module File Traverser de Fast pour indexer les autres fichiers bureautiques, PDF et HTML ', rappelle Dirk Engberg, chef de projet technique. Installé sur le serveur d'applications, ce module est lancé chaque nuit pour indexer les modifications ou les nouveaux fichiers.
La banque Espirito Santo et de la Vénétie a retenu Exalead début 2006. ' Le moteur indexe l'existant de 200 000 documents sur les serveurs, ainsi que trois postes de travail pour l'instant ', indique Fabrice Bouland. Le connecteur Exalead Desktop for Lotus prend en charge les courriels et les documents attachés sur chaque poste de travail concerné.
Chez Press Index, la mise en place a supposé de connecter le moteur d'indexation à tous les flux XML entrants quotidiennement. ' Une étape qui devra être affinée compte tenu des volumes à prendre en compte ', prévoit Dominique Fournier, directeur commercial et marketing de Press Index.
Filiale de la Poste chargée de l'acheminement des colis en Europe, GeoPost est implantée dans sept pays européens. Le développement d'une application de recherche s'est fait en parallèle avec la mise en production d'un portail collaboratif pour les quelque 250 utilisateurs des services marketing. Tous les documents produits par les équipes marketing sont indexés au fil de l'eau.

Les gains : une information synthétique

Le métier de la banque impose une traçabilité des documents qui se renforce avec les nouvelles dispositions réglementaires. ' Nous pouvons être amenés à prouver que certaines actions de contrôle ont bien été réalisées ou encore retrouver les conditions contractuelles en cours à un moment donné dans la vie d'un crédit, illustre Fabrice Bouland. Les seuls gains de temps pour retrouver ces données suffisent à amortir le coût du projet. ' Des gains qui ne sont pas seulement temporels. Intérêt différent chez Vigeo. Dans cette société, le moteur ne se contente pas de donner des réponses, mais apporte des suggestions. ' Par exemple, à partir d'une recherche comportant le mot " déchet ", l'application proposera à l'utilisateur de poursuivre avec " déchet polluant " ou "déchet radioactif" ', explique Arnaud Jésupret.
L'application aide également à identifier les sources, une contrainte pour Vigeo. En outre, elle alerte les utilisateurs sur de nombreux critères comme une modification dans une page. Pour Press Index, l'application en cours de déploiement sur certains postes n'est que la première brique d'une série de services de recherche. ' L'application pourrait servir, par exemple, à assurer un service de veille économique. Lancer une recherche sur une société permettra d'accéder directement à tous les articles la concernant. Des résultats déjà classés par thèmes : activité, résultats, nominations, etc. Sans moteur intelligent, arriver au même résultat suppose de chercher sur des mots-clés dans chacun des supports ?" Le Monde, les Echos, etc. ?" et de synthétiser ces données ', indique Dominique Fournier, de Press Index.

Les écueils : parfois déroutant à utiliser

' L'utilisation du moteur n'est pas encore entrée dans les habitudes de travail de tous, regrette Arnaud Jésupret. Des analystes continuent à utiliser d'autres moteurs de recherche. ' Certains effets de bord, comme le fait de ne pas renvoyer de réponses à partir de questions contenant des mots pourtant courants, ' surprennent certains utilisateurs ', ajoute Arnaud Jésupret. Le fonctionnement des moteurs de recherche surprend aussi pour d'autres raisons. ' J'ai toujours retrouvé les documents que je recherchais. Mais j'ai parfois été surpris que le moteur ne renvoie pas un document alors que j'utilisais un mot-clé présent dans son titre ', s'étonne Fabrice Bouland.
Pour régler ces problèmes, la pondération des sources permet de régler le niveau de silence, mot consacré décrivant les documents ignorés dans les résultats de recherche malgré leur pertinence. Dans tous les projets, la question sensible de la sécurité s'est rapidement posée. La plupart des moteurs permettent de filtrer l'accès aux données en fonction des droits de chacun sur les serveurs Windows, la messagerie Lotus, etc. Mais les tests portant sur la sécurité restent compliqués à mettre en ?"uvre. Il est difficile d'imaginer tous les scénarios d'accès de recherche et leurs implications avec les droits d'accès aux données.
agrandir la photo

Tester la sécurité
Si affecter des droits demeure simple à mettre en ?"uvre et à tester à partir d'une application donnée, il n'en est pas de même avec un moteur de recherche. Ce dernier indexe potentiellement toutes les sources et peut donc tout ramener dans ses filets. Entre les possibilités extrêmes, restriction ou ouverture totale, l'approche mixte est la plus pertinente. Mais cette dernière suppose de tester les accès. Avec toute la difficulté que cela suppose dans l'établissement de scénarios.

Donner des indices pour trouver la bonne information
Lorsque l'on cherche des informations sur un sujet sans connaître précisément les sources, un moteur classique reste inadapté. Les moteurs sémantiques extraient, à partir des documents indexés, les lieux, dates, personnes et thèmes en rapport avec la question. Et proposent de nouvelles pistes pertinentes liées par le sens aux mots utilisés dans la question.

Difficiles à utiliser
Les techniques d'indexation des moteurs d'entreprise sont complexes. Elles mixent souvent une approche statistique (nombre d'occurrences des mots-clés demandés, etc.), syntaxique (adverbe plus substantif, etc.) et sémantique (recherche de synonymes, de termes proches, etc.).

Des outils polyglottes
Les moteurs multilingues sont nombreux. Plus rares, les moteurs de recherche Cross Language renvoient des documents dans une langue différente de celle utilisée dans la question. Couplant la recherche à l'analyse sémantique, le moteur renvoie toutes les réponses pertinentes.

Les principales offres sur le marché français

agrandir la photo

Retour d'expérience : Partager les savoirs

Sophie Fuchs (Geopost) : ' La recherche sémantique évite la redondance '

Chez GeoPost, ' un enjeu majeur pour les équipes de marketing consiste à mutualiser les connaissances du marché et concurrentielles acquises localement. Notamment pour harmoniser et développer une offre de service à l'échelle européenne et optimiser les circuits d'acheminement entre les différents transporteurs du groupe ', explique Sophie Fuchs, responsable de la veille concurrentielle. Mais la dispersion géographique et l'utilisation de plusieurs langues se conjuguent pour compliquer le partage d'informations. Pour répondre à ce problème, GeoPost a mixé deux approches. Développé par OpenWide à partir d'une brique open source, un portail collaboratif accueille de nombreux documents bureautiques ?" quelques dizaines de milliers à ce jour ?" intégrés dans un plan de classement reproduisant l'organisation.

Parallèlement, un moteur édité par Lingway indexe le texte intégral des fichiers. Deux modes de recherche sont proposés, à travers le plan de classement ou à partir de questions posées en langage courant. Avec ce second mode, l'utilisateur pose une question dans une langue et trouve les réponses pertinentes dans une autre. Le moteur lui renvoie également des réponses proches sémantiquement. Deux tiers des recherches lancées par les utilisateurs passent par le plan de classement. Le dernier tiers par le moteur. ' L'utilisateur passe par le plan de classement quand il sait exactement ce qu'il cherche. Il pose des questions en langage usuel quand il cherche des informations sur un thème ', conclut Sophie Fuchs.

Geopost

Retour d'expérience : Intégrer au portail grâce à des API

Dirk Engberg (Alstom Power Service) : ' L'indexation quotidienne dure moins de trois minutes '

Chez Alstom Power Service, le module de recherche de Fast indexe tous les fichiers bureautiques, ' documents projets, catalogues produits et services, documentation qualité et technique ', précise Dirk Engberg, chef de projet technique. À l'utilisation, le temps comme les ressources système nécessaires pour la mise à jour de l'index restent faibles. Quelques minutes au plus pour prendre en compte les ajouts, suppressions ou modifications et pas plus de trente minutes pour une régénération complète de l'index. ' Un temps qui s'explique par le faible volume de données, de l'ordre de 10 000 à 15 000 documents, explique Dirk Engberg. Pour intégrer la recherche sur le portail, nous avons développé des portlets en utilisant l'API fournie par BroadVision. '

Une fois paramétrés, ces portlets donnent la possibilité de rechercher sur une partie du site, comme le catalogue produits, la revue de presse interne, un dossier particulier, etc. En plus des bonnes performances, le moteur s'est révélé stable. Principal reproche, ' l'interface d'administration n'est pas très intuitive. Il faut comprendre comment les collections sont gérées. Et l'absence d'un outil de scripting ne facilite pas le déploiement de la configuration sur les différents environnements [test, assurance qualité et production] ', regrette Dirk Engberg. Au final, le support de Fast a facilité la prise en main et l'intégration sur le portail s'est réalisée dans les délais.

Alstom Power Service

Avis d'intégrateur : ' Faire des recherches floues sans se soucier des termes exacts '

Sylvain Chambon, architecte logiciels d'OpenWide.

Quelles sont les motivations pour lancer une application de recherche ?
En plus des avantages connus, notamment l'accès unique à l'information indépendamment de sa localisation, ce type de projet comporte de plus en plus souvent une brique sémantique. Les moteurs de ce type ne se contentent pas de trouver des documents, mais affichent les dates, lieux, personnes et thèmes en rapport avec la question posée. Les utilisateurs peuvent ainsi faire des ' recherches floues ', sans se soucier des termes exacts. Par exemple, une recherche sur ' audit financier ', renverra à ' rachat d'entreprise ' ou ' acquisition de société '. La recherche se fait par le sens et non par le mot-clé.

Comment s'intègre une application de ce type au SI ?
Les ressources matérielles dépendent du volume. Chez un de nos clients, l'application gère 500 utilisateurs et 50 requêtes simultanées susceptibles de ramener chacune quelques centaines de documents. Chez ce même client, un serveur biprocesseur (3 GHz et 4 Go de RAM) héberge à la fois le portail collaboratif et le moteur de recherche. L'intégration logicielle passe par des services Web. Les fonctions de recherche prennent alors la forme de portlets accessibles à partir du portail d'entreprise.

OpenWide

publicité
Nos partenaires