01net Pro Entreprise informatique
01net. web avec Google
Actualités gestion et logiciel informatique professionnel
Offre et recherche Emploi informatique internet
Salon conférences inofrmatique IT ebusiness 01
Informatique et TIC pour les PME TPE
Vidéos reportage entreprise acteur informatique
Retrouvez tous les services 01Net dédiés aux professionnels !
Télécharger logiciels Pro et progiciels
Livres blancs e-commerce informatique et nouvelles technologies
Retrouvez l'ensemble des dossiers de la rédaction 01net Entreprise
Les synthèses des bonnes pratiques sur les sujets IT du moment

Web sémantique : la Toile prend tout son sens

Outre Nepomuk, un projet de poste de travail intelligent, les tentatives pour ajouter une couche sémantique au web se multiplient. Les premières applications émergent.

envoyer
par mail
imprimer
l'article
IBM, SAP, HP, Mandriva, pour ne citer qu'eux, viennent de s'engager dans le projet Nepomuk. Un acronyme pour Networked Environment for Personalized, Ontologybased Management of Unified Knowledge. Planifié sur trois ans, ce projet veut définir le poste de travail sémantique de demain. Les 17 millions d'euros du projet dont plus de 11 millions sont apportés par l'Europe doivent servir concrètement à ' définir les standards et développer des API pour l'indexation, la recherche, le partage et la visualisation des métadonnées ', explique Stéphane Laurière, chef de projet pour Mandriva. Nepomuk est un projet neuf... pour des besoins qui ne datent pas d'hier ! En 2000, l'inventeur du web, Tim Berners-Lee, donnait déjà une définition adoptée par la majorité : ' Le web sémantique est une extension du web classique où l'information reçoit une signification bien définie améliorant les possibilités de travail collaboratif entre les ordinateurs et les machines. ' En d'autres termes, si le web est une grande bibliothèque, il est plus facile de consulter son catalogue que de parcourir toutes ses allées. Pour répondre à ce besoin, un groupe de travail a planché, dès 99, sur la standardisation de métadonnées. Validé aujourd'hui, le RDF, pour Resource Description Framework, définit la logique et les balises permettant de décrire les métadonnées. Le W3C a, depuis, ajouté une déclinaison OWL (Ontology Web Language) pour représenter les ontologies. Des ontologies qui ne sont rien d'autre que des sortes de dictionnaires étendus où les liens entre les concepts sont précisés : synonymes, équivalents, liens vers un concept de sens plus large, plus précis, etc. Problème : ces standards ne définissent pas le contenu lui-même, c'est-à-dire les différents mots ou expressions utilisés pour parler de la même chose.

Première mise en ?"uvre d'ici à un an

Un constat s'impose : ' Le web sémantique universel n'existe pas. Ce qui est logique puisqu'aucun dictionnaire universel ne peut voir le jour. En revanche, les projets métier avancent ', assure Jean Delahousse, PDG de Mondeca, éditeur spécialisé dans ce domaine. Le seul moyen reste la création d'une ontologie commune à un secteur d'activité ou à une communauté. En France, le réseau national des technologies logicielles recense plusieurs projets de ce type comme Web-Content, e-wok-hub ou Eiffel. Des projets qui sortent des labos pour trouver leur marché. Sur le thème du tourisme, Eiffel a démarré sur le terrain avec la mise au point d'une ontologie. ' L'ontologie du tourisme multilingue peut être utilisée par un site de promotion du tourisme régional. Une demande d'hébergement à la campagne formulée en anglais sera renvoyée vers les gîtes ruraux ou les campings, afin d'apporter des pistes de recherche pertinentes à l'internaute ', illustre Fabrice Lacroix, PDG de l'éditeur Antidot. En complément de la sémantique, les services web permettent de ne ramener que les hébergements disponibles. La mise en production est prévue dans un an. En dehors de ces projets, ' la demande des entreprises reste faible. Et porte, pour l'instant, presque exclusivement sur la mise en ?"uvre de flux RSS ', constate Xavier Lecot, consultant chez Clever Age.
Une fois une ontologie définie, encore faut-il indexer les sites. Une tâche impossible à réaliser manuellement au vu du nombre d'indexeurs nécessaires. Les API indexant avec génération de tags RDF et OWL étant encore inexistantes, des moteurs sémantiques prennent en charge cette indexation. Le moteur de Synomia a ainsi été utilisé pour créer une ontologie de Vumef (Vocabulaire unifié médical français). Dans un domaine plus commercial, la solution de Lingway extrait toutes les données d'un document Word, un CV par exemple, pour les placer dans des champs structurés. ' Cela répond à une préoccupation des agences d'intérim qui estiment que les candidats remplissant les formulaires sur leur site sont souvent les moins intéressants et préfèrent ceux qui envoient leur CV sous forme de fichier bureautique ', explique Hugues de Mazancourt, directeur technique de l'éditeur.

Le tag, version grand public de l'ontologie

Portés par la vague du web 2.0, dont le web sémantique peut n'apparaître que comme une composante, des sites comme del.icio.us ont adopté une démarche plus radicale pour constituer et maintenir des ontologies. En complément d'Ajax et de XML, les ontologies prennent la forme de tags, des mots choisis par les internautes. Un système de vote fait ressortir les mots les plus adéquats pour en décrire d'autres. Un algorithme finalise cette organisation. Déjà utilisées sur Wikipédia, ces ' folksonomies ' présentent l'intérêt de la gratuité et évitent le formalisme lourd de RDF et d'OWL. Mais, si ces tags fonctionnent bien pour décrire, par exemple, des objets, ils pourraient ne pas être du tout adaptés à nombre de cas. La règle du ' ranking ', sur la base de la popularité, aboutit à ignorer les mots les plus rares. Dans le cas du tourisme, ' gîtes d'étape ' pourrait disparaître des réponses au profit d'' hôtels ', par exemple. Une certitude toutefois : chez les éditeurs, internautes ou laboratoires, le web sémantique émerge.

Si vous êtes pressé

Avec Nepomuk, l'Europe ajoute le web sémantique au poste de travail. Il faut comprendre ajout de mots connexes permettant de faciliter le partage des données à l'intérieur d'une communauté. Plus largement, les projets de recherche sémantique et d'ontologies sectorielles commencent à trouver des applications concrètes et adoptent tout ou partie des standards recommandés par le W3C. Outre-Atlantique, le modèle de del.icio.us fait la promotion d'une simple affectation de mots-clés, s'appuyant sur leur popularité, pour simplifier la création d'ontologies.

Standardisation des services web

Les services web se décomposent en une bibliothèque de classes pour la messagerie (Soap, TOM), un langage permettant de décrire les services (WSDL) et un langage de chorégraphie (WS-CDL). En parallèle, les différentes versions de RDF et d'OWL permettent d'ajouter du sens au document. L'appel à tous ces standards permet une communication entre serveurs.

Un poste de travail collaboratif : Stéphane Laurière (projet Nepomuk) : ' une première version du framework fin 2006 '

' Initiative indépendante du W3C, Nepomuk va être développé sur les postes de travail : c'est un moyen de diffuser plus facilement ces technologies. Tous les profils sont concernés. Il peut s'agir du chercheur souhaitant communiquer ses annotations à son équipe ou un utilisateur qui veut faire partager ses contacts ou ses favoris. Nous allons développer les API nécessaires : le développement est ouvert à toutes les contributions de développeurs, issus de KDE, Eclipse, Mozilla, etc. En complément des API, un premier éditeur de wikis est prévu dans lequel l'utilisateur pourra commenter ses textes. Une autre API de partage filtrera les accès à un commentaire particulier dans un texte, par exemple. L'indexation, le filtrage des accès et la visualisation respecteront les concepts RDF, mais utiliseront plutôt des balises wiki que XML. Un premier framework sera mis à disposition fin 2006. '

Dialoguer grâce à la sémantique : Fabrice Lacroix (Antidot) : ' sémantique et services web sont complémentaires '

' Les standards actuels sont suffisants pour donner du sens à tout contenu structuré ou non. Pour rappel, les premiers développements n'ont pas attendu la validation d'OWL pour ajouter des métadonnées à des documents non structurés. Les champs spécifiés par le Dublin Core Metadata Initiative sont suffisants. Mais, comme toujours, c'est la demande du marché qui va entraîner un développement de ce secteur. Un marché qui commence à exploiter les services web : la sémantique vient en complément des services métier. Grâce à l'assemblage des deux technologies, une question du type " mal au genou après un match de foot " posée sur un site médical pourra permettre à la fois de trouver la spécialité médicale (apport du sémantique) et dinterroger les disponibilités du praticien le plus proche, et de proposer un rendez-vous (services web). Un ensemble de résultats obtenus exclusivement à partir de communications entre machines. '

publicité
Nos partenaires