“ Vers l'indexation transversale des données multimédias ”
01 Informatique
le 10/12/2008 à 07h00
Sur quels aspects se concentrent les projets de recherche liés à la gestion de contenu ?
Gaelle Recourcé : En complément de fichiers bureautiques ou d'e-mails, la gestion de contenu commence à inclure des fichiers sonores, des images et des vidéos. L'une des questions centrales concerne l'accès à ces informations. Un accès qui passe par une indexation de chaque contenu. Un constat s'impose : à ce jour, décrire, à l'aide de descripteurs des fichiers, une conversation téléphonique, est difficile. Il est impossible de continuer à saisir à la main les métadonnées nécessaires ! Nombre de projets visent à formaliser des méthodes d'indexation automatique du contenu. Ainsi, le projet Callsurf a pour but de transcrire et d'indexer les dizaines de millions d'appels téléphoniques passés avec le centre de contacts d'EDF chaque année. L'indexation doit repérer les passages enregistrés, en rapport avec l'ouverture à la concurrence, par exemple.
Quelles sont les avancées à ce jour ?
GR : Les logiciels d'indexation du texte se sont nettement améliorés depuis quelques années. Surtout si l'on se restreint à un domaine. Cette indexation automatisée ou semi-automatisée permet de croiser les recherches basées sur les métadonnées classiques avec des recherches capables de trouver des documents proches sémantiquement. Autre déclinaison, l'indexation aide à créer des résumés. Ces derniers constituent un autre point d'entrée. Quelques initiatives sont à noter, comme celle des labos de Reuters, Labs.reuters.com, qui indexe vidéos et textes simultanément.
Quelles sont les difficultés ou blocages ?
GR : En dehors du passage par des métadonnées classiques, aucune passerelle n'existe entre les index propres à chaque type de fichier texte, audio et vidéo. Lorsque vous posez une question à un moteur de recherche, celui-ci la traduit pour chaque index et interroge successivement les différents médias. A ce jour, tout tourne autour de la fusion d'ontologies. Autoriser une recherche unique capable de ramener des données de tout support suppose de créer un index transversal. Nul doute que le prochain défi sera de développer une couche d'indexation transversale.