![]() |
Emploi
|
![]() |
Start-up
|
![]() |
Evénements 01 | ![]() |
Avis d'expert | ![]() |
Vidéos | ![]() |
Indicateurs
|
![]() |
Distribution
|
![]() |
Telecharger Pro
|
![]() |
Livres blancs | |||||||||||||||||||||












Les nouvelles technologies délient les langues. Si la tour de Babel n'est pas près de s'écrouler, les éditeurs de reconnaissance vocale, de traduction automatique, ou de LAD tentent de reproduire les subtilités du langage. La loi de Moore leur accorde une puissance de calcul toujours plus importante pour faire tourner leurs algorithmes, et les résultats obtenus sont de moins en moins surréalistes.
Dans cette grande famille du traitement automatique des langues (TAL), les travaux se croisent, et l'on assiste à des unions qui n'ont rien de contre-nature. A l'image de Mastor, le “ traducteur de la parole ” d'IBM, ou du stylo scanner d'Iris, qui numérise, traduit, et “ parle ”.
Rendre accessibles des millions de pages Web négligées pour la seule barrière de la langue : le défi ne pouvait que susciter l'intérêt de Google. En mai dernier, dans le sillage de Yahoo!, le moteur de recherche lançait Translate.google.com. Avec ce service, les internautes traduisent non seulement des textes ou des pages URL en 11 langues, mais effectuent aussi des recherches dans leur langue maternelle. Prochaine étape : la traduction à la volée et en temps réel pour obtenir un véritable “ Babel Web ”.
L'américain se penche depuis quatre ans sur le cas de la traduction automatique. Fidèle à sa philosophie, Google l'aborde sous l'angle statistique. Le moteur lance sur la Toile ses robots pour débusquer les traductions de référence sur les sites de l'ONU ou de l'OMC, puis il établit des correspondances. Selon quelles probabilités cet ensemble de signes correspond-il à une traduction déjà opérée par un professionnel ? Ne reste plus, dès lors “ qu'à ” modéliser et indexer la multitude d'expressions linguisitiques. Cela sur le principe des jeux d'échecs électroniques mémorisant toutes les parties des grands maîtres.
“ Cette approche fonctionne bien dans un contexte fermé, sur les langues orientales et russe ”, convient Pierre Bernassau, directeur marketing de Systran. De fait, Google arrive en tête du benchmark effectué par le Nist, une agence gouvernementale américaine, pour l'arabe et le chinois. En revanche, pour les langues européennes, riches en ambiguïtés, il s'appuie sur le moteur de Systran.
Comme @Prompt, son rival russe, celui-ci combine statistique et linguistique. “ Une langue a des règles, rappelle Pierre Bernassau. Une phrase se décompose en blocs sujet/verbe/complément et est soumise à des déclinaisons. Chez nous, le professionnel de la langue a le dernier mot. ” L'éditeur français emploie une trentaine de linguistes.
Sans renier cette approche, Systran muscle ses algorithmes. Pour la version 7 de son moteur, qui pourrait être commercialisée en 2008, il ajoutera une couche statistique en aval de la traduction machine afin d'apporter du “ liant ”. Par activation de mémoires de traduction, la solution comparera la phase générée à des traductions déjà validées.
Dans le domaine de la reconnaissance vocale, Google secoue aussi le Landerneau. Depuis avril, le moteur expérimente un service s'apparentant aux Pages jaunes sur téléphone mobile. L'intéressé compose le 1-800-Goog-411, et émet à haute voix sa requête – “ Giovanni's Pizzeria New York ”, par exemple. Google Voice Local Search le met en contact – sans commissionnement – ou lui envoie un SMS avec le détail des renseignements. Pour l'heure, le service n'est disponible qu'en anglais et sur le sol américain.
Si Google est un nouveau venu sur le créneau, IBM et Microsoft l'ont investi depuis longtemps. Microsoft a poussé la banalisation jusqu'à intégrer sa technologie dans Vista pour le pilotage de Windows et la dictée vocale. Il est en concurrence avec des produits sur étagère, comme Dragon Naturally Speaking, de Nuance. La firme de Redmond devrait pousser l'avantage en intégrant la technologie de Tellme, spécialiste des services vocaux au téléphone racheté en mars.
Sur la partie serveurs vocaux (SVI), le prochain défi sera de passer du multiword-spotting – le moteur repère et isole plusieurs mots-clés dans la phrase prononcée – à une reconnaissance en langage naturel. Un mode d'interaction moins contraignant, dans lequel l'appelant est invité à s'exprimer librement.
Ce qui autorise des dialogues moins mécaniques. A la manière d'un opérateur, le portail vocal démarre par une question ouverte, de type “ En quoi puis-je vous aider ? ”. Derrière, le dialogue déroule au moins une quinzaine de catégories de routage possibles – du problème technique au changement d'adresse, en passant par l'abonnement à un nouveau service. Seuls une dizaine de sites dans le monde – aucun en France – peuvent s'en prévaloir.
Derrière ce progrès, la technologie VoiceXML. Audépart, cet esperanto des serveurs vocaux analysait les mots-clés sans second choix possible. Aujourd'hui, il propose une interprétation sémantique des expressions reconnues. Celles-ci étant au préalable qualifiées par des balises de grammaire SRGS.
“ Tout l'enjeu consiste à gérer les anticipations dans un dialogue, analyse Patrice Vielpeau, directeur commercial de l'activité Network Speech de Nuance. Un locuteur délivre spontanément des informations supplémentaires, qu'il faut intégrer. Par exemple, un client d'un voyagiste dira : “Je pars mardi, et rentre vendredi”. ” Nuance préfère parler de human touch plutôt que de dialogue naturel, “ concept fourre-tout ”. L'éditeur travaille à rendre la conversation plus ouverte. Quitte à demander au locuteur de confirmer une sous-partie du dialogue. Un moyen d'amadouer les 5 % d'irréductibles réfractaires aux serveurs vocaux ?
Dans la lecture automatique de documents, un grand chantier accapare les éditeurs : la reconnaissance de l'écriture cursive. Après les chèques et les pavés adresses des enveloppes ne nécessitant qu'un vocabulaire restreint, la LAD ouvre aujourd'hui le courrier et “ lit ” les lettres manuscrites. Itesoft ou A2iA ont récemment commercialisé une offre dans ce sens. Son but : dématérialiser le service courrier par tri automatique de l'ensemble du courrier entrant.
Pour Jean-Luc Berry, directeur R&D d'Itesoft, “ nous sommes définitivement passés dans l'ère du cursif ”. Tout l'enjeu consiste à trouver sur la page les mots ou les chiffres discriminants. La structuration peut être connue à l'avance, comme la suite de caractères numériques d'un numéro de sécurité sociale. Le moteur d'ICR/IDR segmente le texte en blocs de mots ou de lettres en détectant les points d'inflexion ou les boucles des liés et déliés, et en mesurant les espaces séparant les signes. Si le système bute sur une lettre ou un mot mal formé, il va attribuer des scores de confiance sur une liste de formes candidates.
Extraire le bon contenu ne suffit pas ; il faut le comprendre. S'appuyant sur des algorithmes et des réseaux neuronaux, l'approche statistique consiste à classer les mots-clés d'une même classe de documents par ordre de fréquence. “ Plus descriptive, l'approche linguistique entre dans le texte, et décortique les règles ”, explique Vincent Poulain d'Andecy, responsable du département technologies d'Itesoft. Le texte commence par “ Madame, Monsieur ” et se termine par une phrase de salutations : nous sommes bien en présence d'un courrier. Mais que penser d'une phrase ambiguë, contenant des idées contraires, comme : “ Je suis très mécontente du service, mais ne souhaite pas résilier ” ?
Au-delà du cursif, les équipes de R&D ont du pain sur la planche. Itesoft entend s'ouvrir à d'autres supports que le papier pour faire converger les flux EDI, XML ou e-mail. Il commence aussi à s'intéresser à l'audio et à la vidéo. “ La reconnaissance faciale et la reconnaissance de formes liée à la signature ou à l'écriture présentent des points communs évidents ”, estime Jean-Luc Berry. De la même manière qu'un CV papier correspond à une feuille de style, un CV vidéo peut être “ interprété ”.
De son côté, Olivier Baret, DG et directeur de la R&D d'A2iA, réfléchit à “ un apprentissage continu du système pour qu'il puisse s'adapter aux évolutions de formes des documents, sans nécessairement passer par la case modélisation ”. A2iA travaille aussi sur la reconnaissance de langues non latines, comme l'arabe pour la lecture de chèques et d'enveloppes.
Dernière strate dans le traitement automatique des langues, l'analyse sémantique donne du sens à l'information brute. Elle intervient en amont ou en aval des technologies précitées. Dans ce cadre, la reconnaissance vocale offre aux spécialistes du textmining une source supplémentaire. Au-delà de l'écrit glané dans la presse ou sur le Web, elle l'autorise à capter ce qui se dit dans les émissions de radio, les journaux télévisés, voire les centres d'appel. A la condition, toutefois, qu'il n'y ait qu'un seul interlocuteur, ou deux au plus. Au-delà, les solutions deviennent incapables, au sein d'un débat, d'assigner un texte à une voix.
A l'inverse, la traduction automatique intervient en aval. “ Dévoreuse de ressources, la traduction au kilomètre limiterait la capacité de lecture, constate Gilles Pouzenc, directeur général de Temis. Nous brassons de gros volumes pour extraire l'information pertinente, les 20 lignes sur les 50 pages d'un brevet qui font sens. Ce n'est qu'une fois le document identifié qu'il est, le cas échéant, traduit. ” Mais les demandes restent ponctuelles. “ Qu'il s'agisse de veille économique, d'analyse de CV, ou de brevets, nos clients veulent que la langue d'origine soit précise. ”
“ Nos outils d'interrogation multilingues donnent la possibilité de formuler une requête dans sa langue maternelle pour interroger des bases de données dans d'autres langues ”, complète Hugues de Mazancourt, directeur R&D de Lingway. Là encore, les spécialistes du textmining combinent statistique et linguistique. Les filtres statistiques autorisent à établir une première extraction poursuivie par l'analyse linguistique. Et à ce jeu de la double compétence mathématiques-linguistique, l'Europe – et la France en particulier, dispose de très bons profils, formés dans des écoles de renom. Un atout face aux géants américains.
1. La reconnaissance vocale
Le logiciel Multilingual Automatic Speech to Speech, d'IBM, est un “ traducteur de la parole ”. Depuis un PDA, une tablette PC, ou un ordinateur portable, il autorise deux étrangers à converser dans leur langue d'origine. L'orateur dicte sa phrase au microphone. Par reconnaissance vocale, Mastor transcrit les propos tenus dans l'interface commune aux deux locuteurs. Le locuteur valide le texte s'il est correct.
2. La traduction automatique
Le module de traduction automatique prend le relais. Analyse syntaxique et sémantique, puis génération dans la langue cible en retenant les inflexions appropriées (pluriel, forme conjuguée, etc.). Les différentes hypothèses sont filtrées par approche statistique.
3. La synthèse vocale
La phrase traduite apparaît dans un champ de la fenêtre. Une voix de synthèse la prononce à travers les haut-parleurs.
Cursif
Ecriture manuscrite attachée tracée à “ la main courante ”. Par opposition à l'écriture en bâtons, qui détache chaque lettre, comme le font les élèves de CP.
ICR/IDR
(Intelligent Character Recognition/Intelligent Document Recognition)
Elles s'attachent respectivement à identifier et à lire des lettres ou des chiffres manuscrits dans des contextes a priori contraints (chèques, pavés adresses, formulaires, etc.). Plus récent, l'acronyme IWR (Intelligent Word Recognition) renvoie à l'extraction de mots entiers dans des documents non structurés tels que le courrier libre manuscrit.
SRGS
(Speech Recognition Grammar Specification)
Spécification qui suit les recommandations du W3C. En complément de VoiceXML, la SGRS est utilisée par les développeurs pour décrire les choix possibles des locuteurs en réponse à des annonces vocales.
VoiceXML
Ce standard du W3C offre la possibilité de développer des dialogues à partir de voix synthétisées, de la reconnaissance de parole, ou des fréquences vocales (DTMF). La version 2.1 devrait obtenir le statut de recommandation d'ici à la fin de l'année.
L'Irispen Translator Executive de l'éditeur belge d'OCR Iris est un stylo scanner USB qui numérise le texte en langue étrangère, puis le traduit. Il prend aussi en compte la reconnaissance des chiffres manuscrits. Un logiciel de synthèse vocale relit à la fois le texte numérisé et le texte traduit. Pour la partie traduction automatique, Iris fait appel à l'éditeur russe @Prompt. L'Irispen reconnaît jusqu'à 55 langues.
“ On assiste à une montée en puissance des outils statistiques ”
“ Ils donnent des résultats globalement satisfaisants, et ces outils statistiques conviennent à un large public. Un théoricien comme moi est un peu gêné par ce type de méthode. Il faut jouer la transparence, et l'utilisateur doit être averti : une traduction automatique est imparfaite. C'est comme la météo, dont on suit les bulletins tout en sachant qu'elle se trompe parfois. Or, le marketing tend à faire croire qu'il s'agit d'outils parfaits. Le grand public en attend des miracles. ”
“ L'autre école consiste à faire travailler de concert linguistes et informaticiens ”
“ La cohabitation se passe bien. Personnellement, j'ai d'abord réalisé une partie de ma carrière dans l'informatique avant de devenir linguiste. D'autres ont effectué le parcours inverse. Par définition, le traitement automatique des langues (TAL) évolue dans l'approximation. Ce hiatus entre la réalité humaine et sa modélisation mathématique est inhérent au domaine, et rend les travaux passionnants. La machine, rigide, ne fait qu'approcher le comportement langagier. Un humain peut ne pas respecter les règles, la machine non. ”
















