Actualités Emploi Start-up Avis d'expert Vidéos Indicateurs Distribution Telecharger Pro Livres blancs

L'OCR étend sa zone de reconnaissance

Banalisées, les technologies de reconnaissance de caractères montent en gamme pour flirter avec la gestion de documents et la mobilité. Tour d'horizon des innovations récentes et à venir.
envoyer
par mail
imprimer
l'article
partager sur Viadeo
partager sur Facebook
partager sur LinkedIn
partager sur Scoopeo
partager sur Technorati
partager sur Digg
partager sur Delicious
partager sur Google
partager sur Myspace
partager sur Yahoo!

OCR pour Optical Character Recognition. Trois lettres devenues tellement communes qu'on les a presque oubliées. Le particulier trouve actuellement des logiciels de reconnaissance de caractères en open source, quand ils ne sont pas livrés d'office, en licence OEM, avec un scanner ou un multifonction. En entreprise, la nouvelle génération de copieurs apporte directement les fichiers “ OCRisés ” sur le poste de travail via le réseau local. Quant à la performance, les marges de progrès sont limitées. Le taux de reconnaissance des caractères dactylographiés ou manuscrits bâtons (sans empattement) approche la perfection sur les documents structurés tels que les formulaires et les bons de commande.

Les recherches se portent donc sur la reconnaissance d'écritures tels l'arabe ou le farsi, ou sur la réduction du bruit (parasitage) sur certains documents – caractères mal formés, fond jaunâtre, feuille pelure d'oignon… Marché de niche, la reconnaissance de l'écriture cursive progresse lentement et n'accapare l'attention que de spécialistes tels les Français A2iA ou Itesoft (lire p. 34 à 37 du n  1914 de 01 Informatique). Pour résister à la banalisation de l'OCR, les éditeurs généralistes – se comptant sur les doigts de la main – tentent, surtout, de monter dans les couches hautes de la gestion de contenu, en s'attelant à l'archivage ou au cycle de vie du document.

La prise en charge de nouveaux formats

Directement intégrées dans la suite Office 2007, les dernières solutions de numérisation assurent la conversion sous les nouveaux formats bureautiques de Microsoft (docx, xlsx et pptx). Elles prennent aussi en charge XPS (XML Paper Specification), le concurrent de PDF promu par l'éditeur de Redmond. Le standard le plus en vue reste toutefois le PDF/A. Répondant à la norme ISO 19005, ce PDF Archive construit sur la version 1.4 du PDF présente suffisamment d'atouts pour en faire un chouchou des éditeurs. “ Au-delà de la conformité aux contraintes réglementaires, le PDF/A offre une recherche plein texte mais aussi une représentation structurée du document par signets, index et table des matières ”, estime Urban Zoltan, directeur du développement technologique chez Nuance. Le PDF/A offre également une compression efficace des couleurs. Sur ce terrain de la compression, les éditeurs s'en donnent à cœur joie. Nuance utilise la technologie PDF MRC (Mixed Raster Content) qui peut réduire jusqu'à huit fois la taille d'un document PDF tout en respectant le standard de format de fichiers propre à Adobe. Dévolue aux documents comportant des fonds ou des images en niveaux de gris ou en couleur, cette technologie vise à obtenir le meilleur compromis entre qualité des images et taille des fichiers générés.

De son côté, Iris a lancé, il y a un an, sa propre technologie de compression baptisée iHQC (Intelligent High Quality Compression). En proposant des fichiers couleur indexables, PDF ou XPS, dont “ la taille est inférieure à celle des images compressées en noir et blanc ”, l'éditeur belge vise à démocratiser l'archivage couleur. “ Beaucoup d'entreprises freinent la numérisation couleur en raison des coûts de stockage, observe Jean-Pierre Ksenicz, chef de projet R&D chez Iris. Pourtant, dans certaines activités, le document doit être identique à l'original pour sa conservation légale. La couleur véhicule aussi des informations importantes comme un cachet rouge ou une signature. Enfin, cela permet de récupérer les couleurs aveugles du fond du document comme l'orange ou le rouge. ” L'iHQC, qui a fait l'objet d'un dépôt de marque, décompose les différentes couches d'un document en distinguant le texte du fond pour le recomposer ensuite. “ On compresse séparément le texte, fortement, et l'image, faiblement. ”

Bientôt la numérisation depuis un mobile

L'enregistrement d'un document OCrisé offre, en aval, une exploitation du texte et, notamment, une recherche par mots-clés. Les nouveaux logiciels vont plus loin. Avec PDF Converter Professionnal 5 de Nuance, ou Powerscan d'Iris, par exemple, il est possible de transformer un formulaire papier en formulaire PDF actif “ prêt à l'emploi ”. Une fois le document numérisé, le moteur OCR en extrait les champs de saisie ou les cases à cocher. Aide à la révision, PDF Converter Professionnal 5 détecte de façon visuelle (par annotation, surlignage…) les différences entre deux versions d'un document. Il peut également assurer la confidentialité des données en occultant des parties de texte – comme le nom de la société, la prévision du chiffre d'affaires… – en fonction du profil utilisateur et des règles à appliquer. Une protection qui revêt son importance pour les documents légaux ou confidentiels.

Un téléphone mobile muni d'une fonction appareil photo de bonne facture – au moins un million de pixels de résolution –, peut désormais faire office de scanner. Dans un proche avenir, il sera possible d'envoyer l'image capturée en Jpeg à un serveur distant où sera déportée l'application d'OCR. Le fichier sera renvoyé quelques dizaines de secondes après par SMS ou courriel sous la forme d'un fichier texte ou de document PDF. Couplée à des fonctions de géolocalisation ou de traduction automatique, cette numérisation nomade présente de belles perspectives. “ A l'étranger, vous pourrez photographier un panneau routier ou faire traduire un menu dans un restaurant ”, se réjouit Robert Weideman, vice-président marketing Emea de Nuance.

Jean-Pierre Ksenicz prédit, lui, l'OCR embarqué quand les terminaux mobiles disposeront de suffisamment de puissance de calcul pour un traitement local. Abbyy a, d'ores et déjà, développé une application spécifique pour la gamme Nseries de Nokia. “ Elle permet de lire des cartes de visite et d'exporter les données dans le carnet d'adresses du téléphone ”, explique Jupp Stoepetie, directeur Europe de l'éditeur russe.

En attendant que ce type de fonction se généralise, Omnipage 16, de Nuance, ou Finereader 9, d'Abbyy, assurent la prise en charge de documents capturés par des appareils photos numériques. ScanR propose, de son côté, un service comparable depuis son site internet pour archiver des cartes de visite, des documents dactylographiés ou des mémos manuscrits. A la différence d'une numérisation à plat d'un document papier, la capture de la photographie est en trois dimensions. Elle exige un certain nombre de redressements de lignes et de corrections d'angles afin d'éliminer les distorsions de l'image. Pas de grand angle non plus, si bien qu'il est difficile d'embrasser l'intégralité d'un grand article de journal par exemple : “ Vous devrez prendre plusieurs photos et, ensuite, le système reconstituera l'ensemble ”, explique Robert Weideman.

On assiste enfin à une convergence entre l'OCR et les technologies de reconnaissance et de synthèse vocales. En couplant les deux, un texte numérisé peut être “ lu ” et sauvegardé en fichier .wav ou .mp3. Cela peut rendre service à des travailleurs nomades, mais aussi aux aveugles ou malvoyants.

La convergence de la voix et du texte

La structuration bien particulière des documents PDF rend toutefois cette conversion plus difficile. Un écueil qu'a réussi à surmonter Plustek avec son Bookreader (lire ci-dessus). Il “ lit ” à voix haute les textes numérisés ou les fichiers reçus, PDF compris. Editeur de Dragon Naturallyspeaking, Nuance travaille aussi sur l'indexation et la recherche des documents audio-vidéo. Au-delà des caractéristiques “ date, auteur, sujet ”, il s'agirait, après reconnaissance vocale, de générer un fichier de type Word ou PDF qui reprendrait le contenu des enregistrements sous forme de minutes horodatées. “ Nous rencontrons les mêmes difficultés qu'avec le document papier il y a quelques années ”, note Robert Weideman. Une diversification d'activités qui offre de belles perspectives.

De nouvelles applications rendues possibles

agrandir la photo

1 - Acquisition : un téléphone mobile muni d'une fonction appareil photo de bonne résolution – au moins un million de pixels – capture le document.

2 - Traitement : l'image est envoyée vers un serveur distant où est déportée l'application d'OCR. Le moteur effectue un certain nombre de redressements de lignes et de corrections d'angles pour éliminer les distorsions de l'image.

3 - Restitution : le fichier est renvoyé quelques dizaines de secondes après par SMS ou courriel sous forme de fichier texte ou de document PDF.

1 - Mode révision : un moteur d'OCR permet de détecter les différences entre deux versions d'un document et de les indiquer de façon visuelle (surlignage, raturage…).

2 - Mode protection : il peut également assurer la confidentialité des données en éliminant des informations sensibles (noms et chiffres particuliers). Ces tâches sont définies selon des règles à appliquer notamment en fonction du profil utilisateur.

Des scanners qui innovent

Sur le Xambox de Xamance, les documents (tout format) scannés sont placés séquentiellement dans un bac, séparés éventuellement par des intercalaires. Intégrant des outils d'OCR (dont Abbyy Reader 8.0) et d'indexation, le Xambox identifie les documents, répertorie les données et les sauvegarde en local ou en réseau. Une recherche par mots-clés renvoie les documents numérisés ainsi que la position physique de l'archive papier.

Le Bookreader de Plustek combine les fonctions d'un scanner, adapté aux livres brochés, à celles d'un logiciel de reconnaissance optique de caractères et d'un logiciel de synthèse vocale. Il suffit de placer le document à plat pour que l'appareil “ lise ” le texte. Les documents sont sauvegardés sous forme texte ou sonore (.wav ou .mp3). Destinée aux malvoyants, cette solution permet aussi de se faire épeler un mot, de réécouter une phrase ou de se faire lire un PDF.

L'avis d'un intégrateur : Ludovic Delobel, dirigeant d'Idea7

Société spécialisée dans la gestion documentaire, elle intègre notamment les solutions d'Iris

“ La lecture automatique de documents n'est pas entrée dans les mœurs ”

“ Les petites sociétés n'ont pas systématiquement les moyens humains dédiés. Et les grandes ont le choix d'“ offshoriser ” la dématérialisation. Les PDF qui reviennent d'Inde ou du Maroc sont d'une qualité de reconnaissance et d'exploitation tout à fait acceptables. ”

“ L'OCR a pourtant fait d'importants progrès ”

“ Si l'on mélange documents structurés et non structurés, les taux de reconnaissance atteignent 85 % et plus. Pour autant, de nombreuses sociétés continuent à numériser leurs documents sous forme d'images sans en exploiter le contenu. Je dois leur rappeler qu'elles peuvent faire du PDF full text avec une base de données associée. ”

“ Le discours marketing sur les innovations technologiques a peu d'écho ”

“ Nos interlocuteurs connaissent les nouveaux formats PDF/A ou XPS, mais ils ne les utilisent pas encore. Nous en sommes plus au stade de présenter l'intérêt l'économique de la dématérialisation qu'à parler flux XML. Le taux de compression des fichiers ne les concerne pas. En effet, la numérisation répond souvent pour eux à des contraintes réglementaires (sécurisation des documents en cas d'incendie, par exemple) et l'archivage est souvent alors réalisé par des sociétés tierces. ”

publicité
à lire aussi
SUR LES MÊMES THÈMES
Foire d'empoigne dans le monde du graphisme
Dect résistera-t-il à la voix sur Wi-Fi ?
Renforcer les contrôles d'accès aux SI
Michèle Hyron (Atos Origin) : “ nous prévoyons 200 000 heures de tests pour parer à l'imprévu ”
“ Ces DSI frileux qui vont dans le mur ”
“ Oui à un antivirus gratuit intégré à Windows ”…
Guillaume Gorge (SFR) : “ nous voulions éviter au maximum les développements spécifiques ”
La RATP remet sa GRH sur les rails
Le journal de l'année 2008
“ Les ingénieurs ne sont pas austères, ils sont artistes ”
Bruno Ménard (Cigref, Sanofi-Aventis) : “ le terreau de la création de valeur est l'excellence opérationnelle ”
Les DSI de l'année 2008
Cloud Computing : quelques services, beaucoup de promesses
Laissez-vous tenter par les mashups
“ Mais où sont les services de la 4G ? ”
Samuel Hurtrel (AG2R) : “ nos services bénéficient d'une boucle haut débit Paris-Lille-Chartres ”
Comment l'Europe peut reconquérir son logiciel
Le recrutement sous surveillance en 2009
La gestion de contenu interagit enfin avec le SI
01Informatique
01 INFORMATIQUE
L'hebdo de référence des décideurs informatiques.
Micro Hebdo
MICRO HEBDO
L'hebdo qui vous simplifie la micro
et Internet.
L'Ordinateur Individuel
L'ORDINATEUR INDIVIDUEL
Le mensuel informatique qui vous informe et vous conseille.
Tous droits réservés © 1999 - 2009 Internext - 01net.