1 Introduction

Avec la gestion électronique des documents en plus en plus généralisée dans les entreprises, les documents sont centralisés, et partagés entre différentes parties.

Les documents sont en général scannés en PDF. De plus en plus de scanneurs font la reconnaissance de caractères. Mais ce n’est pas le cas pour tous.

Pour l’automatisation de certaines tâches, on pourrait dans un premier temps extraire les données textuelles dans les fichiers PDF.

2 OCR des images

L’image suivante est une capture d’écran avec une qualité moyenne.

On peut utiliser R pour extraire le contenu textuel.

## [1] "Reconnalssance opthue de caracteres\n\nLa mnnzussanee apllque de camfires moo), en znglals upncalonalam‘el Ieoognman 10cm, on ooénsanan, de'slgne\nIes procéde's Inlormzllques pour la Irzducmn d'lnges de Iexles Impnmés on dzaylogrzpmés en mueus de Iexle\n\nUn ordlnzleur réclame pour rexécumn de celle fiche un Iogmel d'OCR Celm—cl permel de récupérer Ie lexle dzns nnge\nd'un Iexle Impnmé el de Ie sauvegzrder dzns un flcmer pouvznl élre exploné dzns un lranemem Ge lexle pour\nenrlcnlsemem, el slocké dzns we base de données ou sur un zulre supporl exploitable par un sysléme Inlormzllque\n\n"

Avec une qualité meilleure, la performance est aussi meilleure.

## [1] ". . \\\nReconnalssance opthue de caracteres\nLa reconnaissance optique de caractéres (ROC), en anglais optical character recognition (OCR), ou océrisation,\ndésigne les procédés informatiques pour la traduction d'images de textes imprimés ou dactylographiés en fichiers de\ntexte.\nUn ordinateur réclame pour l‘exécution de cette téche un logiciel d'OCR. Celui-ci permet de récupérer le texte dans\nl‘image d'un texte imprimé et de le sauvegarder dans un fichier pouvant étre exploité dans un traitement de texte pour\nenrichissement, et stocké dans une base de données ou sur un autre support exploitable par un systéme informatique.\n\n"

La reconnaissance n’est pas parfaite. L’étape suivante consiste à nettoyer le fichier. Selon les objectifs différentes méthodes peuvent être adoptées.

3 OCR des PDF

On peut d’abord transformer les fichiers en image, puis procéder à la reconnaissance de caractères.

Copyright © 2016 Blog de Kezhan Shi