OCR : tout sur la reconnaissance optique de caractères

Un logiciel de reconnaissance de texte est aujourd'hui incontournable dans les outils de travaux journaliers. Cela concerne par exemple Drive ou Adobe Acrobat.  Un des plus connus au monde est l'OCR ou « Reconnaissance optique de caractères. » Extrêmement original, ce logiciel tient un rôle essentiel depuis bien des décennies.

Mais qu'est-ce que la reconnaissance optique de caractères (OCR)

La reconnaissance optique de caractères ou OCR est une technologie « image-texte ». Elle aide les utilisateurs à extraire du texte venant d'images ou de documents numérisés. Cela dit, c'est un logiciel qui permet de reconnaître et de traduire une image en texte. OCR sert donc à reconnaître les lettres, les mots, les éléments de ligne, les phrases ainsi que les modèles. Par conséquent, le temps qui est consacré aux processus manuels de documents est véritablement réduit.

L'OCR est alors très utile quand les données doivent être traitées ultérieurement. Cela concerne par exemple la comptabilité ou la gestion des dépenses. Dans d'autres cas aussi, pour les campagnes de marketing de fidélisation ou la vérification d'identité.

Très souvent, les solutions OCR sont associées à l'IA (intelligence artificielle) et le ML (apprentissage automatique). C'est notamment dans le but d'automatiser certains processus et d'augmenter la précision de l'extraction des données.

Qui a inventé la reconnaissance optique de caractères (OCR)?

Gustav Tauschek, un ingénieur autrichien autodidacte avec plus de 200 brevets et inventions à son nom, a créé l'OCR. Celui-ci l'a notamment breveté en Allemagne en 1929. Ensuite, Paul Handel l'a également breveté en 1933 avant que Tauschek le fasse une deuxième fois en Etats-Unis en 1935.

Bref historique de la reconnaissance optique de caractères

Au fait, les premières formes d'images OCR en texte apparaissaient aux années 1800. Elles étaient pour cela consacrées aux aveugles, en vue de les aider à lire. Ensuite, en 1970, l'inventeur américain Ray Kurzweil a créé Kurzweil Computer Products Inc. La société s'est inspirée de l'appareil de Gustav Tauschek pour créer son logiciel OCR omni-police. Ce dernier a remarquablement reconnu  toute police de texte. Tauschek avait pour mission de créer un logiciel pour transformer des images en texte avec précision et efficacité. Alors, l'ingénieur l'a utilisé principalement dans ses machines à calculer à base de cartes perforées. C'est à partir de là que Tauschek a inventé sa machine à lire. C'est un appareil mécanique capable de lire des caractères et des chiffres sur une image. Et puis, de les transformer en caractères et chiffres imprimés sur une feuille de papier. Bien que plusieurs personnes avant Tauschek aient proposé des formes similaires, ce dernier reste le premier à le retirer de la page. Il est également le premier à transformer cette invention technologique en un appareil du monde réel avec sa machine à lire.

OCR : Evolution et importance

Suite à la création Tauschek, de nombreux autres inventeurs et ingénieurs ont pris l'idée pour en créer toutes sortes de nouvelles technologies. L'OCR a alors notablement évolué au cours des années. En  1931 par exemple, la reconnaissance optique des caractères était la base de la création d'un appareil texte-télégraphe. Celui-ci a évolué en 1951 en un appareil de texte en code Morse. Ensuite, en 1966, l'appareil venait jusqu'à lire l'écriture manuscrite et la transformer en texte. Elle a toujours continué sa route. C'est en 1978 que l'OCR Omni-font de Ray Kurzweil a vu le jour.

Puis, dans les années 80, la reconnaissance optique des caractères a tenu une place considérable. Des lecteurs  de codes-barres dans les magasins de détail et des machines Xerox dans les bureaux et les écoles. Et en ce jour, il existe des versions en ligne gratuites de logiciels OCR. Google Drive et Adobe Acrobat en offrent. Celles-ci fonctionnent dans plus de 200 langues différentes avec précision et clarté.

Comment fonctionne la reconnaissance optique de caractères (OCR) ?

L'OCR fait correspondre le texte d'une image avec la base de données numérique de lettres et de chiffres correspondants. Ensuite, elle le réimprime ou l'archive plus clairement, plus nettement et avec beaucoup plus de précision. C'est un peu comme la capacité humaine à lire un texte et à reconnaître des modèles et des caractères. Mais pour cette fois, la qualité est meilleure et le processus plus court. Cependant, il y a quelques étapes à suivre.

Étape 1 : Prétraitement de l'image

La première chose à faire est d'améliorer la qualité de l'image. Ce, pour que la sortie des données soit bien précise. Le moteur OCR recherche donc les erreurs et les problèmes et les corrige. Quatre techniques sont les plus utilisées pour la réalisation de cette étape. Ce sont notamment, DE-skew, Binarisation, Zonage et Normalisation. La première redresse et corrige l'angle de la photo. La Binarisation consiste à convertir l'image en noir et blanc. Elle permet de séparer plus précisément le texte de l'arrière-plan. Quant au « Zonage », il sert à identifier les colonnes, les lignes, les blocs, les légendes, les paragraphes, les tableaux et d'autres éléments. C'est ce qui lui confère son autre appellation d'analyse de la mise en page. Et enfin, la normalisation est un processus de réduction de bruit. Pour ce faire, il ajuste la valeur d'intensité des pixels aux valeurs moyennes des pixels environnants.

Etape 2 : Segmentation

La deuxième étape est la segmentation. C'est un processus pour reconnaître toute une ligne de texte à la fois. Elle est composée de deux étapes. La première est la détection de mots et de lignes de texte. Elle identifie les lignes et les mots qui leur appartiennent. La seconde est la reconnaissance de script. Elle identifie, quant à elle, le script basé sur des documents, des pages, des lignes de texte, des paragraphes, des mots et des caractères.

Etape 3 : reconnaissance des caractères

La troisième étape est la reconnaissance des caractères. L'image ou le document est décomposé en parties, sections ou zones. Ensuite, les caractères que chacun d'eux contient sont reconnus. Pour cela, il existe deux approches. La première est la correspondance matricielle, comparant les caractères à une bibliothèque de matrices de caractères. Puis, il y a la reconnaissance de caractéristiques, effectuée à partir d'images.  La forme, la hauteur ou la taille d'un caractère sont comparés à celles de la bibliothèque existante.

Etape 4 : Post-traitement de la sortie

La quatrième et dernière étape est le post-traitement de la sortie. Elle englobe les techniques pour avoir un résultat bien précis. Les données sont tout d'abord détectées. Ensuite, elles sont corrigées si besoin est. Puis, les données extraites sont vérifiées grammaticalement en les comparants à une bibliothèque de caractères.

Quelles sont les limites de l'OCR basé sur un modèle ?

En effet, même si l'OCR est bien avantageux, elle représente tout de même des limites. Comme expliqué précédemment, l'OCR traditionnel a été conçu exprès pour les aveugles. Cela dit, elle ne s'est jamais posée comme une solution d'extraction de données dynamiques. Voici alors ces 5 principales limites.

L'OCR dépend de la qualité d'entrée

La qualité du texte obtenu dépend principalement de la qualité de l'image entrée. Cela dit, il s'agit de l'image transmise au moteur. A titre d'exemple, une image avec des hauteurs de caractères inférieurs à 20 pixels ne pourrait en aucun cas extraire un texte très précis.

L'OCR dépend des modèles et des règles

Pour bien fonctionner, OCR requiert des modèles et des règles. Les données des champs et des lignes appropriées s'obtiennent seulement à partir de règles strictes programmées au moteur. De ce fait, elle ne peut pas faire face à la diversité des documents.

Manque d'automatisation

Cette limite est directement rattachée aux deux autres. La grande dépendance du logiciel OCR traditionnel aux modèles et aux règles la prive de beaucoup de possibilités d'automatisation. Voici l'exemple le plus près, lors de l'extraction des données structurées des factures. Pour cela, chaque champ de données spécifique nécessite une nouvelle règle. Or, il existe de nombreux styles et formats de factures. En conséquence, il y a aussi plusieurs règles.

Cela dit, plus il y a de règles, plus il y aura des données et ressources indispensables à la formation du moteur. Alors, un énorme goulot d'étranglement risque de s'imposer.

L'OCR est coûteuse

Un maximum de précision implique le développement de plus en plus de règles et d'algorithmes. Par conséquent, l'OCR traditionnel peut devenir très coûteux.

D'ailleurs, ces règles et algorithmes ne garantissent même pas en totalité une sortie de haute qualité. Cette dernière dépend amplement de la qualité d'entrée de l'image.

Elle résiste mal à une grande variété de documents

L'extraction de données est facile pour OCR quand il s'agit de documents simples et avec peu de variations. Cependant, quand c'est le cas des entreprises qui doivent traiter divers documents, elle devient compliquée. Car effectivement, plus la variété de documents est élevée, plus cela devient difficile. La raison est que l'OCR traditionnel est formé avec des modèles.

En bref, OCR n'est pas parfait. Cependant, cela ne laisse pas non plus sans espoir. OCR a bien fait beaucoup de progrès pour répondre aux exigences du marché. Ce dernier qui, devient plus exigeant en matière d'exigences et de fonctionnalités au fil des années.

Newsletter

Envie de ne louper aucun de nos articles ? Abonnez vous pour recevoir chaque semaine les meilleurs actualités avant tout le monde.

Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *