Chaîne OCR

Classé dans : Développement, ISTEX-DATA | 2

Après plusieurs mois d’étude sur l’évaluation des logiciels OCR, les techniques d’estimation de qualité OCR puis les tests de mise en production, l’équipe ISTEX-DATA a conçu sa propre chaîne OCR en développant des modules qui se sont intégrés à la chaîne LoadISTEX existante.

Cette chaîne OCR va permettre d’océriser dans un premier temps les PDF ‘image’ (absence de texte) et ultérieurement tout document avec des problèmes de reconnaissance de caractères fournis par les éditeurs. Dans le premier cas, nous apportons ainsi une amélioration certaine au niveau du plein texte qui sera désormais exploitable par les utilisateurs.

En effet, l’absence de contenu dans un fichier texte ou un PDF de mauvaise qualité a un impact direct sur le TDM (Text and Data Mining) qui exige un texte de qualité pour exploiter les sous-corpus.

Les dernières réalisations ont porté sur l’ajout d’une icône OCR ainsi que le taux de qualité du TXT produit par l’OCR dans le démonstrateur. Par contre, cet indicateur qualité n’est pas un indicateur absolu de qualité. Cet indicateur est surtout destiné à évaluer la progression de la qualité d’un document entre deux océrisations. Ce taux varie en présence de figures, tableaux et suivant leur nombre et leur contenu. Notons que le module de détection de langue s’avère fiable et permettra une correction dans le cas où l’information est absente ou mal renseignée dans les métadonnées éditeur.

A ce jour, l’océrisation a été effectuée avec succès en intégration sur un certain nombre de PDF ‘image’ issus de différents corpus avec l’outil open source Tesseract. (https://github.com/tesseract-ocr/tesseract)

2 Responses

  1. Laurent

    Belle réalisation qui donne une plus-value certaine à ISTEX.

  2. […] Après plusieurs mois d’étude sur l’évaluation des logiciels OCR, les techniques d’estimation de qualité OCR puis les tests de mise en production, l’équipe ISTEX-DATA a conçu sa propre chaîne OCR en développant des modules qui se sont intégrés à la chaîne LoadISTEX existante.Cette chaîne OCR va permettre d’océriser dans un premier temps les PDF ‘image’ (absence de texte) et ultérieurement tout document avec des problèmes de reconnaissance de caractères fournis par les éditeurs. Dans le premier cas, nous apportons ainsi une amélioration certaine au niveau du plein texte qui sera désormais exploitable par les utilisateurs.  […]