Chaîne OCR

Chaîne OCR


Après plusieurs mois d’étude sur l’évaluation des logiciels OCR, les techniques d’estimation de qualité OCR puis les tests de mise en production, l’équipe ISTEX-DATA a conçu sa propre chaîne OCR en développant des modules qui se sont intégrés à la chaîne LoadISTEX existante. Cette chaîne OCR va permettre d’océriser dans un premier temps les PDF ‘image’ (absence de texte) et […]

Évaluer les résultats d’OCR dans le projet ISTEX

Évaluer les résultats d’OCR dans le projet ISTEX


Constat La grande majorité des documents ingérés dans le projet ISTEX proviennent de publications papiers numérisées que les éditeurs ont mises en ligne à partir des années 90. Cela signifie que le contenu textuel disponible est essentiellement le résultat d’une OCRisation. Une OCRisation consiste en la conversion automatique d’une image, résultat de la numérisation d’un document papier, en un fichier […]