Évaluer les résultats d’OCR dans le projet ISTEX

Évaluer les résultats d’OCR dans le projet ISTEX


Constat La grande majorité des documents ingérés dans le projet ISTEX proviennent de publications papiers numérisées que les éditeurs ont mises en ligne à partir des années 90. Cela signifie que le contenu textuel disponible est essentiellement le résultat d’une OCRisation. Une OCRisation consiste en la conversion automatique d’une image, résultat de la numérisation d’un document papier, en un fichier […]