OCR : production de plein texte

Après plusieurs mois d’études sur l’évaluation des logiciels OCR, la mise en oeuvre des techniques d’estimation de la qualité OCR puis les tests de mise en production, l’équipe ISTEX-DATA a conçu sa propre chaîne OCR en développant des modules qui se sont intégrés à la chaîne LoadISTEX existante.

Cette chaîne OCR a permis de ré-océriser les documents qui n’avaient pas de texte (PDF ‘image’) ou qui rencontraient des problèmes de reconnaissance de caractères, cette technique apporte du texte exploitable aux utilisateurs et une valeur ajoutée certaine aux corpus en terme de plein texte.
En effet, l’absence de contenu dans un fichier texte ou un PDF de mauvaise qualité a un impact direct sur le TDM, qui nécessite d’extraire du texte de qualité pour exploiter les sous-corpus.

Les dernières réalisations :

Patch de l’API pour prendre en compte la route /fulltext/ocr
    Ajout d’un icône OCR dans le démonstrateur

Ajout d’un indicateur OCR dans le démonstrateur quand la langue est identifiée

A ce jour, l’océrisation a donc été effectuée avec succès en production avec l’outil open source Tesseract sur 14 corpus ingérés dans l’API et dont le texte était absent ou non exploitable, soit l’ajout de texte pour 660 105 documents et 3 369 354 pages ! La valeur ajoutée en terme de création de plein texte est très importante pour Nature avec 87 % du corpus ré-océrisé soit près de 330 000 documents et plus de 587 000 pages.

La prochaine étape est la ré-océrisation des documents qui comportent des caractères diacritiques mal reconnus ou supprimés dans le texte. Il faudra tout d’abord détecter la langue du document avec le module dédié dans le cas où le code langue est erroné ou non renseigné dans les métadonnées éditeur.
Dans un premier temps, nous traiterons les documents en français puis d’autres langues comme l’allemand, l’italien …

Laissez un commentaire