Évaluer les résultats d’OCR dans le projet ISTEX

Classé dans : Enrichissements, ISTEX-DATA | 0

Constat

La grande majorité des documents ingérés dans le projet ISTEX proviennent de publications papiers numérisées que les éditeurs ont mises en ligne à partir des années 90. Cela signifie que le contenu textuel disponible est essentiellement le résultat d’une OCRisation. Une OCRisation consiste en la conversion automatique d’une image, résultat de la numérisation d’un document papier, en un fichier semi-structuré, soit XML ou combinant image et texte comme les PDF double-layer.

Cette OCRisation a parfois eu lieu dans les années 90 avec des OCR bien moins performants que les outils actuels. Suite au constat de la mauvaise qualité des données, l’amélioration du plein texte et plus particulièrement la ré-OCRisation permettra d’améliorer la qualité et la mise en valeur des données ISTEX afin de permettre la fouille de texte et la recherche de l’information comme cela a été évoqué lors du séminaire ISTEX 2016 par les chantiers d’usage.

Dans le cadre du projet ISTEX, l’usage de l’OCR est donc essentiellement destinée à l’amélioration de plein texte ayant déjà fait l’objet d’une OCRisation par des éditeurs. Dès lors se pose la question d’évaluer la qualité intrinsèque d’un résultat d’OCR afin de déterminer quels documents doivent faire l’objet d’une ré-OCRisation, de sélectionner le meilleur résultat entre différents OCR et mesurer les progrès éventuel d’un travail de paramétrisation et de pré/post-traitements autour des outils d’OCR.

Estimer la qualité d’un résultat d’OCR

Les techniques habituelles d’évaluation de résultats d’OCR supposent l’existence de textes de référence (ground truth ou corpus gold) correctement transcris afin de calculer des métriques basées sur le nombres d’erreurs de reconnaissance (edit distance, par exemple de type Damerau-Levenshtein). Dans le cas du projet ISTEX, compte tenue de la taille et de la diversité des publications, de telles transcriptions de référence n’existent pas et il est donc nécessaire de parvenir à des estimations de la qualité d’OCR suivants d’autres techniques.

Un premier travail d’évaluation de différents outils d’OCR s’est basé sur une évaluation manuelle des erreurs en sortie de trois OCR. Cet exercice a permis d’établir clairement que les outils modernes d’OCR peuvent améliorer significativement une proportion importante des plein textes livrés par les éditeurs par les outils modernes d’OCR. D’autre part, l’évaluation nous a amené à sélectionner dans un premier temps l’OCR Tesseract, qui offre un bon compromis coût/bénéfice en comparaison des solutions ABBYY onéreuses pour la masse considérable des documents d’ISTEX.

Un certain nombre de travaux se sont intéressés au problème d’estimation d’un score de fiabilité d’un OCR ne faisant pas appel à des transcriptions de référence pour le type de document particulier traité, sur la base soit de techniques statistiques (modèle de langage), d’apprentissage automatique, de dictionnaires, d’une exploitation des scores de confiance d’OCR ou encore d’heuristiques. Parmi ces dernières, Taghva et al (2001) introduisent 6 règles de détection d’anomalies de reconnaissance indépendantes de l’OCR utilisé, affinées par 5 règles supplémentaires par Kulp (2007). Wudtke (2011) utilise un modèle SVM (machines à vecteurs de support ou séparateurs à vaste marge) pour classer automatiquement les tokens reconnus comme acceptables ou erronés, parvenant à de meilleurs résultats que Kulp (2007) pour le corpus de document historique sur lequel le modèle est entraîné. Alex (2014) décrit différentes évaluations d’une méthode par dictionnaire. Parmi les approches par modèles de langage, citons Reffle & Ringlstetter (2013) ou encore Popat (2009) dans le cadre du programme de numérisation massif de Google Books.

Il existe donc différentes approches d’estimation de la qualité d’OCR ne nécessitant pas de transcriptions de référence. Si on s’intéresse alors à la comparaison de ces différentes techniques, on constate que très peu de ces travaux proposent de réelles évaluations entre elles, non liées à un corpus particulier ni un OCR spécifique, rendant le choix d’une technique difficile.

Quelle technique d’estimation de qualité choisir?

L’étude présentée par Popat (2009), dans le cadre du programme de numérisation massive de Google Book, est apparue comme la plus complète et avancée sur l’évaluation de différentes techniques d’estimation de la qualité d’OCR sans document de référence – cas qui nous intéresse. Popat (2009) évalue sur 32 langues l’approche de référence par heuristique de Kulp (2007) (voir ci-dessus), l’approche par dictionnaire la plus performante identifiée (par soft match sur 50K mots collectés sur des pages web) et une approche par modèle de langage.

La comparaison se base sur la corrélation entre évaluation humaine et évaluation par méthodes automatiques. Un grand nombre d’évaluateurs humains (239) ont classé des segments aléatoires de textes reconnus par OCR en terme de qualité de reconnaissance. Les méthodes automatiques étaient alors évaluées par leur capacité à reproduire le même classement entre ces segments textuels. Il nous serait clairement impossible de mettre en oeuvre autant de moyen humain pour obtenir un ensemble de jugements manuels sur une aussi grande variété de langues. Il semble donc raisonnable de s’appuyer sur cette étude pour estimer a priori la qualité des techniques d’évaluation d’OCR.

Sur les trois techniques possibles abordées dans l’étude par Popat, la méthode par modèle de langage se dégage par sa fiabilité. Le technique par dictionnaire donne ensuite pour la grande majorité des langues étudiées de meilleures résultats que par heuristiques, l’exploitation des scores de confiance générées par OCR n’étant pas du tout compétitif.

Le prochain chantier OCR d’ISTEX

Si la méthode par modèle de langage est la plus fiable, elle est également la plus lourde à implémenter. Par contraste, une technique par dictionnaire est très simple à implémenter et apporte des éléments de décision déjà relativement fiables. Aussi la mise en oeuvre, dans un premier temps, d’une évaluation par dictionnaire apparaît comme une bonne solution en terme de ratio coût/bénéfice. Cette méthode générera pour tout document OCRisé un score de qualité qui correspond – plus ou moins suivant les ajustements – au ratio de mots présents dans le dictionnaire par rapport au nombre total de mots produits.

Notre corpus de référence de 13 documents manuellement corrigés nous permettra d’estimer un seuil au dessous duquel on a une grande certitude que la qualité de l’OCR présent n’est pas acceptable et donc que le document correspondant doit faire l’objet d’une ré-OCRisation. Suite à cette ré-OCRisation, il sera possible d’évaluer de nouveaux scores de qualité et de décider si le gain est suffisant pour une mise à jour dans les données chargées.

Sur cette première base, le problème pourra faire l’objet d’autres itérations en vue d’améliorer le score de qualité (via des modèles de langage) et d’affiner la sélection de document à ré-OCRiser. D’une façon générale, un bon score de qualité nous permettra également de mesurer d’éventuelles améliorations de Tesseract (via des pré- et post-traitements). Il est donc important d’implémenter rapidement un tel score, même non optimal comme avec une méthode par dictionnaires, avant de planifier tout travail autour de Tesseract.

 

Références

[Alex, 2014] Beatrice Alex and John Burns. 2014. Estimating and rating the quality of optically character recognised text. In Proceedings of the First International Conference on Digital Access to Textual Cultural Heritage (DATeCH ’14). ACM, New York, NY, USA, 97-102. http://dx.doi.org/10.1145/2595188.2595214

[Wudtke, 2011] Richard Wudtke, Christoph Ringlstetter, and Klaus U. Schulz. 2011. Recognizing garbage in OCR output on historical documents. In Proceedings of the 2011 Joint Workshop on Multilingual OCR and Analytics for Noisy Unstructured Text Data (MOCR_AND ’11). ACM, New York, NY, USA. http://dx.doi.org/10.1145/2034617.2034626

[Kulp, 2007] S. Kulp and A. Kontostathis. On retrieving legal files: Shortening documents and weeding out garbage. In Proc. TREC, November 2007

[Popat, 2009] Ashok C. Popat. 2009. A panlingual anomalous text detector. In Proceedings of the 9th ACM symposium on Document engineering (DocEng ’09). ACM, New York, NY, USA, 201-204. http://dx.doi.org/10.1145/1600193.1600237

[Reffle & Ringlstetter, 2013] Pattern Recognition 46 (2013) 1346–1357

[Taghva et al., 2001] Kazem Taghva, Tom Nartker, Allen Condit, and Julie Borsack. Automatic removal of “garbage strings” in OCR text: An implementation. In The 5th World Multi-Conference on Systemics, Cybernetics and Informatics, 2001.