OCR: Pré-traitements des documents

OCR: Pré-traitements des documents


Une observation sur les documents texte (.txt) montrait que la présence de tableaux ou d’images produisait d’une part, du bruit et d’autre part une légère baisse de reconnaissance de caractère dans le document par tesseract. Une étude a donc été poussée afin d’améliorer les océrisations de documents images et deux grands points ont été réalisés à l’heure actuelle : L’extraction […]