Chaîne OCR

Chaîne OCR


Après plusieurs mois d’étude sur l’évaluation des logiciels OCR, les techniques d’estimation de qualité OCR puis les tests de mise en production, l’équipe ISTEX-DATA a conçu sa propre chaîne OCR en développant des modules qui se sont intégrés à la chaîne LoadISTEX existante. Cette chaîne OCR va permettre d’océriser dans un premier temps les PDF ‘image’ (absence de texte) et […]

Let’s go to the Pub(2TEI)

Let’s go to the Pub(2TEI)


L’équipe ISTEX-DATA entame le Sprint #10: « Let’s go to the Pub2TEI». Il a commencé vendredi 10 juin par sa planification et se terminera le 05 juin 2016 par sa revue de sprint. L’un des objectifs de ce sprint est la conversion des fichiers éditeurs en format TEI qui doit être expérimenté sur un corpus ayant du XML body éditeur (Nature […]

Sprint 9 ISTEX-DATA : Sélection officielle « Un certain regard documentaire »

Sprint 9 ISTEX-DATA : Sélection officielle « Un certain regard documentaire »


Bonjour,   L’équipe ISTEX-DATA entame le Sprint #9: « Sélection officielle « Un certain regard documentaire ». Il a commencé mardi 17 mai par sa planification et se terminera le 12 juin 2016 par sa revue de sprint. Voici la répartition de la charge de travail par thématique de travail, en fonction des points de complexité attribués par les membres de l’équipe. […]

Évaluer les résultats d’OCR dans le projet ISTEX

Évaluer les résultats d’OCR dans le projet ISTEX


Constat La grande majorité des documents ingérés dans le projet ISTEX proviennent de publications papiers numérisées que les éditeurs ont mises en ligne à partir des années 90. Cela signifie que le contenu textuel disponible est essentiellement le résultat d’une OCRisation. Une OCRisation consiste en la conversion automatique d’une image, résultat de la numérisation d’un document papier, en un fichier […]

Journée de la terre

Journée de la terre


La planète célèbre la Journée de la Terre ce vendredi 22 avril 2016. Cette année, la journée de la terre sera consacrée aux arbres. L’équipe ISTEX-DATA en profite pour faire un focus sur quelques revues ‘phares’ dans le domaine de l’écologie. Certaines publications à très haut facteur d’impact, référencées dans le JCR 2014, font parties des corpus ISTEX et nous […]

Sprint #8 d’ISTEX-DATA : « Docteur Levenshtein »

Sprint #8 d’ISTEX-DATA : « Docteur Levenshtein »


Bonjour, L’équipe ISTEX-DATA entame le Sprint #8: « Docteur Levenshtein ». Il a commencé vendredi 25 mars par sa planification et se terminera le 12 mai 2016 par sa revue de sprint. Voici la répartition de la charge de travail par thématique de travail, en fonction des points de complexité attribués par les membres de l’équipe :   Dans la thématique « Editeur, FSMAP, XSL« , […]

Les identifiants de type publication

Les identifiants de type publication


Les identifiants les plus anciens en usage dans les bibliothèques sont l’ISBN (International Standard Book Number) et l’ISSN (International Standard Serial Number) qui servent d’identifiant d’une publication pour les acquisitions et la recherche bibliographique. Un ISSN et ISBN est attribué aux publications électroniques, par exemple : ISSN 1562-6865 (En ligne) ISSN 1063-7710 (Imprimé) Les ISSN et ISBN n’identifient pas les […]

Sprint #7 d’ISTEX-DATA : « Happy Script »

Sprint #7 d’ISTEX-DATA : « Happy Script »


Bonjour, L’équipe ISTEX-DATA entame le Sprint #7: « Happy Script ». Il a commencé vendredi 26 février par sa planification et se terminera le 24 mars 2016 par sa revue de sprint. Voici la répartition de la charge de travail par thématique de travail, en fonction des points de complexité attribués par les membres de l’équipe : Dans la thématique « Éditeur FSMAP », […]

Plateforme ISTEX : plus de 50 langues différentes !

Plateforme ISTEX : plus de 50 langues différentes !


Chers utilisatrices et utilisateurs, A ce niveau d’ingestion des corpus, deux tiers des codes langues de la plateforme ISTEX sont identifiés, soit plus de 10 millions de documents. Le corpus contient une cinquantaine de langues clairement identifiées par leur code langue fourni dans les métadonnées éditeurs. Un certain nombre de codes langues sont erronés ou non renseignés. La langue la […]