Sprint 9 ISTEX-DATA : Sélection officielle « Un certain regard documentaire »

Bonjour,

UnCertainRegardDocumentaire

 

L’équipe ISTEX-DATA entame le Sprint #9: « Sélection officielle « Un certain regard documentaire ». Il a commencé mardi 17 mai par sa planification et se terminera le 12 juin 2016 par sa revue de sprint. Voici la répartition de la charge de travail par thématique de travail, en fonction des points de complexité attribués par les membres de l’équipe.

image(8)

L’objectif de ce sprint est axé sur le besoin de développer un module implémentant la méthode par dictionnaire dans LoadIstex afin d’évaluer la qualité de l’OCR. L’implémentation de ce module s’impose suite aux résultats de l’étude affichés dans le sprint précédent (thématique « Amélioration du plein texte (réOCRisation, restructuration, redressement) ». Cette évaluation nous fournira des scores qualité et nous permettra de discuter et définir un threshold (seuil) par corpus.

Nous allons également développer un module qui pourrait s’implémenter dans la chaîne LoadIstex avant Li-Carto afin de sélectionner des documents particuliers (langue, éditeur, année de publication) afin de constituer un sous-corpus. Cette sélection permettra également de filtrer les documents à partir d’un score évalué par le module cité précédemment afin d’envisager une réOCRisation.

La thématique « Amélioration des métadonnées (ex: hub, type de doc …) », comporte un nombre important de tâches, plutôt diverses telles que des corrections suite à des bugs signalés par les utilisateurs, et l’expérimentation de la transformation directe des fichiers XML vers TEI car le format MODS étant très simplifié, il ne nous permet pas de reprendre toutes les données structurées fournies par les éditeurs.

Nous fournirons également à l’équipe LODEX un fichier contenant les informations sources sur les types d’articles à ingérer dans l’outi LODEX qui envisage de proposer plusieurs techniques/mécanismes permettant de documenter la facette ‘Type article’ en s’appuyant sur les standards du web sémantique. Nous fournirons également à l’équipe ezPAARSE, qui interroge l’API ISTEX en vue d’enrichir les événements des logs ISTEX, une liste des types d’articles avec les bonnes syntaxes pour compléter leur liste existante.

Nous analyserons le corpus Wiley 2013-2015 ainsi que le corpus Taylor & Francis dans l’outil FSMAP (thématique « Editeur, FSMAP, XSL« )

Dans la thématique « Chiffres clés », toujours à partir de requêtes dans API, les résultats obtenus sur la répartition dans le temps des publications par langue permettront une analyse et devraient apporter des informations intéressantes.

Rendez-vous à la prochaine revue de sprint le 09 juin ! A bientôt !