Let’s go to the Pub(2TEI)

L’équipe ISTEX-DATA entame le Sprint #10: « Let’s go to the Pub2TEI». Il a commencé vendredi 10 juin par sa planification et se terminera le 05 juin 2016 par sa revue de sprint.

L’un des objectifs de ce sprint est la conversion des fichiers éditeurs en format TEI qui doit être expérimenté sur un corpus ayant du XML body éditeur (Nature ou Wiley) et sera rattachée à la thématique « Amélioration des métadonnées (ex: hub, type de doc …) ».

Pour rappel, Pub2TEI a été développé dans le cadre du projet européen PEER par L. Romary et P. Lopez. Il propose un ensemble de feuilles de style modulaires (au nombre de 30) pour convertir des documents XML codés dans différents formats d’ éditeurs scientifiques vers un format TEI commun.
Selon les éditeurs, l’encodage des informations bibliographiques, les résumés, les citations et les textes complets sont pris en charge.

Suite à l’étude sur les ‘erratum’ et leur signalement dans les métadonnées, une balise MODS a été ajoutée qui leur permettra de les lier à leur article original. Nous verrons avec ISTEX API s’il est possible de les afficher (DOI par exemple) en dessous du résumé de l’article original dans le démonstrateur.

Dans cette même thématique, nous ferons un retour sur le lot test enrichissement des books sur classification Dewey envoyé par l’ABES dans le cadre du Hub de métadonnées. Notons que dans la TEI, seul le code décimal est prévu, ce qui n’est pas le cas de la verbalisation, certaines solutions à valider par L. Romary, probablement lors du workshop qui se déroulera le 20/06/16.

Nous analyserons le corpus le corpus Taylor & Francis dans l’outil FSMAP (thématique « Editeur, FSMAP, XSL« ).

Dans la thématique « Amélioration du plein texte (réOCRisation, restructuration, redressement)”, nous consulterons ISTEX API sur les spécificités d’un module en début de chaine comme li-carto car nous souhaitons implémenter le module de sélection de sous-corpus en lieu et place de li-carto.

Nous souhaitons également intégrer le module TQI (Text Quality Indicator) en tant que brique de la chaîne ISTEX DATA qui permettra d’apporter un score qualité dans le cadre d’une réocrisation et de façon générale pour évaluer le score de qualité d’un document.

Rendez-vous à la prochaine revue de sprint le mardi 05/06/2016 !