Pub2TEI dans ISTEX

Pub2TEI dans ISTEX :
Les documents du corpus Wiley sont désormais proposés dans un format TEI (Text Encoding Initiative) développé par Pub2TEI et finalisé par l’équipe ISTEX-DATA avec des développements en interne (Pub2TEI version ISTEX) et la production d’un schéma ODD-ISTEX disponible sous github. Pour rappel, TEI est une norme de codage de structuration de textes qui repose sur XML. Les documents Wiley disponibles actuellement dans la plateforme ISTEX sont donc issus de la conversion des fichiers éditeurs directement en format TEI.

Apport du format TEI:
Le format TEI va apporter un texte structuré et également un encodage en XML-TEI des métadonnées, notamment les affiliations et les résumés.
Les métadonnées sont reformatées dans le format MODS (Metadata Object Description Schema) qui est un modèle destiné au traitement de données bibliographiques. MODS est est notre format pivot mais il ne permet pas la reprise des données structurées lorsqu’elles sont fournies dans le XML éditeur.
Le format TEI permet quant à lui l’encodage de documents textuels et permet donc de décrire la structuration du texte tel qu’il a été conçu.

Il permet l’organisation du document en entités comme titre, chapitre, section, para­graphe, tableau, figure, etc.
Concernant l’organisation du document, les métadonnées TEI sont encodées dans le <teiHeader> placé avant le corps du texte qui est lui-même intégré dans le <body> du <text>.
Cette notion de structure est fondamentale pour échanger et exploiter les textes. L’encodage permet de cibler les analyses de données ou de texte et ainsi apporter des résultats plus pertinents. La granularité du document permet d’identifier les connaissances dans le texte intégral par les outils de fouille de texte. Il permet, par exemple, d’exclure les mots-clés contenus dans les références bibliographiques ou dans le résumé (doublon) et limiter le « bruit » dans les résultats.

Expérimentation Pub2TEI :
Pour rappel, Pub2TEI a été développé dans le cadre du projet européen PEER par L. Romary et P. Lopez. Pub2TEI propose un ensemble de feuilles de style modulaires (au nombre de 30) pour convertir des documents XML codés dans différents formats éditeurs en XML natif vers un format TEI commun.

L’expérimentation Pub2TEI version ISTEX a été menée sur le corpus Wiley car la grande majorité des documents contiennent du texte structuré dans le fichier XML éditeur. En effet, selon les éditeurs, l’encodage des informations bibliographiques, les résumés, les citations et les textes complets sont pris en charge.

Un important travail de développement de feuilles de style en interne est nécessaire pour prendre en charge les différents corpus selon les DTDs de chaque éditeur. D’autres corpus seront donc proposés dans un format TEI développé par Pub2TEI version ISTEX d’ici la fin de l’année. Nous vous informerons de leur disponibilité sur la plateforme.

Quelle valeur ajoutée avec Pub2TEI pour l’utilisateur ?

Affiliation structurée :

Pour les études bibliométriques, il est important d’avoir des affiliations structurées, mettant en évidence les laboratoires, les villes, les pays …

Texte structuré :
Sans le format Pub2TEI, le corps du texte n’est pas clairement identifiable, il se trouve après le résumé qui est lui-même répété et générera des résultats doublons dans le cas du TDM.

Dans le format Pub2TEI, le corps du texte est structuré et permet d’optimiser les résultats issus du TDM.

Quel autre outil utilisé lorsque le plein texte n’est pas structuré nativement ?

Si le texte n’est pas structuré en amont, les documents en format TEI ne peuvent pas être produits par Pub2TEI.

Le texte structuré peut être produit d’une façon complémentaire par l’outil GROBID qui permet de convertir les documents PDF en TEI tout en étant parfois limité par la structure des PDF natifs.

Le format TEI est très proche de celui utilisé par GROBID.
Nos collègues de l’équipe ISTEX-RD sont en charge de l’expérimentation de l’outil GROBID sur les PDF pour produire du texte structuré.
Voir billet de blog correspondant : Fulltexts structurés à partir des PDFs avec GROBID

Autre article à consulter : Schéma ODD-ISTEX  (ODD est l’acronyme de Document does it all)