8 février 2021 | Pascale Viot | Corpus gold , ISTEX-Corpus , TDM

Un corpus gold standard pour le TDM


A la demande du Laboratoire d’Informatique Fondamentale et Appliquée de Tours (LIFAT), un corpus de documents ISTEX a été annoté manuellement par huit personnes à l’Inist-CNRS, avec un calcul d’accord inter annotateurs effectué au LIFAT et à l’Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA).

Ce corpus gold standard est destiné aux chercheurs désirant tester ou entraîner leur outil de reconnaissance d’entités nommées.

Les annotations portent sur :

    • les noms de personnes <persName>,
    • les noms de lieux <placeName> et <geogName>
    • les noms d’organisations <orgName>, d’organisations ayant financé l’étude rapportée : <orgName type="funder"> et d’organisations hébergeant une ressource ayant servi à l’étude <orgName type="provider">
    • les url <ref type="url">

 

 

Le jeu de données Corpus Entités Nommés ISTEX est publié sur data.istex dans la collection Corpus annotés manuellement.

N’hésitez pas à naviguer :

La page Graphiques permet une exploration des données bibliographiques et de la répartition des entités nommées.

La page Recherche permet l’accès à chacune des ressources du corpus ; on y retrouve la liste des entités nommées.

La page Accueil permet le téléchargement du corpus en format TEI, des offsets des entités nommées, ainsi que du guide d’annotation qui vous donnera les détails sur la méthode de constitution du corpus ainsi que sur les règles d’annotation.

Rendez vous dans le champ Application pour le téléchargement.

Merci pour vos retours!

L’équipe des annotateurs

 

Voir aussi : https://www.inist.fr/nos-actualites/un-corpus-gold-standard-sur-data-istex

 


Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *