A la demande du Laboratoire d’Informatique Fondamentale et Appliquée de Tours (LIFAT), un corpus de documents ISTEX a été annoté manuellement par huit personnes à l’Inist-CNRS, avec un calcul d’accord inter annotateurs effectué au LIFAT et à l’Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA).
Les annotations portent sur :
<persName>
,<placeName>
et <geogName>
<orgName>
, d’organisations ayant financé l’étude rapportée : <orgName type="funder">
et d’organisations hébergeant une ressource ayant servi à l’étude <orgName type="provider">
<ref type="url">
Le jeu de données Corpus Entités Nommés ISTEX est publié sur data.istex dans la collection Corpus annotés manuellement.
N’hésitez pas à naviguer :
La page Graphiques permet une exploration des données bibliographiques et de la répartition des entités nommées.
La page Recherche permet l’accès à chacune des ressources du corpus ; on y retrouve la liste des entités nommées.
La page Accueil permet le téléchargement du corpus en format TEI, des offsets des entités nommées, ainsi que du guide d’annotation qui vous donnera les détails sur la méthode de constitution du corpus ainsi que sur les règles d’annotation.
Rendez vous dans le champ Application pour le téléchargement.
Merci pour vos retours!
L’équipe des annotateurs
Voir aussi : https://www.inist.fr/nos-actualites/un-corpus-gold-standard-sur-data-istex