Un corpus gold standard pour le TDM

Un corpus gold standard pour le TDM


A la demande du Laboratoire d’Informatique Fondamentale et Appliquée de Tours (LIFAT), un corpus de documents ISTEX a été annoté manuellement par huit personnes à l’Inist-CNRS, avec un calcul d’accord inter annotateurs effectué au LIFAT et à l’Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA). Ce corpus gold standard est destiné aux chercheurs désirant tester ou entraîner leur outil […]

Corpus spécialisés : Unitex

Corpus spécialisés : Unitex


Nouvelle publication sur la plateforme data.istex.fr : Collection Unitex Cette collection regroupe des corpus de documents ISTEX en texte intégral, non thématiques, constitués dans le but d’évaluer la détection d’entités nommées par l’outil Unitex-CasSys. Le logiciel Unitex traite des corpus de textes en langue naturelle à l’aide d’une cascade de reconnaissance des entités nommées implantée avec le programme de création […]