Corpus spécialisés : Unitex


Nouvelle publication sur la plateforme data.istex.fr :

Collection Unitex

Cette collection regroupe des corpus de documents ISTEX en texte intégral, non thématiques, constitués dans le but d’évaluer la détection d’entités nommées par l’outil Unitex-CasSys.

Le logiciel Unitex traite des corpus de textes en langue naturelle à l’aide d’une cascade de reconnaissance des entités nommées implantée avec le programme de création de cascades CasSys.

CasSys est un outil d’exploration et d’annotation de corpus dont le prototype a été créé au Laboratoire d’Informatique de l’Université François Rabelais de Tours.

Unitex traite des corpus monolingues, ce qui a conduit à créer deux corpus (anglais et français) annotés manuellement, pour évaluer la détection par Unitex des entités nommées choisies dans le cadre du projet ISTEX :

  • noms de personnes,
  • noms de lieux administratifs
  • noms de lieux géographiques
  • noms d’organismes,
  • noms d’organismes financeurs
  • noms d’organismes pourvoyeurs de ressources
  • dates
  • URL
  • pointeurs vers les références bibliographiques
  • références bibliographiques dans le texte

Corpus de la collection :

Vous trouverez sur la page d’accueil de ces corpus tous les éléments vous permettant de les télécharger, de naviguer dans les graphiques explorant leurs données bibliographiques et les graphiques rendant compte de la répartition des différents types d’entités nommées dans les corpus.

Corpus anglais

Il comprend 48 documents, annotés manuellement, pour l’évaluation de la détection des entités nommées par la cascade en anglais d’Unitex créée au Laboratoire d’Informatique de Tours dans le cadre du projet ISTEX.

Corpus français

Il comprend 34 documents, annotés manuellement, pour l’évaluation de la détection des entités nommées par la cascade en français d’Unitex retravaillée pour les besoins d’ISTEX par le Laboratoire d’Informatique de Tours.

Accès à la collection et au corpus :

Vous pouvez accéder aux corpus via la page de la collection : https://unitex-collection.corpus.istex.fr/

ou directement au corpus anglais : http://unitex-anglais.corpus.istex.fr/

et au corpus français : http://unitex-francais.corpus.istex.fr/

 

Faites-nous part de vos questions, sur la liste de discussion users@listes.istex.fr, ou sur la messagerie des équipes ISTEX contact@listes.istex.fr

enza, pour l’équipe ISTEX-Corpus