Corpus spécialisés : publication sur data.istex


L’équipe ISTEX-Corpus met à votre disposition ses corpus spécialisés en les exposant sur le web à travers la plateforme data.istex.fr.

Il s’agit de corpus de documents en texte intégral issus de la plateforme ISTEX et rassemblés autour d’une thématique ou d’un domaine scientifique en vue d’une exploitation en traitement automatique des langues et en fouille de textes.

Vous pouvez naviguer dans leur contenu grâce à des graphiques permettant de visualiser la répartition des documents selon différents angles de vue bibliométriques. Pour certains corpus, vous avez également la possibilité d’explorer les enrichissements ayant pu être réalisés par l’équipe sur ces corpus (analyses thématiques, annotation d’entités nommées).

Ces corpus sont exposés pour illustrer les possibilités d’exploitation des documents ISTEX ou pour être réutilisés dans d’autres cas d’usages par les ayants droit de l’ESR. Pour cela, ils peuvent être téléchargés soit directement via l’interface ISTEX-DL, soit via les moissonneurs mis à disposition, en fonction des cas.

 

Ils sont organisés autour de collections axées sur :

  • des thématiques (vieillissement, systématique animale ou végétale, zone géographique Arctique)
  • des domaines scientifiques (astrophysique, géosciences, orthophonie, sciences et techniques alimentaires)
  • des corpus Gold non thématiques (tests de l’outil Unitex)

 

Ces collections seront publiées au fur et à mesure de leur avancement.

Pour les retrouver, rendez-vous sur data.istex.fr à l’adresse suivante : https://corpus-specialises.corpus.istex.fr/

A suivre …

L’équipe ISTEX-Corpus

 

Contact : Pour toute question, écrivez-nous soit sur la liste de discussion users@listes.istex.fr, soit directement sur la messagerie des équipes ISTEX contact@listes.istex.fr.


Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *