Documentation sur la constitution de corpus thématiques

Classé dans : Corpus thématique, ISTEX-Corpus | 0

Pour démarrer cette nouvelle année, l’équipe ISTEX-CORPUS met en ligne une documentation destinée à répondre aux questions des utilisateurs d’ISTEX désireux de constituer un corpus de textes intégraux à partir de l’API, en vue d’une utilisation éventuelle en traitement automatique du langage (TAL) ou en fouille de textes et de données (TDM).

Cette documentation présente des conseils et des astuces sur la construction d’une requête, sur l’extraction du corpus et sur la vérification et la mise en forme des résultats, à l’aide de nombreux exemples issus de corpus répondant à différents cas d’usage :

  • Test d’un outil de détection et de désambiguïsation d’entités nommées en Systématique animale et végétale
  • Test d’un outil de détection de définitions de concepts en Astrophysique
  • Analyse thématique d’un corpus sur le Vieillissement ou sur l’Arctique
  • Extractions terminologiques dans le domaine de l’Orthophonie

Vous pouvez la consulter dans la documentation utilisateur de la plateforme ISTEX, rubrique « Utilisation d’ISTEX : TDM », accessible à cette adresse : https://doc.istex.fr/users/.

N’hésitez pas à nous faire part de toute question soit sur la liste de discussion users@listes.istex.fr, soit directement sur la messagerie des équipes ISTEX contact@listes.istex.fr.

Tout au long de l’année 2018, la nouvelle expérimentation ISTEX-CORPUS s’attachera à exposer sur le Web, via le site data.istex.fr, les corpus thématiques constitués à partir d’ISTEX pour les cas d’usage décrits plus haut.

À suivre …

L’équipe ISTEX-CORPUS