Corpus spécialisés : Unitex

Corpus spécialisés : Unitex


Nouvelle publication sur la plateforme data.istex.fr : Collection Unitex Cette collection regroupe des corpus de documents ISTEX en texte intégral, non thématiques, constitués dans le but d’évaluer la détection d’entités nommées par l’outil Unitex-CasSys. Le logiciel Unitex traite des corpus de textes en langue naturelle à l’aide d’une cascade de reconnaissance des entités nommées implantée avec le programme de création […]

Corpus spécialisés : Vieillissement

Corpus spécialisés : Vieillissement


Nouvelle publication sur la plateforme data.istex.fr : Collection Vieillissement La thématique du vieillissement était l’une de celles retenues en septembre 2014, lors de la première rencontre des partenaires du projet ISTEX : HUMA-NUM, INRIA, Université d’Aix-Marseille, Université de Lorraine, Université de Nantes – LINA, Université de Tours – LI, Inist-CNRS. Cette thématique regroupe le vieillissement humain normal (psychologie, physiologie, gérontologie) et […]

Corpus spécialisés : Food Science and Technology

Corpus spécialisés : Food Science and Technology


L’équipe ISTEX-Corpus publie une première collection de corpus spécialisés sur data.istex.fr : Collection Food S&T Cette collection contient un corpus créé à partir de la thématique « Food Science and Technology » du Web of Science. Parmi les thématiques retenues lors de la première réunion des partenaires du projet ISTEX en septembre 2014 (Diabète, Cancer du sein, Vieillissement, Astrophysique, Energie éolienne, Agro-alimentaire, […]

Documentation sur la constitution de corpus thématiques

Documentation sur la constitution de corpus thématiques


Pour démarrer cette nouvelle année, l’équipe ISTEX-CORPUS met en ligne une documentation destinée à répondre aux questions des utilisateurs d’ISTEX désireux de constituer un corpus de textes intégraux à partir de l’API, en vue d’une utilisation éventuelle en traitement automatique du langage (TAL) ou en fouille de textes et de données (TDM). Cette documentation présente des conseils et des astuces […]

Documentation sur les enrichissements

Documentation sur les enrichissements


En lien avec l’équipe Triplex du DPI, l’équipe Istex-rd a publié la documentation relative aux outils utilisés pour produire des enrichissements dans Istex. https://enrichmenttool-list.data.istex.fr/home L’expérimentation Triplex, à l’aide de l’outil Lodex, permet de transformer une série d’informations répertoriées dans un tableau Excel en un jeu de données publiable sur https://data.istex.fr et interopérable via un SPARQL-endpoint. Ce jeu de données apporte […]

Les enrichissements disponibles

Les enrichissements disponibles


Parmi les enrichissements produits par l’équipe ISTEX-RD, voici ceux qui sont actuellement disponibles sur l’API d‘ISTEX : • les références bibliographiques structurées par Grobid (actuellement plus de 9 millions de documents) Les références bibliographiques données par les éditeurs sont extraites et structurées par le logiciel Grobid (GeneRation Of BIbliographic Data) qui est un outil d’analyse et d’extraction d’informations bibliographgiques et […]

ISTEX & LODEX


Depuis quelques semaines, l’équipe ISTEX-RD travaille en coopération avec une autre équipe du Département Projets et Innovation de l’INIST : l’équipe LODEX : http://lod.istex.fr/. Les enrichissements produits par l’équipe ISTEX-RD apparaissent sous forme d’un standoff (balise placée après les métadonnées du document et conforme aux standards de la TEI). Ce standoff est composé d’un header suivi d’une ou plusieurs <listAnnotation> regroupant soit des […]