Documentation sur la constitution de corpus thématiques

Documentation sur la constitution de corpus thématiques


Pour démarrer cette nouvelle année, l’équipe ISTEX-CORPUS met en ligne une documentation destinée à répondre aux questions des utilisateurs d’ISTEX désireux de constituer un corpus de textes intégraux à partir de l’API, en vue d’une utilisation éventuelle en traitement automatique du langage (TAL) ou en fouille de textes et de données (TDM). Cette documentation présente des conseils et des astuces […]

Pub2TEI dans ISTEX

Pub2TEI dans ISTEX


Pub2TEI dans ISTEX : Les documents du corpus Wiley sont désormais proposés dans un format TEI (Text Encoding Initiative) développé par Pub2TEI et finalisé par l’équipe ISTEX-DATA avec des développements en interne (Pub2TEI version ISTEX) et la production d’un schéma ODD-ISTEX disponible sous github. Pour rappel, TEI est une norme de codage de structuration de textes qui repose sur XML. […]