Extraire un corpus ISTEX : 4 solutions


 

 

Dans un billet précédent, l’équipe Istex-Corpus vous présentait l’application conviviale de téléchargement de corpus: ISTEX-DL¹. Trois autres outils sont à votre disposition pour extraire un corpus de documents numériques de l’archive ISTEX, chacun possédant ses spécificités et ses avantages propres.

Vous interrogez déjà le réservoir ISTEX directement via son API ? Vous serez peut-être intéressés par l’utilisation de la fonction « extract».

Cette fonction du moteur de recherche de l’API s’ajoute simplement dans l’URL d’interrogation de l’API à la suite de la requête. En paramétrant un certain nombre de critères, vous pourrez moduler le corpus que vous téléchargerez sous forme d’archive compressée ZIP, choisir le mode de tri des résultats et recueillir, si besoin, les fichiers classés dans une arborescence à 4 niveaux. Cet outil est à retrouver à l’adresse : https://doc.istex.fr/tdm/extraction/extract-feature.html

Vous êtes à l’aise avec l’informatique ? Vous pouvez employer l’un ou l’autre de nos moissonneurs, utilitaires en ligne de commande à installer et à lancer depuis un terminal : istex-api-harvester ou harvestCorpus.

Ces deux outils permettent notamment de télécharger des corpus dépassant les 10 000 documents. Mais ils proposent bien d’autres fonctionnalités. Découvrez-les à ces adresses : https://doc.istex.fr/tdm/extraction/istex-api-harvester.html et https://doc.istex.fr/tdm/extraction/harvest-corpus.pl.html

Le programme harvestCorpus peut en outre vous aider dans deux cas particuliers :

Si votre requête est tellement longue qu’elle dépasse les limites techniques d’un certain nombre de composants logiciels (proxy, navigateur, etc.), harvestCorpus pourra néanmoins extraire votre corpus à partir de la liste des identifiants des publications souhaitées présentées sous forme d’un fichier « .corpus »².

Si vos travaux de fouille nécessitent des documents finement structurés, extraitXmlEditeur, autre utilitaire associé à harvestCorpus , vous procurera les fichiers XML fournis par les éditeurs.

 

Pour une vue d’ensemble des outils d’extraction de corpus ISTEX, connectez-vous à l’adresse : https://doc.istex.fr/tdm/extraction/

Pour toute question ou commentaire, n’hésitez pas à nous contacter via la liste de discussion users@listes.istex.fr ou la messagerie des équipes ISTEX contact@listes.istex.fr

Camille, pour l’équipe Istex-Corpus

 

1 – Billet : « ISTEX-DL : Vous en rêviez, ISTEX l’a fait ! »

2 – Plus de détails sur les fichiers .corpus à cette adresse : https://github.com/istex/harvest-corpus#1—fichier-corpus


2 thoughts on “Extraire un corpus ISTEX : 4 solutions

Comments are closed.