« Revue-Sommaire » un nouveau mode d’accès aux ressources ISTEX

« Revue-Sommaire » un nouveau mode d’accès aux ressources ISTEX


La plateforme ISTEX, riche de plus de 21 millions d’objets documentaires,  offre à la communauté d’utilisateurs de l’ESR la possibilité d’utiliser ses services : de recherche documentaire à travers plusieurs outils (API, widgets, plugin navigateur, …) de téléchargement massif d’une partie ou de la totalité du corpus (dl.istex.fr, moissonnage en ligne de commande…)   Un nouveau mode d’accès aux ressources […]

Mise en ligne du corpus « Lavoisier »

Mise en ligne du corpus « Lavoisier »


 L’équipe ISTEX a le plaisir de vous annoncer que le corpus « Lavoisier » est désormais disponible sur la plateforme ISTEX. Ce corpus contient les archives de 32 titres  couvrant des  revues majeures en médecine, notamment Douleur et Analgésie ; Côlon & rectum ; Obésité ou encore Oncologie. Ce corpus est constitué de 17 022 documents de niveau article. Le nombre total de corpus disponibles sur la plateforme […]

Analyse quantitative de l’archive ISTEX (3)

Analyse quantitative de l’archive ISTEX (3)


un peu plus compliqué … Lors des deux billets précédents nous avons présenté la possibilité de dénombrer un item dans un triplestore. Le langage SPARQL donne la possibilité d’exprimer des résultats de requêtes en  pourcentage. Pour illustrer cette possibilité nous allons calculer la répartition “catégorie inist” pour le content type « papier de recherche »@fr, exprimée en pourcentage. La requête suivante est […]

Mise en ligne du corpus Brepols revues

Mise en ligne du corpus Brepols revues


L’équipe ISTEX a le plaisir de vous annoncer que le corpus « Brepols revues » est désormais disponible sur la plateforme ISTEX. Ce corpus contient les archives de 45 titres de revues publiés entre 1882 et 2012, couvrant les domaines de l’histoire ancienne et médiévale, la littérature, la linguistique, la pensée et la théologie médiévale. Ce corpus est constitué de […]

Formation à l’utilisation de l’API ISTEX à Sciences Po Paris

Formation à l’utilisation de l’API ISTEX à Sciences Po Paris


 A la demande d’ Anna Couthures-Idrizi  et de Catherine Valais de Sciences Po, Pascale Viot et Claude Niederlender de l’équipe ISTEX se sont rendus dans leurs locaux du 199 boulevard Saint Germain, le mercredi 30 mai, afin de dispenser une formation complète sur l’utilisation de l’API ISTEX. Le profil des 8 personnes présentes était plutôt un profil documentaire.   Un grand […]

Nouveautés récentes et à venir sur l’API

Nouveautés récentes et à venir sur l’API


Chers utilisateurs et utilisatrices, Nous profitons de ce billet pour faire un petit point d’avancement sur les dernières nouveautés et celles à venir en cette fin d’année.   Des ARKs pour tous les corpus Il n’y a pas eu de changement majeur au niveau de l’API ISTEX ces dernières semaines, mais une nouveauté marquante fut l’attribution d’identifiants ARK sur les […]

Calcul de l’indicateur OCR

Calcul de l’indicateur OCR


Dans le cadre du projet ISTEX, l’usage de l’OCR est essentiellement destiné à l’amélioration de plein texte ayant déjà fait l’objet d’une OCRisation par des éditeurs. Dès lors se pose la question d’évaluer la qualité intrinsèque d’un résultat d’OCR afin de déterminer quels documents doivent faire l’objet d’une ré-OCRisation, de sélectionner le meilleur résultat entre différents OCR et mesurer les […]

Pub2TEI dans ISTEX

Pub2TEI dans ISTEX


Pub2TEI dans ISTEX : Les documents du corpus Wiley sont désormais proposés dans un format TEI (Text Encoding Initiative) développé par Pub2TEI et finalisé par l’équipe ISTEX-DATA avec des développements en interne (Pub2TEI version ISTEX) et la production d’un schéma ODD-ISTEX disponible sous github. Pour rappel, TEI est une norme de codage de structuration de textes qui repose sur XML. […]

Fulltexts structurés à partir des PDFs avec Grobid

Fulltexts structurés à partir des PDFs avec Grobid


Introduction L’équipe ISTEX R&D vous a déjà présenté les phases de l’apprentissage des modèles segmentation (ici) et fulltext (ici). Le but de ces entraînements est de mettre à la disposition de nos utilisateurs des XMLs structurés et exploitables pour les fouilles de texte. Dans cet article, nous allons vous montrer le fruit de ces apprentissages sur les données ISTEX. En […]

Des ARK dans ISTEX

Des ARK dans ISTEX


Chères utilisatrices et utilisateurs, L’équipe ISTEX a le plaisir de vous annoncer que dans les semaines à venir, les documents disponibles dans la plateforme ISTEX vont s’enrichir d’un nouveau système d’identification pérenne : “ARK” (Archival Resource Key). Ce mécanisme, mis en place par la “CDL” (California Digital Library), est déjà utilisé par la BNF (Bibliothèque Nationale de France). Qu’est-ce qui […]