Analyse quantitative de l’archive ISTEX (3)

Analyse quantitative de l’archive ISTEX (3)


un peu plus compliqué … Lors des deux billets précédents nous avons présenté la possibilité de dénombrer un item dans un triplestore. Le langage SPARQL donne la possibilité d’exprimer des résultats de requêtes en  pourcentage. Pour illustrer cette possibilité nous allons calculer la répartition “catégorie inist” pour le content type « papier de recherche »@fr, exprimée en pourcentage. La requête suivante est […]

Mise en ligne du corpus Brepols revues

Mise en ligne du corpus Brepols revues


L’équipe ISTEX a le plaisir de vous annoncer que le corpus « Brepols revues » est désormais disponible sur la plateforme ISTEX. Ce corpus contient les archives de 45 titres de revues publiés entre 1882 et 2012, couvrant les domaines de l’histoire ancienne et médiévale, la littérature, la linguistique, la pensée et la théologie médiévale. Ce corpus est constitué de […]

Formation à l’utilisation de l’API ISTEX à Sciences Po Paris

Formation à l’utilisation de l’API ISTEX à Sciences Po Paris


 A la demande d’ Anna Couthures-Idrizi  et de Catherine Valais de Sciences Po, Pascale Viot et Claude Niederlender de l’équipe ISTEX se sont rendus dans leurs locaux du 199 boulevard Saint Germain, le mercredi 30 mai, afin de dispenser une formation complète sur l’utilisation de l’API ISTEX. Le profil des 8 personnes présentes était plutôt un profil documentaire.   Un grand […]

Nouveautés récentes et à venir sur l’API

Nouveautés récentes et à venir sur l’API


Chers utilisateurs et utilisatrices, Nous profitons de ce billet pour faire un petit point d’avancement sur les dernières nouveautés et celles à venir en cette fin d’année.   Des ARKs pour tous les corpus Il n’y a pas eu de changement majeur au niveau de l’API ISTEX ces dernières semaines, mais une nouveauté marquante fut l’attribution d’identifiants ARK sur les […]

Calcul de l’indicateur OCR

Calcul de l’indicateur OCR


Dans le cadre du projet ISTEX, l’usage de l’OCR est essentiellement destiné à l’amélioration de plein texte ayant déjà fait l’objet d’une OCRisation par des éditeurs. Dès lors se pose la question d’évaluer la qualité intrinsèque d’un résultat d’OCR afin de déterminer quels documents doivent faire l’objet d’une ré-OCRisation, de sélectionner le meilleur résultat entre différents OCR et mesurer les […]

Pub2TEI dans ISTEX

Pub2TEI dans ISTEX


Pub2TEI dans ISTEX : Les documents du corpus Wiley sont désormais proposés dans un format TEI (Text Encoding Initiative) développé par Pub2TEI et finalisé par l’équipe ISTEX-DATA avec des développements en interne (Pub2TEI version ISTEX) et la production d’un schéma ODD-ISTEX disponible sous github. Pour rappel, TEI est une norme de codage de structuration de textes qui repose sur XML. […]

Fulltexts structurés à partir des PDFs avec Grobid

Fulltexts structurés à partir des PDFs avec Grobid


Introduction L’équipe ISTEX R&D vous a déjà présenté les phases de l’apprentissage des modèles segmentation (ici) et fulltext (ici). Le but de ces entraînements est de mettre à la disposition de nos utilisateurs des XMLs structurés et exploitables pour les fouilles de texte. Dans cet article, nous allons vous montrer le fruit de ces apprentissages sur les données ISTEX. En […]

Des ARK dans ISTEX

Des ARK dans ISTEX


Chères utilisatrices et utilisateurs, L’équipe ISTEX a le plaisir de vous annoncer que dans les semaines à venir, les documents disponibles dans la plateforme ISTEX vont s’enrichir d’un nouveau système d’identification pérenne : “ARK” (Archival Resource Key). Ce mécanisme, mis en place par la “CDL” (California Digital Library), est déjà utilisé par la BNF (Bibliothèque Nationale de France). Qu’est-ce qui […]

API ISTEX, v5.1.0

API ISTEX, v5.1.0


Chères utilisatrices et utilisateurs, Nous avons le plaisir de vous annoncer la mise à disposition de la version 5.1.0 de l’API ISTEX. Cette version comporte de nombreuses modifications invisibles pour l’utilisateur, mais qui permettent de renforcer la stabilité et la maintenabilité de l’API : l’implémentation d’un nouveau mécanisme de configuration la centralisation de l’ensemble des paramètres de configuration dans ce […]

Outils de découverte/OpenURL : nouvel affichage du code d’erreur 404

Outils de découverte/OpenURL : nouvel affichage du code d’erreur 404


Lorsqu’il y a échec de l’Open URL pour trouver un document dans la plateforme ISTEX, un message en JSON s’affiche « code » : 404 Vous êtes nombreux à trouver ce message peu explicite. Une couche IHM (pour Interface Homme-Machine) a été développée et rajoutée au-dessus de l’API ISTEX et en particulier de son OpenURL pour permettre l’affichage  d’un message plus explicite pour […]