Calcul de l’indicateur OCR

Calcul de l’indicateur OCR


Dans le cadre du projet ISTEX, l’usage de l’OCR est essentiellement destiné à l’amélioration de plein texte ayant déjà fait l’objet d’une OCRisation par des éditeurs. Dès lors se pose la question d’évaluer la qualité intrinsèque d’un résultat d’OCR afin de déterminer quels documents doivent faire l’objet d’une ré-OCRisation, de sélectionner le meilleur résultat entre différents OCR et mesurer les […]

Pub2TEI dans ISTEX

Pub2TEI dans ISTEX


Pub2TEI dans ISTEX : Les documents du corpus Wiley sont désormais proposés dans un format TEI (Text Encoding Initiative) développé par Pub2TEI et finalisé par l’équipe ISTEX-DATA avec des développements en interne (Pub2TEI version ISTEX) et la production d’un schéma ODD-ISTEX disponible sous github. Pour rappel, TEI est une norme de codage de structuration de textes qui repose sur XML. […]

Fulltexts structurés à partir des PDFs avec Grobid

Fulltexts structurés à partir des PDFs avec Grobid


Introduction L’équipe ISTEX R&D vous a déjà présenté les phases de l’apprentissage des modèles segmentation (ici) et fulltext (ici). Le but de ces entraînements est de mettre à la disposition de nos utilisateurs des XMLs structurés et exploitables pour les fouilles de texte. Dans cet article, nous allons vous montrer le fruit de ces apprentissages sur les données ISTEX. En […]

Des ARK dans ISTEX

Des ARK dans ISTEX


Chères utilisatrices et utilisateurs, L’équipe ISTEX a le plaisir de vous annoncer que dans les semaines à venir, les documents disponibles dans la plateforme ISTEX vont s’enrichir d’un nouveau système d’identification pérenne : “ARK” (Archival Resource Key). Ce mécanisme, mis en place par la “CDL” (California Digital Library), est déjà utilisé par la BNF (Bibliothèque Nationale de France). Qu’est-ce qui […]

API ISTEX, v5.1.0

API ISTEX, v5.1.0


Chères utilisatrices et utilisateurs, Nous avons le plaisir de vous annoncer la mise à disposition de la version 5.1.0 de l’API ISTEX. Cette version comporte de nombreuses modifications invisibles pour l’utilisateur, mais qui permettent de renforcer la stabilité et la maintenabilité de l’API : l’implémentation d’un nouveau mécanisme de configuration la centralisation de l’ensemble des paramètres de configuration dans ce […]

Mise en ligne du corpus « Cambridge University Press »

Mise en ligne du corpus « Cambridge University Press »


Chers utilisatrices et utilisateurs, Nous avons le plaisir de vous informer que le corpus « Cambridge University Press » est à présent disponible sur la plateforme ISTEX. Ce corpus contient les archives de 312 titres de revues, publiés entre 1770 et 2010. D’un point de vue technique, ce corpus est constitué de 836 414 documents de niveau article, principalement en […]

Outils de découverte/OpenURL : nouvel affichage du code d’erreur 404

Outils de découverte/OpenURL : nouvel affichage du code d’erreur 404


Lorsqu’il y a échec de l’Open URL pour trouver un document dans la plateforme ISTEX, un message en JSON s’affiche « code » : 404 Vous êtes nombreux à trouver ce message peu explicite. Une couche IHM (pour Interface Homme-Machine) a été développée et rajoutée au-dessus de l’API ISTEX et en particulier de son OpenURL pour permettre l’affichage  d’un message plus explicite pour […]

OCR : production de plein texte

OCR : production de plein texte


Après plusieurs mois d’études sur l’évaluation des logiciels OCR, la mise en oeuvre des techniques d’estimation de la qualité OCR puis les tests de mise en production, l’équipe ISTEX-DATA a conçu sa propre chaîne OCR en développant des modules qui se sont intégrés à la chaîne LoadISTEX existante. Cette chaîne OCR a permis de ré-océriser les documents qui n’avaient pas […]

Documentation sur les enrichissements

Documentation sur les enrichissements


En lien avec l’équipe Triplex du DPI, l’équipe Istex-rd a publié la documentation relative aux outils utilisés pour produire des enrichissements dans Istex. https://enrichmenttool-list.data.istex.fr/home L’expérimentation Triplex, à l’aide de l’outil Lodex, permet de transformer une série d’informations répertoriées dans un tableau Excel en un jeu de données publiable sur https://data.istex.fr et interopérable via un SPARQL-endpoint. Ce jeu de données apporte […]

La documentation ISTEX « évolue »

La documentation ISTEX « évolue »


  Chers utilisatrices et utilisateurs, La documentation sur ISTEX évolue avec une adresse unique et dédiée  https://doc.istex.fr/  donnant l’accès à :   Une documentation Technique portant sur l’API ISTEX Des tutoriels sur l’API ISTEX Et Une documentation plus spécifiquement tournée vers l’utilisateur   N’hésitez pas à nous faire vos retours et bonne découverte! Pascale, pour l’équipe ISTEX-API       […]