Des ARK dans ISTEX

Des ARK dans ISTEX


Chères utilisatrices et utilisateurs, L’équipe ISTEX a le plaisir de vous annoncer que dans les semaines à venir, les documents disponibles dans la plateforme ISTEX vont s’enrichir d’un nouveau système d’identification pérenne : “ARK” (Archival Resource Key). Ce mécanisme, mis en place par la “CDL” (California Digital Library), est déjà utilisé par la BNF (Bibliothèque Nationale de France). Qu’est-ce qui […]

API ISTEX, v5.1.0

API ISTEX, v5.1.0


Chères utilisatrices et utilisateurs, Nous avons le plaisir de vous annoncer la mise à disposition de la version 5.1.0 de l’API ISTEX. Cette version comporte de nombreuses modifications invisibles pour l’utilisateur, mais qui permettent de renforcer la stabilité et la maintenabilité de l’API : l’implémentation d’un nouveau mécanisme de configuration la centralisation de l’ensemble des paramètres de configuration dans ce […]

Mise en ligne du corpus « Cambridge University Press »

Mise en ligne du corpus « Cambridge University Press »


Chers utilisatrices et utilisateurs, Nous avons le plaisir de vous informer que le corpus « Cambridge University Press » est à présent disponible sur la plateforme ISTEX. Ce corpus contient les archives de 312 titres de revues, publiés entre 1770 et 2010. D’un point de vue technique, ce corpus est constitué de 836 414 documents de niveau article, principalement en […]

Outils de découverte/OpenURL : nouvel affichage du code d’erreur 404

Outils de découverte/OpenURL : nouvel affichage du code d’erreur 404


Lorsqu’il y a échec de l’Open URL pour trouver un document dans la plateforme ISTEX, un message en JSON s’affiche « code » : 404 Vous êtes nombreux à trouver ce message peu explicite. Une couche IHM (pour Interface Homme-Machine) a été développée et rajoutée au-dessus de l’API ISTEX et en particulier de son OpenURL pour permettre l’affichage  d’un message plus explicite pour […]

OCR : production de plein texte

OCR : production de plein texte


Après plusieurs mois d’études sur l’évaluation des logiciels OCR, la mise en oeuvre des techniques d’estimation de la qualité OCR puis les tests de mise en production, l’équipe ISTEX-DATA a conçu sa propre chaîne OCR en développant des modules qui se sont intégrés à la chaîne LoadISTEX existante. Cette chaîne OCR a permis de ré-océriser les documents qui n’avaient pas […]

Documentation sur les enrichissements

Documentation sur les enrichissements


En lien avec l’équipe Triplex du DPI, l’équipe Istex-rd a publié la documentation relative aux outils utilisés pour produire des enrichissements dans Istex. https://enrichmenttool-list.data.istex.fr/home L’expérimentation Triplex, à l’aide de l’outil Lodex, permet de transformer une série d’informations répertoriées dans un tableau Excel en un jeu de données publiable sur https://data.istex.fr et interopérable via un SPARQL-endpoint. Ce jeu de données apporte […]

La documentation ISTEX « évolue »

La documentation ISTEX « évolue »


  Chers utilisatrices et utilisateurs, La documentation sur ISTEX évolue avec une adresse unique et dédiée  https://doc.istex.fr/  donnant l’accès à :   Une documentation Technique portant sur l’API ISTEX Des tutoriels sur l’API ISTEX Et Une documentation plus spécifiquement tournée vers l’utilisateur   N’hésitez pas à nous faire vos retours et bonne découverte! Pascale, pour l’équipe ISTEX-API       […]

Mise en ligne du corpus « Numérique premium »

Mise en ligne du corpus « Numérique premium »


Chers utilisatrices et utilisateurs, Nous venons tout juste de mettre en ligne le corpus « Numérique premium », première acquisition réalisée auprès d’un diffuseur français. Ce corpus est constitué de deux bouquets en langue française d’e-books en histoire et sciences humaines : « Littérature française et francophone » « Révolution française et Premier Empire ». Contrairement à notre habitude, et pour des raisons techniques, […]

Suppression des alias pour les facettes

Suppression des alias pour les facettes


Chers utilisatrices et utilisateurs, Comme vous avez pu le noter ces dernières semaines, nous migrons l’API en version 5 pour mettre à jour notre moteur ElasticSearch. Avec cette mise à jour importante viennent des changements importants, que nous vous avons listés ici : https://blog.istex.fr/a-venir-dans-la-version-5-de-lapi/ Nous allons profiter également de cette évolution pour rendre l’API ISTEX plus stable et performante, en nettoyant […]

OCR: Pré-traitements des documents

OCR: Pré-traitements des documents


Une observation sur les documents texte (.txt) montrait que la présence de tableaux ou d’images produisait d’une part, du bruit et d’autre part une légère baisse de reconnaissance de caractère dans le document par tesseract. Une étude a donc été poussée afin d’améliorer les océrisations de documents images et deux grands points ont été réalisés à l’heure actuelle : L’extraction […]