Triple Store: chargement des 43 millions de triplets

Triple Store: chargement des 43 millions de triplets


Pour la première fois, l’équipe ISTEX-LOD a chargé dans son Triple Store les triplets faisant le lien entre les ressources d’un jeu et les documents ISTEX correspondant. En l’occurrence, il s’agit du jeu inist-category (contenant les valeurs de la facette categories.inist). C’est le premier maillon d’une chaîne qui permettra, en faisant de même pour tous les jeux de données de […]

Mise en ligne du corpus Geological Society of London

Mise en ligne du corpus Geological Society of London


L’équipe ISTEX vous annonce la mise en production d’un nouveau corpus qui couvre le domaine de la géologie. The Geological Society est une société savante créée au tout début du XIXème siècle au Royaume-Uni. Fondée en 1807, c’est la plus ancienne société géologique dans le monde. Peu après sa création, la maison d’édition qui lui est associée, GSL Publishing, voit […]

Documentation sur la constitution de corpus thématiques

Documentation sur la constitution de corpus thématiques


Pour démarrer cette nouvelle année, l’équipe ISTEX-CORPUS met en ligne une documentation destinée à répondre aux questions des utilisateurs d’ISTEX désireux de constituer un corpus de textes intégraux à partir de l’API, en vue d’une utilisation éventuelle en traitement automatique du langage (TAL) ou en fouille de textes et de données (TDM). Cette documentation présente des conseils et des astuces […]

Mise en ligne du corpus « EDP Sciences»

Mise en ligne du corpus « EDP Sciences»


  L’équipe ISTEX a le plaisir de vous annoncer que le corpus « EDP Sciences » est désormais disponible sur la plateforme ISTEX.   Ce corpus contient les archives de 91 titres de revues publiés entre 1789 et 2014, dont les prestigieux titres « Journal de Physique » et « Le Radium ». Il couvre les domaines allant des mathématiques aux sciences du vivant en […]

Une nouvelle intégration du bouton ISTEX : HAL

Une nouvelle intégration du bouton ISTEX : HAL


  Bonjour à tous, Nous vous informons qu’une nouvelle intégration du bouton ISTEX vient d’être mise en place dans les archives ouvertes HAL. Le bouton d’accès ISTEX s’affiche dans le cas où la ressource n’est pas disponible en libre accès sur une plateforme comme arXiv ou PubMed Central, mais présente sur la plateforme ISTEX.     N’hésitez pas à consulter […]

Mise à jour du corpus Springer

Mise à jour du corpus Springer


Chers utilisateurs et utilisatrices, C’est avec un grand plaisir que nous vous annonçons la mise à jour du corpus Springer. Comme indiqué lors du précédent billet de blog, les documents de l’éditeur Springer sont à présent disponibles sous deux noms de corpus : springer-journals : pour tous les documents de type « article » springer-ebooks : pour tous les documents de type […]

Nouveautés récentes et à venir sur l’API

Nouveautés récentes et à venir sur l’API


Chers utilisateurs et utilisatrices, Nous profitons de ce billet pour faire un petit point d’avancement sur les dernières nouveautés et celles à venir en cette fin d’année.   Des ARKs pour tous les corpus Il n’y a pas eu de changement majeur au niveau de l’API ISTEX ces dernières semaines, mais une nouveauté marquante fut l’attribution d’identifiants ARK sur les […]

Calcul de l’indicateur OCR

Calcul de l’indicateur OCR


Dans le cadre du projet ISTEX, l’usage de l’OCR est essentiellement destiné à l’amélioration de plein texte ayant déjà fait l’objet d’une OCRisation par des éditeurs. Dès lors se pose la question d’évaluer la qualité intrinsèque d’un résultat d’OCR afin de déterminer quels documents doivent faire l’objet d’une ré-OCRisation, de sélectionner le meilleur résultat entre différents OCR et mesurer les […]

Pub2TEI dans ISTEX

Pub2TEI dans ISTEX


Pub2TEI dans ISTEX : Les documents du corpus Wiley sont désormais proposés dans un format TEI (Text Encoding Initiative) développé par Pub2TEI et finalisé par l’équipe ISTEX-DATA avec des développements en interne (Pub2TEI version ISTEX) et la production d’un schéma ODD-ISTEX disponible sous github. Pour rappel, TEI est une norme de codage de structuration de textes qui repose sur XML. […]

Fulltexts structurés à partir des PDFs avec Grobid

Fulltexts structurés à partir des PDFs avec Grobid


Introduction L’équipe ISTEX R&D vous a déjà présenté les phases de l’apprentissage des modèles segmentation (ici) et fulltext (ici). Le but de ces entraînements est de mettre à la disposition de nos utilisateurs des XMLs structurés et exploitables pour les fouilles de texte. Dans cet article, nous allons vous montrer le fruit de ces apprentissages sur les données ISTEX. En […]