ISTEX-DL : Vous en rêviez, ISTEX l’a fait !

ISTEX-DL : Vous en rêviez, ISTEX l’a fait !


  À tous ceux qui ont un jour rêvé d’un filet miraculeux, capturant sans peine dans le grand fonds ISTEX les publications après lesquelles ils soupiraient, notre interface de téléchargement est faite pour eux. Lancée en septembre 2017, l’application ISTEX Download (ou ISTEX-DL) aujourd’hui a fait peau neuve.   Dans une version revisitée aux couleurs d’ISTEX, elle vous offre désormais […]

Ajout de l’année 2015 au corpus Wiley

Ajout de l’année 2015 au corpus Wiley


Chers utilisateurs et utilisatrices, Nous avons le plaisir de vous annoncer la mise à jour du corpus Wiley, avec l’ajout des articles publiés en 2015. Cet ajout porte le nombre de documents de ce corpus à 5345607, soit un total de 21837390 tous corpus confondus. Une particularité de ce corpus est la mise à disposition d’un format TEI complet et structuré, […]

Mise en ligne du corpus Geological Society of London

Mise en ligne du corpus Geological Society of London


L’équipe ISTEX vous annonce la mise en production d’un nouveau corpus qui couvre le domaine de la géologie. The Geological Society est une société savante créée au tout début du XIXème siècle au Royaume-Uni. Fondée en 1807, c’est la plus ancienne société géologique dans le monde. Peu après sa création, la maison d’édition qui lui est associée, GSL Publishing, voit […]

API ISTEX, v5.1.0

API ISTEX, v5.1.0


Chères utilisatrices et utilisateurs, Nous avons le plaisir de vous annoncer la mise à disposition de la version 5.1.0 de l’API ISTEX. Cette version comporte de nombreuses modifications invisibles pour l’utilisateur, mais qui permettent de renforcer la stabilité et la maintenabilité de l’API : l’implémentation d’un nouveau mécanisme de configuration la centralisation de l’ensemble des paramètres de configuration dans ce […]

Mise en ligne du corpus « Cambridge University Press »

Mise en ligne du corpus « Cambridge University Press »


Chers utilisatrices et utilisateurs, Nous avons le plaisir de vous informer que le corpus « Cambridge University Press » est à présent disponible sur la plateforme ISTEX. Ce corpus contient les archives de 312 titres de revues, publiés entre 1770 et 2010. D’un point de vue technique, ce corpus est constitué de 836 414 documents de niveau article, principalement en […]

La documentation ISTEX « évolue »

La documentation ISTEX « évolue »


  Chers utilisatrices et utilisateurs, La documentation sur ISTEX évolue avec une adresse unique et dédiée  https://doc.istex.fr/  donnant l’accès à :   Une documentation Technique portant sur l’API ISTEX Des tutoriels sur l’API ISTEX Et Une documentation plus spécifiquement tournée vers l’utilisateur   N’hésitez pas à nous faire vos retours et bonne découverte! Pascale, pour l’équipe ISTEX-API       […]

Mise en ligne du corpus « Numérique premium »

Mise en ligne du corpus « Numérique premium »


Chers utilisatrices et utilisateurs, Nous venons tout juste de mettre en ligne le corpus « Numérique premium », première acquisition réalisée auprès d’un diffuseur français. Ce corpus est constitué de deux bouquets en langue française d’e-books en histoire et sciences humaines : « Littérature française et francophone » « Révolution française et Premier Empire ». Contrairement à notre habitude, et pour des raisons techniques, […]

Suppression des alias pour les facettes

Suppression des alias pour les facettes


Chers utilisatrices et utilisateurs, Comme vous avez pu le noter ces dernières semaines, nous migrons l’API en version 5 pour mettre à jour notre moteur ElasticSearch. Avec cette mise à jour importante viennent des changements importants, que nous vous avons listés ici : https://blog.istex.fr/a-venir-dans-la-version-5-de-lapi/ Nous allons profiter également de cette évolution pour rendre l’API ISTEX plus stable et performante, en nettoyant […]

OCR: Pré-traitements des documents

OCR: Pré-traitements des documents


Une observation sur les documents texte (.txt) montrait que la présence de tableaux ou d’images produisait d’une part, du bruit et d’autre part une légère baisse de reconnaissance de caractère dans le document par tesseract. Une étude a donc été poussée afin d’améliorer les océrisations de documents images et deux grands points ont été réalisés à l’heure actuelle : L’extraction […]

Schéma ODD-ISTEX

Schéma ODD-ISTEX


Bonjour à toutes et à tous, Lors d’un précédent billet de blog, nous vous annoncions le chargement dans la plateforme ISTEX de valeurs ajoutées sous forme d’enrichissements. Ces données XML sont décrites sous forme d’annotations en format TEI (Text Encoding Initiative), TEI est une norme de codage de structuration de textes qui repose sur XML. Ces annotations contiennent des informations […]