« Revue-Sommaire » un nouveau mode d’accès aux ressources ISTEX

« Revue-Sommaire » un nouveau mode d’accès aux ressources ISTEX


La plateforme ISTEX, riche de plus de 21 millions d’objets documentaires,  offre à la communauté d’utilisateurs de l’ESR la possibilité d’utiliser ses services : de recherche documentaire à travers plusieurs outils (API, widgets, plugin navigateur, …) de téléchargement massif d’une partie ou de la totalité du corpus (dl.istex.fr, moissonnage en ligne de commande…)   Un nouveau mode d’accès aux ressources […]

Pub2TEI dans ISTEX

Pub2TEI dans ISTEX


Pub2TEI dans ISTEX : Les documents du corpus Wiley sont désormais proposés dans un format TEI (Text Encoding Initiative) développé par Pub2TEI et finalisé par l’équipe ISTEX-DATA avec des développements en interne (Pub2TEI version ISTEX) et la production d’un schéma ODD-ISTEX disponible sous github. Pour rappel, TEI est une norme de codage de structuration de textes qui repose sur XML. […]

OCR : production de plein texte

OCR : production de plein texte


Après plusieurs mois d’études sur l’évaluation des logiciels OCR, la mise en oeuvre des techniques d’estimation de la qualité OCR puis les tests de mise en production, l’équipe ISTEX-DATA a conçu sa propre chaîne OCR en développant des modules qui se sont intégrés à la chaîne LoadISTEX existante. Cette chaîne OCR a permis de ré-océriser les documents qui n’avaient pas […]

Suppression des alias pour les facettes

Suppression des alias pour les facettes


Chers utilisatrices et utilisateurs, Comme vous avez pu le noter ces dernières semaines, nous migrons l’API en version 5 pour mettre à jour notre moteur ElasticSearch. Avec cette mise à jour importante viennent des changements importants, que nous vous avons listés ici : https://blog.istex.fr/a-venir-dans-la-version-5-de-lapi/ Nous allons profiter également de cette évolution pour rendre l’API ISTEX plus stable et performante, en nettoyant […]

OCR: Pré-traitements des documents

OCR: Pré-traitements des documents


Une observation sur les documents texte (.txt) montrait que la présence de tableaux ou d’images produisait d’une part, du bruit et d’autre part une légère baisse de reconnaissance de caractère dans le document par tesseract. Une étude a donc été poussée afin d’améliorer les océrisations de documents images et deux grands points ont été réalisés à l’heure actuelle : L’extraction […]

Schéma ODD-ISTEX

Schéma ODD-ISTEX


Bonjour à toutes et à tous, Lors d’un précédent billet de blog, nous vous annoncions le chargement dans la plateforme ISTEX de valeurs ajoutées sous forme d’enrichissements. Ces données XML sont décrites sous forme d’annotations en format TEI (Text Encoding Initiative), TEI est une norme de codage de structuration de textes qui repose sur XML. Ces annotations contiennent des informations […]

Informations sur la nouvelle version de l’API

Informations sur la nouvelle version de l’API


Bonjour, Comme nous vous l’avons indiqué la semaine dernière, la version de l’API 4.0.2 est en ligne. Cette mise à jour entraîne quelques comportements de transition, que nous souhaitons vous communiquer : Vous pouvez apercevoir la présence d’enrichissements de type refBib au lieu de refBibs pour certains corpus, Vous pouvez voir également des catégories WOS et Science-Metrix en majuscules et […]

Chaîne OCR

Chaîne OCR


Après plusieurs mois d’étude sur l’évaluation des logiciels OCR, les techniques d’estimation de qualité OCR puis les tests de mise en production, l’équipe ISTEX-DATA a conçu sa propre chaîne OCR en développant des modules qui se sont intégrés à la chaîne LoadISTEX existante. Cette chaîne OCR va permettre d’océriser dans un premier temps les PDF ‘image’ (absence de texte) et […]

IMPORTANT : Restructuration du JSON

IMPORTANT : Restructuration du JSON


Chers utilisatrices et utilisateurs, Un changement important va avoir lieu dans une quinzaine de jours (semaine 50) au niveau de la sortie JSON de l’API. En effet, la structure actuelle des enrichissements est de la forme :

Cette structure va évoluer pour la forme :

Comme on peut le voir, certains champs ont été rajoutés (original, mimetype, extension) pour garder […]

Export de sous-corpus, disponible en intégration

Export de sous-corpus, disponible en intégration


Bonjour, Une nouvelle fonctionnalité vient de faire son apparition sur l’API : l’extraction (ou export) de sous-corpus. Celle-ci est disponible sur la version d’intégration (api-integ.istex.fr). Grâce à cette fonctionnalité, vous serez en capacité de demander à l’API de vous fournir une archive ZIP contenant les fichiers relatifs aux documents correspondants à votre recherche. Pour ceux et celles d’entre vous qui […]