OCR: Pré-traitements des documents

OCR: Pré-traitements des documents


Une observation sur les documents texte (.txt) montrait que la présence de tableaux ou d’images produisait d’une part, du bruit et d’autre part une légère baisse de reconnaissance de caractère dans le document par tesseract. Une étude a donc été poussée afin d’améliorer les océrisations de documents images et deux grands points ont été réalisés à l’heure actuelle : L’extraction […]

Schéma ODD-ISTEX

Schéma ODD-ISTEX


Bonjour à toutes et à tous, Lors d’un précédent billet de blog, nous vous annoncions le chargement dans la plateforme ISTEX de valeurs ajoutées sous forme d’enrichissements. Ces données XML sont décrites sous forme d’annotations en format TEI (Text Encoding Initiative), TEI est une norme de codage de structuration de textes qui repose sur XML. Ces annotations contiennent des informations […]

Fin de maintenance et bascule de la v5 vers api.istex.fr

Fin de maintenance et bascule de la v5 vers api.istex.fr


Bonjour à tous, Dans le précédent billet de blog, nous vous faisions part de problèmes techniques, entraînant des perturbations sur l’API. En ce début de semaine, la situation est la suivante : les opérations de maintenance permettant de redonner accès aux fichiers générés (MODS, TEI, …) commençant par zéro sont quasiment terminées. Il reste encore des manipulations qui entraîneront des […]

Océrisation du corpus Nature

Océrisation du corpus Nature


  L’équipe ISTEX-DATA a le plaisir de vous annoncer l’océrisation de 329 744 documents pour le corpus Nature, soit l’équivalent de plus de 600 000 pages. Cette océrisation concerne les PDF dépourvu de texte et permet de proposer des fichiers TXT (fulltext/ocr) pour tout le corpus Nature disponibles dans le démonstrateur avec l’icône suivante : D’autres corpus seront océrisés dans […]

L’OpenURL passe la seconde…

L’OpenURL passe la seconde…


Chèr(es) utilisatrices et utilisateurs, Nous venons de franchir une étape importante aujourd’hui en mettant en production une nouvelle version de l’API, numérotée 4.1.0. Celle-ci apporte un gain important en rapidité au niveau du résolveur OpenURL, grâce à la mise en cache côté API du lien DOI vers identifiant ISTEX. Ce cache interne gère également le lien à partir des identifiants […]

Informations sur la nouvelle version de l’API

Informations sur la nouvelle version de l’API


Bonjour, Comme nous vous l’avons indiqué la semaine dernière, la version de l’API 4.0.2 est en ligne. Cette mise à jour entraîne quelques comportements de transition, que nous souhaitons vous communiquer : Vous pouvez apercevoir la présence d’enrichissements de type refBib au lieu de refBibs pour certains corpus, Vous pouvez voir également des catégories WOS et Science-Metrix en majuscules et […]

Sprint 38 : Fédération d’identités

Sprint 38 : Fédération d’identités


Chers utilisateurs et utilisatrices, après une période de congés d’été un peu moins formalisée, l’équipe ISTEX-API reprend un cycle normal et débute son sprint n°38, intitulé « Fédération d’identités (Spreading ESR) » Date de début : 06/09/2016 Date de fin : 04/10/2016 Nombre de jours ouvrés : 19 Sprint incluant 3 jours de formation et un déplacement de 3j pour un membre […]

Journée de la terre

Journée de la terre


La planète célèbre la Journée de la Terre ce vendredi 22 avril 2016. Cette année, la journée de la terre sera consacrée aux arbres. L’équipe ISTEX-DATA en profite pour faire un focus sur quelques revues ‘phares’ dans le domaine de l’écologie. Certaines publications à très haut facteur d’impact, référencées dans le JCR 2014, font parties des corpus ISTEX et nous […]

Sprint #8 d’ISTEX-DATA : « Docteur Levenshtein »

Sprint #8 d’ISTEX-DATA : « Docteur Levenshtein »


Bonjour, L’équipe ISTEX-DATA entame le Sprint #8: « Docteur Levenshtein ». Il a commencé vendredi 25 mars par sa planification et se terminera le 12 mai 2016 par sa revue de sprint. Voici la répartition de la charge de travail par thématique de travail, en fonction des points de complexité attribués par les membres de l’équipe :   Dans la thématique « Editeur, FSMAP, XSL« , […]

IOP Publishing

IOP Publishing


Chers utilisatrices et utilisateurs, Les plus curieux l’auront sûrement remarqué, nous avons mis à disposition un 11ème corpus à travers l’API, celui de l’Institute Of Physics (IOP). Ce corpus comprend 391110 articles de revues, majoritairement en langue anglaise. Vous pouvez dès à présent y accéder via l’API, le démonstrateur ou les widgets en sélectionnant le corpus nommé « iop ». L’API compte désormais […]