Mise en ligne du corpus « Numérique premium »

Mise en ligne du corpus « Numérique premium »


Chers utilisatrices et utilisateurs, Nous venons tout juste de mettre en ligne le corpus « Numérique premium », première acquisition réalisée auprès d’un diffuseur français. Ce corpus est constitué de deux bouquets en langue française d’e-books en histoire et sciences humaines : « Littérature française et francophone » « Révolution française et Premier Empire ». Contrairement à notre habitude, et pour des raisons techniques, […]

Suppression des alias pour les facettes

Suppression des alias pour les facettes


Chers utilisatrices et utilisateurs, Comme vous avez pu le noter ces dernières semaines, nous migrons l’API en version 5 pour mettre à jour notre moteur ElasticSearch. Avec cette mise à jour importante viennent des changements importants, que nous vous avons listés ici : https://blog.istex.fr/a-venir-dans-la-version-5-de-lapi/ Nous allons profiter également de cette évolution pour rendre l’API ISTEX plus stable et performante, en nettoyant […]

OCR: Pré-traitements des documents

OCR: Pré-traitements des documents


Une observation sur les documents texte (.txt) montrait que la présence de tableaux ou d’images produisait d’une part, du bruit et d’autre part une légère baisse de reconnaissance de caractère dans le document par tesseract. Une étude a donc été poussée afin d’améliorer les océrisations de documents images et deux grands points ont été réalisés à l’heure actuelle : L’extraction […]

Schéma ODD-ISTEX

Schéma ODD-ISTEX


Bonjour à toutes et à tous, Lors d’un précédent billet de blog, nous vous annoncions le chargement dans la plateforme ISTEX de valeurs ajoutées sous forme d’enrichissements. Ces données XML sont décrites sous forme d’annotations en format TEI (Text Encoding Initiative), TEI est une norme de codage de structuration de textes qui repose sur XML. Ces annotations contiennent des informations […]

Fin de maintenance et bascule de la v5 vers api.istex.fr

Fin de maintenance et bascule de la v5 vers api.istex.fr


Bonjour à tous, Dans le précédent billet de blog, nous vous faisions part de problèmes techniques, entraînant des perturbations sur l’API. En ce début de semaine, la situation est la suivante : les opérations de maintenance permettant de redonner accès aux fichiers générés (MODS, TEI, …) commençant par zéro sont quasiment terminées. Il reste encore des manipulations qui entraîneront des […]

API ISTEX en mode dégradé

API ISTEX en mode dégradé


Bonjour à toutes et à tous, Si vous nous avez suivi sur twitter (#istexdev) ou sur la liste de discussion (api-users@listes.istex.fr), vous avez constaté que l’API subit de fortes perturbations depuis le début de la semaine (coupure totale ou accès partiel). La situation n’étant toujours pas totalement rétablie, nous souhaitions faire un point sur la situation. D’un point de vue […]

Entraînement du modèle fulltext de Grobid par l’équipe R&D

Entraînement du modèle fulltext de Grobid par l’équipe R&D


Cet article est la suite de l’article « Entraînement du modèle segmentation de Grobid par l’équipe R&D ». pour retrouver les informations utiles à une bonne compréhension du présent article, il est conseillé de se référer au lien suivant :  https://blog.istex.fr/entrainement-du-…id-par-equipe-rd/ . Modèle fulltext de Grobid Le modèle fulltext s’applique sur le segment body identifié par le modèle segmentation, c’est-à-dire sur le corps de texte. […]

Entraînement du modèle segmentation de Grobid par l’équipe R&D

Entraînement du modèle segmentation de Grobid par l’équipe R&D


ISTEX et plein texte structuré À l’heure de rédaction de ce billet de blog, la plateforme ISTEX met à disposition plus de 18 millions de documents scientifiques au format PDF à l’ensemble de la communauté de l’Enseignement Supérieur et de la Recherche. Au delà d’un accès performant et pérenne aux documents PDF, la disponibilité de documents pleins textes structurés en […]

Version 5 de l’API : déroulement des opérations

Version 5 de l’API : déroulement des opérations


Chers utilisateurs et utilisatrices, Nous vous avons annoncé dans un précédent billet la publication prochaine de la version 5 de l’API. Ce billet a pour but de préciser le déroulement des opérations et le calendrier de mise en œuvre. Pour vous laisser le temps d’adapter vos scripts et interfaçages de l’API, nous avons décidé de faire cohabiter les versions 4 […]

À venir dans la version 5 de l’API

À venir dans la version 5 de l’API


Chers utilisateurs et utilisatrices, Depuis plusieurs semaines, nous avons entamé un processus de mise à jour de notre moteur de recherche Elasticsearch, de la version 1.7 à la version 5.3. Cette mise à jour étant un grand saut (nous avons « sauté » la version 2.x du logiciel), elle apporte un grand nombre de nouveautés et de changements. Un gain en performance […]