Le langage SPARQL au service d’ISTEX (3)

Le langage SPARQL au service d’ISTEX (3)


Lors des deux précédents billets, nous avons vu comment l’utilisation du langage SPARQL favorisait la valorisation du fonds documentaire ISTEX. Pour poursuivre dans cette voie, en interne nous avons développé un mode d’interrogation SPARQL qui présente la particularité d’enrichir dynamiquement les ressources présentent dans un  jeu de données. Ce mode d’interrogation SPARQL, implémenté dans l’outil LODEX utilisé pour publier les différents […]

Calcul de l’indicateur OCR

Calcul de l’indicateur OCR


Dans le cadre du projet ISTEX, l’usage de l’OCR est essentiellement destiné à l’amélioration de plein texte ayant déjà fait l’objet d’une OCRisation par des éditeurs. Dès lors se pose la question d’évaluer la qualité intrinsèque d’un résultat d’OCR afin de déterminer quels documents doivent faire l’objet d’une ré-OCRisation, de sélectionner le meilleur résultat entre différents OCR et mesurer les […]

Fulltexts structurés à partir des PDFs avec Grobid

Fulltexts structurés à partir des PDFs avec Grobid


Introduction L’équipe ISTEX R&D vous a déjà présenté les phases de l’apprentissage des modèles segmentation (ici) et fulltext (ici). Le but de ces entraînements est de mettre à la disposition de nos utilisateurs des XMLs structurés et exploitables pour les fouilles de texte. Dans cet article, nous allons vous montrer le fruit de ces apprentissages sur les données ISTEX. En […]

Suppression des alias pour les facettes

Suppression des alias pour les facettes


Chers utilisatrices et utilisateurs, Comme vous avez pu le noter ces dernières semaines, nous migrons l’API en version 5 pour mettre à jour notre moteur ElasticSearch. Avec cette mise à jour importante viennent des changements importants, que nous vous avons listés ici : https://blog.istex.fr/a-venir-dans-la-version-5-de-lapi/ Nous allons profiter également de cette évolution pour rendre l’API ISTEX plus stable et performante, en nettoyant […]

OCR: Pré-traitements des documents

OCR: Pré-traitements des documents


Une observation sur les documents texte (.txt) montrait que la présence de tableaux ou d’images produisait d’une part, du bruit et d’autre part une légère baisse de reconnaissance de caractère dans le document par tesseract. Une étude a donc été poussée afin d’améliorer les océrisations de documents images et deux grands points ont été réalisés à l’heure actuelle : L’extraction […]

Entraînement du modèle fulltext de Grobid par l’équipe R&D

Entraînement du modèle fulltext de Grobid par l’équipe R&D


Cet article est la suite de l’article « Entraînement du modèle segmentation de Grobid par l’équipe R&D ». pour retrouver les informations utiles à une bonne compréhension du présent article, il est conseillé de se référer au lien suivant :  https://blog.istex.fr/entrainement-du-…id-par-equipe-rd/ . Modèle fulltext de Grobid Le modèle fulltext s’applique sur le segment body identifié par le modèle segmentation, c’est-à-dire sur le corps de texte. […]

Entraînement du modèle segmentation de Grobid par l’équipe R&D

Entraînement du modèle segmentation de Grobid par l’équipe R&D


ISTEX et plein texte structuré À l’heure de rédaction de ce billet de blog, la plateforme ISTEX met à disposition plus de 18 millions de documents scientifiques au format PDF à l’ensemble de la communauté de l’Enseignement Supérieur et de la Recherche. Au delà d’un accès performant et pérenne aux documents PDF, la disponibilité de documents pleins textes structurés en […]

IMPORTANT : Restructuration du JSON

IMPORTANT : Restructuration du JSON


Chers utilisatrices et utilisateurs, Un changement important va avoir lieu dans une quinzaine de jours (semaine 50) au niveau de la sortie JSON de l’API. En effet, la structure actuelle des enrichissements est de la forme :

Cette structure va évoluer pour la forme :

Comme on peut le voir, certains champs ont été rajoutés (original, mimetype, extension) pour garder […]

Fin du Sprint 37 d’ISTEX-API: « Fed-Ex, après la préparation, la livraison »

Fin du Sprint 37 d’ISTEX-API: « Fed-Ex, après la préparation, la livraison »


Bonjour,   Nous avons terminé le sprint #37 « Fed-Ex, après la préparation, la livraison » ce mardi. Voici le Burndown chart et le Reste-à-faire : Les premiers congés estivaux au sein de l’équipe se font sentir, néanmoins, nous avons tout de même été en capacité d’effectuer un certains nombre de réalisation : Passage de l’API v3.9 Bugfix sur l’authentification par IP, […]

Export de sous-corpus, disponible en intégration

Export de sous-corpus, disponible en intégration


Bonjour, Une nouvelle fonctionnalité vient de faire son apparition sur l’API : l’extraction (ou export) de sous-corpus. Celle-ci est disponible sur la version d’intégration (api-integ.istex.fr). Grâce à cette fonctionnalité, vous serez en capacité de demander à l’API de vous fournir une archive ZIP contenant les fichiers relatifs aux documents correspondants à votre recherche. Pour ceux et celles d’entre vous qui […]