Corpus spécialisés : Unitex

Corpus spécialisés : Unitex


Nouvelle publication sur la plateforme data.istex.fr : Collection Unitex Cette collection regroupe des corpus de documents ISTEX en texte intégral, non thématiques, constitués dans le but d’évaluer la détection d’entités nommées par l’outil Unitex-CasSys. Le logiciel Unitex traite des corpus de textes en langue naturelle à l’aide d’une cascade de reconnaissance des entités nommées implantée avec le programme de création […]

Le langage SPARQL au service d’ISTEX (3)

Le langage SPARQL au service d’ISTEX (3)


Lors des deux précédents billets, nous avons vu comment l’utilisation du langage SPARQL favorisait la valorisation du fonds documentaire ISTEX. Pour poursuivre dans cette voie, en interne nous avons développé un mode d’interrogation SPARQL qui présente la particularité d’enrichir dynamiquement les ressources présentent dans un  jeu de données. Ce mode d’interrogation SPARQL, implémenté dans l’outil LODEX utilisé pour publier les différents […]

OCR : production de plein texte

OCR : production de plein texte


Après plusieurs mois d’études sur l’évaluation des logiciels OCR, la mise en oeuvre des techniques d’estimation de la qualité OCR puis les tests de mise en production, l’équipe ISTEX-DATA a conçu sa propre chaîne OCR en développant des modules qui se sont intégrés à la chaîne LoadISTEX existante. Cette chaîne OCR a permis de ré-océriser les documents qui n’avaient pas […]

OCR: Pré-traitements des documents

OCR: Pré-traitements des documents


Une observation sur les documents texte (.txt) montrait que la présence de tableaux ou d’images produisait d’une part, du bruit et d’autre part une légère baisse de reconnaissance de caractère dans le document par tesseract. Une étude a donc été poussée afin d’améliorer les océrisations de documents images et deux grands points ont été réalisés à l’heure actuelle : L’extraction […]

Schéma ODD-ISTEX

Schéma ODD-ISTEX


Bonjour à toutes et à tous, Lors d’un précédent billet de blog, nous vous annoncions le chargement dans la plateforme ISTEX de valeurs ajoutées sous forme d’enrichissements. Ces données XML sont décrites sous forme d’annotations en format TEI (Text Encoding Initiative), TEI est une norme de codage de structuration de textes qui repose sur XML. Ces annotations contiennent des informations […]

Entraînement du modèle fulltext de Grobid par l’équipe R&D

Entraînement du modèle fulltext de Grobid par l’équipe R&D


Cet article est la suite de l’article « Entraînement du modèle segmentation de Grobid par l’équipe R&D ». pour retrouver les informations utiles à une bonne compréhension du présent article, il est conseillé de se référer au lien suivant :  https://blog.istex.fr/entrainement-du-…id-par-equipe-rd/ . Modèle fulltext de Grobid Le modèle fulltext s’applique sur le segment body identifié par le modèle segmentation, c’est-à-dire sur le corps de texte. […]

Entraînement du modèle segmentation de Grobid par l’équipe R&D

Entraînement du modèle segmentation de Grobid par l’équipe R&D


ISTEX et plein texte structuré À l’heure de rédaction de ce billet de blog, la plateforme ISTEX met à disposition plus de 18 millions de documents scientifiques au format PDF à l’ensemble de la communauté de l’Enseignement Supérieur et de la Recherche. Au delà d’un accès performant et pérenne aux documents PDF, la disponibilité de documents pleins textes structurés en […]

Enrichissements auteurs et sujets

Enrichissements auteurs et sujets


Les enrichissements auteurs et sujets fournis par l’ABES ont été récemment chargés dans la plateforme ISTEX et certains champs tels que ‘enrichments.hubMeta.mimetype’ et ‘enrichments.hubMeta.original’ ont été rajoutés dans l’index.Le champ enrichments.type et notamment le type abesAuthors ou abesSubjects permet également d’effectuer une recherche et une facette sur ce type d’enrichissement. Suite à ce nouvel enrichissement, nous souhaitons donc apporter quelques […]

Les enrichissements disponibles

Les enrichissements disponibles


Parmi les enrichissements produits par l’équipe ISTEX-RD, voici ceux qui sont actuellement disponibles sur l’API d‘ISTEX : • les références bibliographiques structurées par Grobid (actuellement plus de 9 millions de documents) Les références bibliographiques données par les éditeurs sont extraites et structurées par le logiciel Grobid (GeneRation Of BIbliographic Data) qui est un outil d’analyse et d’extraction d’informations bibliographgiques et […]

IMPORTANT : Restructuration du JSON

IMPORTANT : Restructuration du JSON


Chers utilisatrices et utilisateurs, Un changement important va avoir lieu dans une quinzaine de jours (semaine 50) au niveau de la sortie JSON de l’API. En effet, la structure actuelle des enrichissements est de la forme :

Cette structure va évoluer pour la forme :

Comme on peut le voir, certains champs ont été rajoutés (original, mimetype, extension) pour garder […]