Métriques sur les enrichissements Istex

Métriques sur les enrichissements Istex


Istex et les enrichissements Vous savez déjà que l’équipe Istex apporte des enrichissements aux documents du fonds Istex depuis plusieurs années. Pour rappel,  l’API d’Istex les expose sous forme de fichiers TEI. Chaque document peut ainsi être enrichi par : des catégorisations scientifiques, une indexation une extraction d’entités nommées, une structuration des références bibliographiques et du texte intégral. L’équipe tient […]

IdRef : un nouvel alignement pour les « Ayants droit à l’usage d’ISTEX »

IdRef : un nouvel alignement pour les « Ayants droit à l’usage d’ISTEX »


    Dans un précédent billet de blog, nous vous avions présenté le jeu de données intitulé  « Ayants droit à l’usage d’ISTEX » de data.istex.fr : avec ses données alignées avec les données de data.bnf.fr  et enrichies avec celles du service de Fédération d’Identités Éducation Recherche. Nous avons le plaisir de vous annoncer que les données des établissements de l’ESR sont […]

Plongez au cœur d’ISTEX grâce à ses enrichissements

Plongez au cœur d’ISTEX grâce à ses enrichissements


Féru d’égyptologie, vous souhaitez exhumer tous les textes évoquant le pharaon Toutânkhamon ?  Alpiniste émérite, vous voulez explorer les articles scientifiques qui mentionnent l’Everest ? A la recherche du grand frisson, vous rêvez de vibrer aux écrits nommant le cosmonaute Youri Gagarine ? Ou de prendre le large avec l’explorateur Louis-Antoine de Bougainville ? Vous êtes à la recherche de toutes […]

ISTEX et ses fournisseurs de documents

ISTEX et ses fournisseurs de documents


Partons à la rencontre des éditeurs contractuels des Licences Nationales ayant fourni des documents pour alimenter ISTEX (cf. https://www.licencesnationales.fr/). Le site https://data.istex.fr est là pour vous éclairer via une page dédiée: « Liste des éditeurs scientifiques » https://scientific-publisher.data.istex.fr.     Liste des éditeurs scientifiques va vous apporter des informations et bien au-delà. A ce jour, les éditeurs scientifiques ayant contribué à enrichir ISTEX sont […]

Corpus spécialisés : Unitex

Corpus spécialisés : Unitex


Nouvelle publication sur la plateforme data.istex.fr : Collection Unitex Cette collection regroupe des corpus de documents ISTEX en texte intégral, non thématiques, constitués dans le but d’évaluer la détection d’entités nommées par l’outil Unitex-CasSys. Le logiciel Unitex traite des corpus de textes en langue naturelle à l’aide d’une cascade de reconnaissance des entités nommées implantée avec le programme de création […]

Le langage SPARQL au service d’ISTEX (3)

Le langage SPARQL au service d’ISTEX (3)


Lors des deux précédents billets, nous avons vu comment l’utilisation du langage SPARQL favorisait la valorisation du fonds documentaire ISTEX. Pour poursuivre dans cette voie, en interne nous avons développé un mode d’interrogation SPARQL qui présente la particularité d’enrichir dynamiquement les ressources présentent dans un  jeu de données. Ce mode d’interrogation SPARQL, implémenté dans l’outil LODEX utilisé pour publier les différents […]

OCR : production de plein texte

OCR : production de plein texte


Après plusieurs mois d’études sur l’évaluation des logiciels OCR, la mise en oeuvre des techniques d’estimation de la qualité OCR puis les tests de mise en production, l’équipe ISTEX-DATA a conçu sa propre chaîne OCR en développant des modules qui se sont intégrés à la chaîne LoadISTEX existante. Cette chaîne OCR a permis de ré-océriser les documents qui n’avaient pas […]

OCR: Pré-traitements des documents

OCR: Pré-traitements des documents


Une observation sur les documents texte (.txt) montrait que la présence de tableaux ou d’images produisait d’une part, du bruit et d’autre part une légère baisse de reconnaissance de caractère dans le document par tesseract. Une étude a donc été poussée afin d’améliorer les océrisations de documents images et deux grands points ont été réalisés à l’heure actuelle : L’extraction […]

Schéma ODD-ISTEX

Schéma ODD-ISTEX


Bonjour à toutes et à tous, Lors d’un précédent billet de blog, nous vous annoncions le chargement dans la plateforme ISTEX de valeurs ajoutées sous forme d’enrichissements. Ces données XML sont décrites sous forme d’annotations en format TEI (Text Encoding Initiative), TEI est une norme de codage de structuration de textes qui repose sur XML. Ces annotations contiennent des informations […]

Entraînement du modèle fulltext de Grobid par l’équipe R&D

Entraînement du modèle fulltext de Grobid par l’équipe R&D


Cet article est la suite de l’article « Entraînement du modèle segmentation de Grobid par l’équipe R&D ». pour retrouver les informations utiles à une bonne compréhension du présent article, il est conseillé de se référer au lien suivant :  https://blog.istex.fr//entrainement-du-…id-par-equipe-rd/ . Modèle fulltext de Grobid Le modèle fulltext s’applique sur le segment body identifié par le modèle segmentation, c’est-à-dire sur le corps de texte. […]