Documentation sur les enrichissements

Documentation sur les enrichissements


En lien avec l’équipe Triplex du DPI, l’équipe Istex-rd a publié la documentation relative aux outils utilisés pour produire des enrichissements dans Istex. https://enrichmenttool-list.data.istex.fr/home L’expérimentation Triplex, à l’aide de l’outil Lodex, permet de transformer une série d’informations répertoriées dans un tableau Excel en un jeu de données publiable sur https://data.istex.fr et interopérable via un SPARQL-endpoint. Ce jeu de données apporte […]

La documentation ISTEX « évolue »

La documentation ISTEX « évolue »


  Chers utilisatrices et utilisateurs, La documentation sur ISTEX évolue avec une adresse unique et dédiée  https://doc.istex.fr/  donnant l’accès à :   Une documentation Technique portant sur l’API ISTEX Des tutoriels sur l’API ISTEX Et Une documentation plus spécifiquement tournée vers l’utilisateur   N’hésitez pas à nous faire vos retours et bonne découverte! Pascale, pour l’équipe ISTEX-API       […]

Mise en ligne du corpus « Numérique premium »

Mise en ligne du corpus « Numérique premium »


Chers utilisatrices et utilisateurs, Nous venons tout juste de mettre en ligne le corpus « Numérique premium », première acquisition réalisée auprès d’un diffuseur français. Ce corpus est constitué de deux bouquets en langue française d’e-books en histoire et sciences humaines : « Littérature française et francophone » « Révolution française et Premier Empire ». Contrairement à notre habitude, et pour des raisons techniques, […]

Suppression des alias pour les facettes

Suppression des alias pour les facettes


Chers utilisatrices et utilisateurs, Comme vous avez pu le noter ces dernières semaines, nous migrons l’API en version 5 pour mettre à jour notre moteur ElasticSearch. Avec cette mise à jour importante viennent des changements importants, que nous vous avons listés ici : https://blog.istex.fr//a-venir-dans-la-version-5-de-lapi/ Nous allons profiter également de cette évolution pour rendre l’API ISTEX plus stable et performante, en nettoyant […]

OCR: Pré-traitements des documents

OCR: Pré-traitements des documents


Une observation sur les documents texte (.txt) montrait que la présence de tableaux ou d’images produisait d’une part, du bruit et d’autre part une légère baisse de reconnaissance de caractère dans le document par tesseract. Une étude a donc été poussée afin d’améliorer les océrisations de documents images et deux grands points ont été réalisés à l’heure actuelle : L’extraction […]

Schéma ODD-ISTEX

Schéma ODD-ISTEX


Bonjour à toutes et à tous, Lors d’un précédent billet de blog, nous vous annoncions le chargement dans la plateforme ISTEX de valeurs ajoutées sous forme d’enrichissements. Ces données XML sont décrites sous forme d’annotations en format TEI (Text Encoding Initiative), TEI est une norme de codage de structuration de textes qui repose sur XML. Ces annotations contiennent des informations […]

Fin de maintenance et bascule de la v5 vers api.istex.fr

Fin de maintenance et bascule de la v5 vers api.istex.fr


Bonjour à tous, Dans le précédent billet de blog, nous vous faisions part de problèmes techniques, entraînant des perturbations sur l’API. En ce début de semaine, la situation est la suivante : les opérations de maintenance permettant de redonner accès aux fichiers générés (MODS, TEI, …) commençant par zéro sont quasiment terminées. Il reste encore des manipulations qui entraîneront des […]

API ISTEX en mode dégradé

API ISTEX en mode dégradé


Bonjour à toutes et à tous, Si vous nous avez suivi sur twitter (#istexdev) ou sur la liste de discussion (api-users@listes.istex.fr), vous avez constaté que l’API subit de fortes perturbations depuis le début de la semaine (coupure totale ou accès partiel). La situation n’étant toujours pas totalement rétablie, nous souhaitions faire un point sur la situation. D’un point de vue […]

Entraînement du modèle fulltext de Grobid par l’équipe R&D

Entraînement du modèle fulltext de Grobid par l’équipe R&D


Cet article est la suite de l’article « Entraînement du modèle segmentation de Grobid par l’équipe R&D ». pour retrouver les informations utiles à une bonne compréhension du présent article, il est conseillé de se référer au lien suivant :  https://blog.istex.fr//entrainement-du-…id-par-equipe-rd/ . Modèle fulltext de Grobid Le modèle fulltext s’applique sur le segment body identifié par le modèle segmentation, c’est-à-dire sur le corps de texte. […]

Entraînement du modèle segmentation de Grobid par l’équipe R&D

Entraînement du modèle segmentation de Grobid par l’équipe R&D


ISTEX et plein texte structuré À l’heure de rédaction de ce billet de blog, la plateforme ISTEX met à disposition plus de 18 millions de documents scientifiques au format PDF à l’ensemble de la communauté de l’Enseignement Supérieur et de la Recherche. Au delà d’un accès performant et pérenne aux documents PDF, la disponibilité de documents pleins textes structurés en […]