ISTEX-Tour  en quelques dates!

ISTEX-Tour en quelques dates!


            Réalisé : 25-27 septembre 2018         Congrès ADBU – stand exposant (Brest) 3-5 octobre                             Journées FREDOC (Albi)  9 octobre                               IRD, Agropolis et université de Montpellier 10 octobre                              Université de Toulouse et Réseau URFIST   En cours : 16 octobre                              Université de Lyon1 et INSA 16 octobre                              CHU Lyon 17 octobre                              […]

Analyse quantitative de l’archive ISTEX (3)

Analyse quantitative de l’archive ISTEX (3)


un peu plus compliqué … Lors des deux billets précédents nous avons présenté la possibilité de dénombrer un item dans un triplestore. Le langage SPARQL donne la possibilité d’exprimer des résultats de requêtes en  pourcentage. Pour illustrer cette possibilité nous allons calculer la répartition “catégorie inist” pour le content type « papier de recherche »@fr, exprimée en pourcentage. La requête suivante est […]

Analyse quantitative de l’archive ISTEX (2)

Analyse quantitative de l’archive ISTEX (2)


Dans le précédent billet, nous avons présenté une requête SPARQL permettant de dénombrer des objets appartenant à un même graphe (ou jeux de données). Ici, nous nous attarderons à construire une requête portant sur deux graphes différents. Pour cela, nous analyserons la répartition des catégories inist pour le content type « papier de recherche »@fr ; les résultats seront donnés en nombre […]

Analyse quantitative de l’archive ISTEX (1)

Analyse quantitative de l’archive ISTEX (1)


Combien y a-t-il de documents correspondant au type de document (ou genre) «papier de recherche » ; combien y a-t-il de documents correspondant à l’éditeur scientifique d’ISTEX  « rsl »  contenu dans l’archive documentaire istex (www.istex.fr) ? Questions auxquelles il est difficile d’y répondre en consultant la plateforme dédiée … Néanmoins, ces questions trouvent leurs réponses en interrogeant le triplestore correspondant à cette archive  https://data.istex.fr/triplestore/sparql/. […]

Le langage SPARQL au service d’ISTEX (3)

Le langage SPARQL au service d’ISTEX (3)


Lors des deux précédents billets, nous avons vu comment l’utilisation du langage SPARQL favorisait la valorisation du fonds documentaire ISTEX. Pour poursuivre dans cette voie, en interne nous avons développé un mode d’interrogation SPARQL qui présente la particularité d’enrichir dynamiquement les ressources présentent dans un  jeu de données. Ce mode d’interrogation SPARQL, implémenté dans l’outil LODEX utilisé pour publier les différents […]

Pub2TEI dans ISTEX

Pub2TEI dans ISTEX


Pub2TEI dans ISTEX : Les documents du corpus Wiley sont désormais proposés dans un format TEI (Text Encoding Initiative) développé par Pub2TEI et finalisé par l’équipe ISTEX-DATA avec des développements en interne (Pub2TEI version ISTEX) et la production d’un schéma ODD-ISTEX disponible sous github. Pour rappel, TEI est une norme de codage de structuration de textes qui repose sur XML. […]

OCR : production de plein texte

OCR : production de plein texte


Après plusieurs mois d’études sur l’évaluation des logiciels OCR, la mise en oeuvre des techniques d’estimation de la qualité OCR puis les tests de mise en production, l’équipe ISTEX-DATA a conçu sa propre chaîne OCR en développant des modules qui se sont intégrés à la chaîne LoadISTEX existante. Cette chaîne OCR a permis de ré-océriser les documents qui n’avaient pas […]

OCR: Pré-traitements des documents

OCR: Pré-traitements des documents


Une observation sur les documents texte (.txt) montrait que la présence de tableaux ou d’images produisait d’une part, du bruit et d’autre part une légère baisse de reconnaissance de caractère dans le document par tesseract. Une étude a donc été poussée afin d’améliorer les océrisations de documents images et deux grands points ont été réalisés à l’heure actuelle : L’extraction […]

Schéma ODD-ISTEX

Schéma ODD-ISTEX


Bonjour à toutes et à tous, Lors d’un précédent billet de blog, nous vous annoncions le chargement dans la plateforme ISTEX de valeurs ajoutées sous forme d’enrichissements. Ces données XML sont décrites sous forme d’annotations en format TEI (Text Encoding Initiative), TEI est une norme de codage de structuration de textes qui repose sur XML. Ces annotations contiennent des informations […]

Océrisation du corpus Nature

Océrisation du corpus Nature


  L’équipe ISTEX-DATA a le plaisir de vous annoncer l’océrisation de 329 744 documents pour le corpus Nature, soit l’équivalent de plus de 600 000 pages. Cette océrisation concerne les PDF dépourvu de texte et permet de proposer des fichiers TXT (fulltext/ocr) pour tout le corpus Nature disponibles dans le démonstrateur avec l’icône suivante : D’autres corpus seront océrisés dans […]