Schéma ODD-ISTEX

Schéma ODD-ISTEX


Bonjour à toutes et à tous, Lors d’un précédent billet de blog, nous vous annoncions le chargement dans la plateforme ISTEX de valeurs ajoutées sous forme d’enrichissements. Ces données XML sont décrites sous forme d’annotations en format TEI (Text Encoding Initiative), TEI est une norme de codage de structuration de textes qui repose sur XML. Ces annotations contiennent des informations […]

Océrisation du corpus Nature

Océrisation du corpus Nature


  L’équipe ISTEX-DATA a le plaisir de vous annoncer l’océrisation de 329 744 documents pour le corpus Nature, soit l’équivalent de plus de 600 000 pages. Cette océrisation concerne les PDF dépourvu de texte et permet de proposer des fichiers TXT (fulltext/ocr) pour tout le corpus Nature disponibles dans le démonstrateur avec l’icône suivante : D’autres corpus seront océrisés dans […]

Enrichissements auteurs et sujets

Enrichissements auteurs et sujets


Les enrichissements auteurs et sujets fournis par l’ABES ont été récemment chargés dans la plateforme ISTEX et certains champs tels que ‘enrichments.hubMeta.mimetype’ et ‘enrichments.hubMeta.original’ ont été rajoutés dans l’index.Le champ enrichments.type et notamment le type abesAuthors ou abesSubjects permet également d’effectuer une recherche et une facette sur ce type d’enrichissement. Suite à ce nouvel enrichissement, nous souhaitons donc apporter quelques […]

Chaîne OCR

Chaîne OCR


Après plusieurs mois d’étude sur l’évaluation des logiciels OCR, les techniques d’estimation de qualité OCR puis les tests de mise en production, l’équipe ISTEX-DATA a conçu sa propre chaîne OCR en développant des modules qui se sont intégrés à la chaîne LoadISTEX existante. Cette chaîne OCR va permettre d’océriser dans un premier temps les PDF ‘image’ (absence de texte) et […]

Let’s go to the Pub(2TEI)

Let’s go to the Pub(2TEI)


L’équipe ISTEX-DATA entame le Sprint #10: « Let’s go to the Pub2TEI». Il a commencé vendredi 10 juin par sa planification et se terminera le 05 juin 2016 par sa revue de sprint. L’un des objectifs de ce sprint est la conversion des fichiers éditeurs en format TEI qui doit être expérimenté sur un corpus ayant du XML body éditeur (Nature […]

Sprint 9 ISTEX-DATA : Sélection officielle « Un certain regard documentaire »

Sprint 9 ISTEX-DATA : Sélection officielle « Un certain regard documentaire »


Bonjour,   L’équipe ISTEX-DATA entame le Sprint #9: « Sélection officielle « Un certain regard documentaire ». Il a commencé mardi 17 mai par sa planification et se terminera le 12 juin 2016 par sa revue de sprint. Voici la répartition de la charge de travail par thématique de travail, en fonction des points de complexité attribués par les membres de l’équipe. […]

Évaluer les résultats d’OCR dans le projet ISTEX

Évaluer les résultats d’OCR dans le projet ISTEX


Constat La grande majorité des documents ingérés dans le projet ISTEX proviennent de publications papiers numérisées que les éditeurs ont mises en ligne à partir des années 90. Cela signifie que le contenu textuel disponible est essentiellement le résultat d’une OCRisation. Une OCRisation consiste en la conversion automatique d’une image, résultat de la numérisation d’un document papier, en un fichier […]

Journée de la terre

Journée de la terre


La planète célèbre la Journée de la Terre ce vendredi 22 avril 2016. Cette année, la journée de la terre sera consacrée aux arbres. L’équipe ISTEX-DATA en profite pour faire un focus sur quelques revues ‘phares’ dans le domaine de l’écologie. Certaines publications à très haut facteur d’impact, référencées dans le JCR 2014, font parties des corpus ISTEX et nous […]

Sprint #8 d’ISTEX-DATA : « Docteur Levenshtein »

Sprint #8 d’ISTEX-DATA : « Docteur Levenshtein »


Bonjour, L’équipe ISTEX-DATA entame le Sprint #8: « Docteur Levenshtein ». Il a commencé vendredi 25 mars par sa planification et se terminera le 12 mai 2016 par sa revue de sprint. Voici la répartition de la charge de travail par thématique de travail, en fonction des points de complexité attribués par les membres de l’équipe :   Dans la thématique « Editeur, FSMAP, XSL« , […]

Les identifiants de type publication

Les identifiants de type publication


Les identifiants les plus anciens en usage dans les bibliothèques sont l’ISBN (International Standard Book Number) et l’ISSN (International Standard Serial Number) qui servent d’identifiant d’une publication pour les acquisitions et la recherche bibliographique. Un ISSN et ISBN est attribué aux publications électroniques, par exemple : ISSN 1562-6865 (En ligne) ISSN 1063-7710 (Imprimé) Les ISSN et ISBN n’identifient pas les […]