Mise en ligne du corpus Geological Society of London

Mise en ligne du corpus Geological Society of London


L’équipe ISTEX vous annonce la mise en production d’un nouveau corpus qui couvre le domaine de la géologie. The Geological Society est une société savante créée au tout début du XIXème siècle au Royaume-Uni. Fondée en 1807, c’est la plus ancienne société géologique dans le monde. Peu après sa création, la maison d’édition qui lui est associée, GSL Publishing, voit […]

Pub2TEI dans ISTEX

Pub2TEI dans ISTEX


Pub2TEI dans ISTEX : Les documents du corpus Wiley sont désormais proposés dans un format TEI (Text Encoding Initiative) développé par Pub2TEI et finalisé par l’équipe ISTEX-DATA avec des développements en interne (Pub2TEI version ISTEX) et la production d’un schéma ODD-ISTEX disponible sous github. Pour rappel, TEI est une norme de codage de structuration de textes qui repose sur XML. […]

OCR : production de plein texte

OCR : production de plein texte


Après plusieurs mois d’études sur l’évaluation des logiciels OCR, la mise en oeuvre des techniques d’estimation de la qualité OCR puis les tests de mise en production, l’équipe ISTEX-DATA a conçu sa propre chaîne OCR en développant des modules qui se sont intégrés à la chaîne LoadISTEX existante. Cette chaîne OCR a permis de ré-océriser les documents qui n’avaient pas […]

Océrisation du corpus Nature

Océrisation du corpus Nature


  L’équipe ISTEX-DATA a le plaisir de vous annoncer l’océrisation de 329 744 documents pour le corpus Nature, soit l’équivalent de plus de 600 000 pages. Cette océrisation concerne les PDF dépourvu de texte et permet de proposer des fichiers TXT (fulltext/ocr) pour tout le corpus Nature disponibles dans le démonstrateur avec l’icône suivante : D’autres corpus seront océrisés dans […]

Enrichissements auteurs et sujets

Enrichissements auteurs et sujets


Les enrichissements auteurs et sujets fournis par l’ABES ont été récemment chargés dans la plateforme ISTEX et certains champs tels que ‘enrichments.hubMeta.mimetype’ et ‘enrichments.hubMeta.original’ ont été rajoutés dans l’index.Le champ enrichments.type et notamment le type abesAuthors ou abesSubjects permet également d’effectuer une recherche et une facette sur ce type d’enrichissement. Suite à ce nouvel enrichissement, nous souhaitons donc apporter quelques […]

Chaîne OCR

Chaîne OCR


Après plusieurs mois d’étude sur l’évaluation des logiciels OCR, les techniques d’estimation de qualité OCR puis les tests de mise en production, l’équipe ISTEX-DATA a conçu sa propre chaîne OCR en développant des modules qui se sont intégrés à la chaîne LoadISTEX existante. Cette chaîne OCR va permettre d’océriser dans un premier temps les PDF ‘image’ (absence de texte) et […]

Let’s go to the Pub(2TEI)

Let’s go to the Pub(2TEI)


L’équipe ISTEX-DATA entame le Sprint #10: « Let’s go to the Pub2TEI». Il a commencé vendredi 10 juin par sa planification et se terminera le 05 juin 2016 par sa revue de sprint. L’un des objectifs de ce sprint est la conversion des fichiers éditeurs en format TEI qui doit être expérimenté sur un corpus ayant du XML body éditeur (Nature […]

Sprint 9 ISTEX-DATA : Sélection officielle « Un certain regard documentaire »

Sprint 9 ISTEX-DATA : Sélection officielle « Un certain regard documentaire »


Bonjour,   L’équipe ISTEX-DATA entame le Sprint #9: « Sélection officielle « Un certain regard documentaire ». Il a commencé mardi 17 mai par sa planification et se terminera le 12 juin 2016 par sa revue de sprint. Voici la répartition de la charge de travail par thématique de travail, en fonction des points de complexité attribués par les membres de l’équipe. […]

Journée de la terre

Journée de la terre


La planète célèbre la Journée de la Terre ce vendredi 22 avril 2016. Cette année, la journée de la terre sera consacrée aux arbres. L’équipe ISTEX-DATA en profite pour faire un focus sur quelques revues ‘phares’ dans le domaine de l’écologie. Certaines publications à très haut facteur d’impact, référencées dans le JCR 2014, font parties des corpus ISTEX et nous […]

Les identifiants de type publication

Les identifiants de type publication


Les identifiants les plus anciens en usage dans les bibliothèques sont l’ISBN (International Standard Book Number) et l’ISSN (International Standard Serial Number) qui servent d’identifiant d’une publication pour les acquisitions et la recherche bibliographique. Un ISSN et ISBN est attribué aux publications électroniques, par exemple : ISSN 1562-6865 (En ligne) ISSN 1063-7710 (Imprimé) Les ISSN et ISBN n’identifient pas les […]