Sprint #7 d’ISTEX-DATA : « Happy Script »

Bonjour,

L’équipe ISTEX-DATA entame le Sprint #7: « Happy Script ». Il a commencé vendredi 26 février par sa planification et se terminera le 24 mars 2016 par sa revue de sprint. Voici la répartition de la charge de travail par thématique de travail, en fonction des points de complexité attribués par les membres de l’équipe :

Dans la thématique « Éditeur FSMAP », nous allons travailler sur la finalisation de l’analyse quantitative et qualitative du corpus RSC et réaliser celle du corpus Springer ebooks.

Dans la thématique OCR, nous allons étudier des pistes pour le contrôle qualité des images réOCRisées par nos soins et des textes d’origines OCRisés par les éditeurs. En gros, nous cherchons à répondre à la question : comment choisir de façon automatique le bon fulltext à mettre en avant en sortie de l’API ?

Concernant le travail sur l’OCR, nous allons également nous rapprocher de l’équipe ISTEX API pour organiser le travail en commun sur les briques logicielles : loadistex, maestro, et concerto.

Le chantier sur les types de documents et les types d’articles concerne d’une part un travail sur la modification des XSLT pour y intégrer la notion de type de doc « journals » pour les cas évidents (8 corpus concernés), et d’autre part une étude sur les identifiants publisher-id présents dans les métadonnées de certains corpus pour voir dans quelle mesure cela nous permettrait d’améliorer notre maîtrise des données au niveau état de collection. Finalement, un état de collection basique (issn, titre, corpus) en mode bottom up sera développé via un script en sortie de l’API toujours dans l’idée de mieux cerner l’état des données et le chemin à parcourir pour les redresser.

L’ingestion récente de l’éditeur Emerald nécessite une étude plus fine des articles regroupés dans la catégorie ‘other’ de la facette ‘type d’article’ de la plateforme API et ainsi obtenir une normalisation actualisée des types d’articles.

La nouvelle thématique intitulée « Chiffres clés » est justement en lien avec la maîtrise des données qu’elle a vocation à mettre en avant de façon visuelle (à base d’histogrammes, de camemberts et de graphiques) et à terme sur un site publique dédié http://data.istex.fr Le travail dans ce sprint concerne l’extraction depuis l’API via un script d’un premier indicateur qui se concentrera sur un graphique qui mettra en avant le nombre de document en fonction des dates de publications. L’outil ezVis sera déployé pour permettre de tracer cette première courbe.

Parallèlement, l’équipe participera à un hackathon sur l’utilisation des API ISTEX organisé en interne par l’équipe ISTEX API qui préfigure un événement similaire avec les utilisateurs de l’API dans l’ESR. Ce hackathon vise donc à préparer cet événement et à améliorer l’usage de l’API au sein des différentes équipes ISTEX à l’INIST-CNRS (ISTEX-DATA et ISTEX-RD).

N’hésitez pas à nous poser vos questions via la liste data-users@listes.istex.fr, ou dans les commentaires du blog.

Bonne fin de journée

Cordialement,

L’équipe ISTEX-DATA