Fulltexts structurés à partir des PDFs avec Grobid

Classé dans : Divers | 0

Introduction

L’équipe ISTEX R&D vous a déjà présenté les phases de l’apprentissage des modèles segmentation (ici) et fulltext (ici). Le but de ces entraînements est de mettre à la disposition de nos utilisateurs des XMLs structurés et exploitables pour les fouilles de texte.

Dans cet article, nous allons vous montrer le fruit de ces apprentissages sur les données ISTEX. En utilisant les modèles que nous avons entraînés auparavant, nous avons fait un test à l’échelle sur le corpus IOP (394 433 documents) présent sur l’API ISTEX. Nous prenons en entrée tout le corpus IOP en format PDF et en sortie nous aurons des XMLs structurés.

Le temps de traitement par document est 0.11(s) avec 16 threads.

Voici les deux images qui présentent un article en PDF et son XML structuré sortie de Grobid :

Cliquer sur l’image pour l’agrandir

 

Couverture et limites

  • Actuellement, la structuration TEI des documents à partir de leur PDF est entraînée et fonctionnelle uniquement sur les types article et case-report et non pas sur les types e-book, livres, review, etc.
  • La structuration des PDFs est uniquement possible à partir des fichiers PDF OCRisés et exploitables.
  • Les modèles fulltext et segmentation de Grobid ne sont pas entraînés sur le corpus Nature (il faut une amélioration de parsing des PDFs pour ce corpus). Par conséquence, actuellement, ce corpus n’est pas traitable par Grobid.
  • Avec les modèles fulltext et segmentation entraînés, nous pouvons structurer certains documents d’ISTEX avec une bonne qualité. A l’aide de cette structuration qui balise les différentes parties d’un document (pagination, références bibliographiques, sections, …) nous pourrons mieux repérer les informations qui nous intéressent et plus facilement enlever les parties qui sont moins importantes pour la fouille de texte.