Entraînement du modèle fulltext de Grobid par l’équipe R&D

Classé dans : Enrichissements, R & D | 0

Cet article est la suite de l’article « Entraînement du modèle segmentation de Grobid par l’équipe R&D ». pour retrouver les informations utiles à une bonne compréhension du présent article, il est conseillé de se référer au lien suivant :  http://blog.istex.fr/entrainement-du-…id-par-equipe-rd/ .

Modèle fulltext de Grobid

Le modèle fulltext s’applique sur le segment body identifié par le modèle segmentation, c’est-à-dire sur le corps de texte. Donc, pour que fulltext donne de bons résultats il faut au préalable un bon entraînement du modèle segmentation et un bon repérage du body.

Le modèle fulltext est très riche et correspond aux balises TEI suivantes :

  •        <head> : numéro et titre d’une section
  •        <p> : paragraphe
  •        <figure> : figures et images
  •        <figure type=”table”> : tableaux
  •        <formula> : formules/équations
  •        <list> et <item> : tous les éléments d’une liste (puces, tirets) qui sont intégrés dans une liste
  •        <ref type=”biblio”> : dans un paragraphe, marqueur vers une référence bibliographique
  •        <ref type=”figure”> : dans un paragraphe, marqueur vers une figure
  •        <ref type=”table”> : dans un paragraphe, marqueur vers un tableau
  •       <figure type=”box”> : box (encadré)
  •       <ref type=”box”> : dans un paragraphe, marqueur vers une box
  •       <label> : numéro d’une équation, indiqué généralement entre parenthèses à la fin de la formule
  •       <ref type=”formula”> : dans un paragraphe, marqueur vers une formule/équation

Entraînement de modèle fulltext avec les documents ISTEX

Le modèle fulltext par défaut de Grobid est entraîné sur 20 documents de PubMed Central et HAL, ce qui est un volume très faible compte tenu du nombre de structures à reconnaître. Comme pour le modèle segmentation, il faut valider manuellement pour chaque document du corpus d’entraînement les structures attendues par ce modèle. Ce modèle fulltext étant plus complexe, le temps nécessaire à la validation d’un document est deux à trois fois plus long que pour le modèle segmentation.

Nous avons ajouté 59 documents ISTEX. Le corpus d’entraînement est constitué comme suit :

 

Évaluation du nouveau modèle fulltext

Nous reprenons ici la même approche que pour le modèle segmentation, avec deux processus d’évaluation complémentaires (se référer à la précédente note de blog pour plus d’explication).

Sous-corpus d’évaluation ISTEX du modèle fulltext

Nous avons utilisé 18 documents ISTEX pour évaluer l’évolution du modèle fulltext. Voici la répartition par éditeur des documents utilisés pour ce sous-corpus d’évaluation :

 

Évaluation sur le sous-corpus ISTEX du modèle fulltext après l’ajout des documents ISTEX au corpus d’entraînement

Globalement nous pouvons constater une forte amélioration des résultats, due à la fois à la faible quantité de données d’entraînement initiale et à une prise en compte des formats ISTEX similaire à celle observée pour le modèle segmentation.

Évaluation de la performance du modèle fulltext après l’entraînement

Nous disposons pour le modèle fulltext d’un total de 97 documents annotés. Nous procédons de façon identique à l’évaluation générale du modèle segmentation, avec un partitionnement de 80% pour l’entraînement et 20% pour l’évaluation. Voici les F-score obtenus pour chaque type de structure après cette évaluation :

Nous pouvons considérer que le renvoi des références bibliographiques, les formules et leur identifiants, les titres de section et les paragraphes sont bien reconnus. Les structures table et figure sont plus compliquées à identifier dans un corps de texte à cause de leurs formats variés qui dépendent des éditeurs et des articles.

Perspective

En complément des évaluations présentées ci-dessus, il faut noter que la qualité de structuration d’un plein texte peut varier fortement d’un éditeur à l’autre. Les articles de Nature par exemple sont plus difficiles à structurer à cause de la qualité du PDF et des mises en page complexes souvent plus proches d’un magazine que d’un article scientifique habituel.

Le temps de traitement moyen d’un PDF par Grobid étant de l’ordre de 4 secondes, une montée en charge est possible dans le cadre d’ISTEX. L’étape suivante sera donc de sélectionner un corpus éditeur présentant de bonnes structurations et d’expérimenter une montée en charge afin de progressivement parvenir à un taux maximal de pleins textes structurés.