Les enrichissements disponibles

Classé dans : Enrichissements, ISTEX-R&D | 0

Parmi les enrichissements produits par l’équipe ISTEX-RD, voici ceux qui sont actuellement disponibles sur l’API d‘ISTEX :

• les références bibliographiques structurées par Grobid (actuellement plus de 9 millions de documents)
Les références bibliographiques données par les éditeurs sont extraites et structurées par le logiciel Grobid (GeneRation Of BIbliographic Data) qui est un outil d’analyse et d’extraction d’informations bibliographgiques et de contenu. Il fonctionne par apprentissage automatique avec une cascade de modèles CRF (Conditional Random Fields).

• les entités nommées détectées par Unitex-CasSys (plus de 14 millions de documents)
Les entités nommées sont des mots ou groupes de mots présentant un intérêt particulier sur le plan sémantique et pouvant être catégorisés. Il s’agit de noms propres (personnes, lieux, organisations) ou d’autres unités lexicales (dates, projets financés, URL).
Unitex est un logiciel permettant un traitement automatique de corpus de textes en langue naturelle à l’aide de ressources linguistiques. Il utilise entre autre des dictionnaires compressés, puis des grammaires locales. C’est un logiciel gratuit de licence libre développé par l’Université Paris-Est Marne-la-Vallée.
CasEN est une cascade de reconnaissance des entités nommées ; elle est implantée avec le programme de création de cascades CasSys présent sur la plate-forme Unitex. C’est un outil d’exploration et d’annotation de corpus dont le prototype a été créé au Laboratoire d’Informatique de Tours.

• l’indexation produite par Teeft (plus de 137.000 documents)
Le module rd-teeft (Term Extraction for English FullText) indexe le fulltext d’un document. C’est un outil d’indexation non supervisée développé par l’équipe ISTEX-RD en NODE.JS.
L’indexation s’effectue en 5 grandes étapes : Tokenization, Tagging, Lemmatization , Sanitization, Extraction. (plus d’info sur git.istex.fr)

• la catégorisation des documents réalisée par Multicat (plus de 9,5 millions de documents) et la méthode du bayésien naïf (plus de 117.000 documents)
Le module rd-multicat est un outil de catégorisation par appariement développé par l’équipe ISTEX-R&D en NodeJs. Il récupère l’ISSN d’une revue et attribue à chaque article de la revue la catégorie donnée par les différentes ressources (WOS, Science-Metrix).
Le module rd-nb est un outil de catégorisation supervisée développé par l’équipe ISTEX-R&D en NodeJs. Il utilise une approche statistique (Bayésien Naïf) comprenant une phase d’apprentissage sur un corpus extrait des bases Pascal et Francis puis une phase de prédiction. Il récupère le titre et l’abstract d’un article et attribue les catégories prédites (code + verbalisation) et leur probabilité.

D’autres enrichissements sont en cours d’expérimentation. Nous vous informerons quand ils seront disponibles sur l’API d’ISTEX.

N’hésitez pas à nous contacter si vous souhaitez plus d’informations sur les enrichissements.