Etat de l’art des outils d’extraction terminologique


Etude sur les outils d’extraction terminologique présentée par l’équipe ISTEX R&D à la revue du sprint 9.

Il existe trois méthodes d’extraction terminologique :

  • Méthode linguistique: Cette méthode recherche des catégories grammaticales qui sont susceptibles de représenter les termes dans un document.
    Exemple: retenir les suites de Nom+ADJ.
    Une variante de cette méthode est la recherche des suites qui ne peuvent pas être des termes.
  • Méthode statistique : Cette méthode opère des calculs sur les chaînes de caractères.
    Le principe est d’évaluer l’importance d’un terme dans un document (Inverse Document Frequency).
    Si un mot X apparaît plus fréquemment dans l’entourage d’un mot Y qu’ailleurs dans le texte, alors X et Y forment une combinaison significative (maximum de vraisemblance).
  • Méthode hybride : C’est la combinaison de deux méthodes : Linguistique et Statistique
    Le principe est de faire une liste des catégories grammaticales à partir des informations linguistiques et d’épurer la liste à partir des informations statistiques

Présentation de quelques outils d’extraction terminologique:

  • Alchemyapi : http://www.alchemyapi.com/ AlchemyAPi est une start-up américaine qui a été rachetée par IBM pour étoffer sa plateforme de machine-learning Watson. C’est une API qui sert à l’extraction des thématiques des textes. Les sorties sont en format Json, XML, RdF et Microformats (rel-tag).
  • Textrazor : https://www.textrazor.com/ C’est un outil qui peut extraire des mots-clés, des thèmes, des catégories et des entités nommées. C’est une API, programmée en C++ et capable de traiter mille mots par seconde. Kit de développement en Python, Php, java.
  • Yatea: http://perso.limsi.fr/hamon/YaTeA/ Ce logiciel identifie et extrait des groupes nominaux pouvant être des termes. Il est développé dans le cadre du projet ALVIS par Sophie Aubin et Thierry Hamon au LIMSI (Laboratoire d’Informatique pour la Mécanique et les Sciences de l’Ingénieur). Cet outil fait une extraction terminologique par la méthode hybride. Cette extraction est corrigée par les ressources linguistiques (en anglais et en français).
  • VocabGrabber : https://www.visualthesaurus.com/vocabgrabber/ C’est une plateforme pour l’extraction des vocabulaires et des termes: (arts & littérature, sciences, sciences sociales) faite par une entreprise à New-York. On copie un texte sur la fenêtre du démonstrateur de VocabGrabber, qui colore les mots en fonction de leur domaine d’appartenance. Nous ne pouvons pas créer une liste de ces mots car c’est une option payante.
  • Termine : http://www.nactem.ac.uk/software/termine/#form C’est un logiciel produit par le Manchester Institute of Biotechnology à destination des chercheurs. Pour l’utiliser il faut remplir un formulaire à l’aide d’une interface SOAP. Il donne en sortie les candidats-termes et leur spécificité en XML ou TXT ; Le défi de ce programme est la nécessité de donner une ligne par phrase, sinon il peut y avoir un bug.
  • Translated : http://labs.translated.net/terminology-extraction/ Cet outil est fait par Translated Labs pour les traducteurs. Il utilise la statistique de Poisson, la méthode du maximum de vraisemblance et Inverse Document Frequency (Latent Semantic Analysis) parmi les fréquences des mots dans le document et le corpus de textes génériques de 100 millions de mots par langue. Il utilise un analyseur morphologique de probabilité pour tenir compte de la probabilité qu’une certaine séquence puisse être un terme. Il créé les n-grammes de mots en minimisant l’entropie relative.
  • Fivefilters : http://fivefilters.org/ C’est logiciel payant pour l’extraction des termes. Il n’existe pas d’information sur la technologie utilisée sur leur site. En copiant un texte sur le démonstrateur nous obtenons une sortie sous forme d’un tableau en trois colonnes : terme, occurrence, nombre de mots dans ce terme. Les sorties peuvent être en format json, xml, txt, php, html.
  • Termostat : http://termostat.ling.umontreal.ca/ Cet outil est fait par l’équipe ÉCLECTIK de l’Université de Montréal. Termostat possède un corpus de langue générale pour chaque langue qu’il traite. En comparant un corpus donné avec le corpus général, il détecte les candidats termes pour ce corpus donné. La version en ligne de Termostat traite le français, l’anglais, l’espagnol, l’italien et le portugais.
  • Termsuite : http://termsuite.github.io/ C’est un logiciel open source développé par le LINA (Laboratoire d’Informatique de Nantes Atlantique). Cet outil est programmé en Java et réalise l’extraction et l’alignement des termes d’un corpus. En entrée il faut lui donner un corpus en format TEI ou TXT et en sortie nous pouvons voir le terme, la spécificité, la fréquence, le pattern, le lemme etc.

Voici l’extrait de la présentation de ces outils sous forme d’un tableau :

OutilsOriginesTechnologiesLangage de programmationFormats entréesFormats sortiesLangues traitéesLibre/
Payant
VocabGrabberEntreprise à New-York--TXTnuage de mots
TSV
Espagnol, Allemand, Italien, Français, Dutch, AnglaisPayant
Termine Manchester Institute of BiotechnologyParticulièrement dans le domaine bio-médicalPython, PHP5,JavaTXTXML ou TXTAnglaisLibre
TranslatedTranslated Labsméthode du maximum vraisemblence et Inverse Document Frequency _TXT_Anglais,
Italien,
Français
Payant
TermostatUniversité de Montréalméthode hybride_TXTTSVFrançais, Anglais, Espagnol, Italien,PortugaisLibre
FivefiltersEntreprise espagnole_PHPTXT
URL
JSON , XML, TXT, PHP, HTMLAnglaisPayant
Alchemyapistart-up américaine- algorithmes statistiques sophistiqués
- outils de traitement de langue
_HTML, text, or web-based contentJSON, XML, RDF et Microformats (rel-tag).plus de 12 langues ( non précisées)Payant
TextrazorEntreprise à LondresAPI C++envoi des requêtes HTTP, Python, PHP, Java, et les réponses en JSON JSON Anglais, Néerlandais, Français, Allemand, Italien, Polonais, Portugais, Russe, Espagnol, SuédoisPayant/avec une option libre limitée
YateaLaboratoire Limsi- Utilisation des ressources linguistiques pour identification et l'analyse des termes candidatsPerlTXTXML,TSVFrançais , AnglaisLibre
TermsuiteLaboratoire LINAMéthode hybrideJavaTXT ou TEITSV , JSONFrançais, Anglais,Espagnol,Danois,Chinois,Lettonie
Libre

Références: