Dans le cadre des nouveaux services proposés par l’infrastructure Istex, opérée par l’Inist-CNRS, voici la présentation d’un nouvel outil autonome et interopérable pour la fouille de textes ou TDM (Text and Data Mining).

Vous avez des listes de mots-clés anglais provenant de différents traitements (mots-clés d’auteur, extraction d’entités nommées, indexation automatique …) ? Vous avez besoin que ces listes soient cohérentes en regroupant les synonymes tout en évitant les doublons ? dataHomogenise vous accompagne dans ces tâches.

Son objectif ? Il homogénéise automatiquement un ensemble de mots-clés ou de liste de mots-clés en anglais.

La méthode ?

Le service compare les mots deux à deux. S’ils sont assez proches en termes de sens, il les regroupe automatiquement.
Il repose sur un modèle appelé all-MiniLM-L6-v2, développé pour comprendre le sens des mots et des phrases en anglais. Pour savoir si deux mots ou phrases veulent dire la même chose, le service calcule leur similarité sémantique – c’est-à-dire à quel point leurs significations sont proches – à l’aide d’une métrique appelée “similarité cosinus”.

Pour plus de détails, consultez la fiche descriptive du web service

Son utilisation ?

Il est utilisable de différentes manières :

  • via Lodex, un outil open source de visualisation et de traitement de données structurées développé à l’Inist. Cette plateforme permet d’importer vos données, de les traiter selon vos besoins, avec nos web services, de visualiser les résultats de façon dynamique et enfin de les publier sous forme de site web.

  • via une ligne de commandes (outils curl, wget, ou autres) pour des utilisateurs plus avancés

N’oubliez pas que des outils sont à votre disposition pour générer des résumés et repérer ceux qui ont été générés par une intelligence artificielle.

Venez consulter le catalogue des web services ** ISTEX TDM**  pour explorer tous les outils d’aide à l’analyse de données et de textes.

Valérie Bonvallot et Léo Gaillard pour l’équipe TDM

besoin d'aideBesoin d'aide ?

Besoin d'aide ?

Consultez notre Faq, la documentation Istex ou nos tutoriels

N’hésitez pas à nous contacter si besoin, nous reviendrons rapidement vers vous !

Écrivez-nous

fermer la modale