textSimilarity : un outil de comparaison de chaînes de caractères à votre disposition.

Besoin de détecter des doublons, des titres de périodiques ou des noms de conférence proches ? Besoin de comparer des données dans une base ? Besoin de repérer des documents indexés par des mots-clés similaires ? Ce nouveau web services est fait pour vous !

Son objectif ? Ce web service renvoie, pour chaque document d’un corpus, les documents dont la métadonnée comparée lui sont les plus similaires ainsi que les scores de similarité associés. Seuls des textes courts sont comparés.

La méthode ? Le calcul de similarité s’effectue via la fonction SequenceMatcher de la bibliothèque python difflib.

Pour plus de détails, consultez la fiche descriptive du web service.

Son utilisation ?

Il est utilisable de différentes manières :

via Lodex, un outil open source de visualisation et de traitement de données structurées développé à l’Inist. Cette plateforme permet d’importer vos données, de les traiter selon vos besoins, avec nos web services, de visualiser les résultats de façon dynamique et enfin de les publier sous forme de site web.
via une ligne de commandes (outils curl, wget, ou autres) pour des utilisateurs plus avancés

N’oubliez pas qu’un outil est à votre disposition pour homogénéiser vos mots-clés anglais.

Venez consulter le catalogue des web services ** ISTEX TDM** pour explorer tous les outils d’aide à l’analyse de données et de textes.

Valérie Bonvallot et Lucas Anki pour l’équipe TDM

Partager cet article

Besoin d'aide ?

Consultez notre Faq, la documentation Istex ou nos tutoriels

Faq Documentation Tutoriels

N’hésitez pas à nous contacter si besoin, nous reviendrons rapidement vers vous !

textSimilarity : un outil de comparaison de chaînes de caractères à votre disposition.

Besoin d'aide ?

Consultez notre Faq, la documentation Istex ou nos tutoriels

Écrivez-nous