Depuis septembre 2024, des articles d’actualité concernant les web services consacrés au TDM (Text & Data Mining) paraissent régulièrement pour vous présenter les récentes réalisations. Afin d’améliorer ces services, nous avons constitué des corpus d’évaluation, accessibles sur Ortolang.
Ils vous permettront notamment d’estimer la qualité de vos propres outils de fouille de textes.

Nous mettons à votre disposition deux corpus qui ont servi à évaluer deux de nos web services consacrés aux affiliations scientifiques :

  • countryDetect : qui attribue des noms de pays aux adresses.
  • rnsrLearnDetect : qui attribue des codes RNSR (Répertoire National des Structures de Recherche) aux adresses.

countryDetect

Son objectif ?
Ce web service détecte le pays d’origine d’une affiliation-adresse, qu’il soit présent ou absent dans celle-ci, quelle que soit la langue. Il renvoie le nom du pays détecté, en anglais, ainsi que son code ISO sur 2 lettres.

Pour plus de détails, consultez la fiche descriptive du web service.

Son corpus d’évaluation
Ce corpus au format JSONL contient 281 entrées où chaque entrée correspond à une adresse-affiliation associée à son pays d’origine ainsi que son code ISO sur 2 lettres.
Exemple d’entrée : {« affiliation »: « Tel Aviv University TAU, Tel Aviv 699780 », « output »: {« country »: « Israel », « code »: « il »}}

Quelque chiffres…
Nombre d’adresses-affiliations : 281
Nombre de pays représentés : 44

Pour accéder au corpus : https://www.ortolang.fr/market/corpora/dataset-countrydetect/

 

rnsrLearnDetect

Son objectif  ?
Ce web service, qui s’appuie sur de l’apprentissage, attribue un ou plusieurs identifiant(s) RNSR à partir d’une adresse-affiliation française.

Pour plus de détails, consultez la fiche descriptive du web service.

Son corpus d’évaluation
Ce corpus au format JSONL contient 280 entrées où chaque entrée correspond à l’identifiant RNSR (Répertoire National des Structures de Recherche) associée à une adresse-affiliation française (structure de recherche située en France).

Exemple d’entrée : {« rnsr_id »: « 200711926M », « id »: « Laboratoire CLLE-LTC, UMR CNRS 5263, université de Toulouse II – le Mirail, 31058 Toulouse, France. »}

Quelques chiffres…
Nombre d’adresses-affiliations françaises : 280
Nombre d’identifiants RNSR uniques : 52

Pour accéder au corpus : https://www.ortolang.fr/market/corpora/evaluation-dataset-rnsr

 

Venez consulter le catalogue des web services ISTEX TDM pour explorer tous les outils d’aide à l’analyse de données et de textes.

Valérie Bonvallot et Victoria Meneghel pour l’équipe TDM

 

 

besoin d'aideBesoin d'aide ?

Besoin d'aide ?

Consultez notre Faq, la documentation Istex ou nos tutoriels

N’hésitez pas à nous contacter si besoin, nous reviendrons rapidement vers vous !

Écrivez-nous

fermer la modale