Quatre nouveaux corpus pour la fouille de textes disponibles sur Ortolang

En mai 2025, nous vous présentions 2 corpus d’évaluation, accessibles sur Ortolang.
Consacrés à des web services traitant des affiliations scientifiques, ils vous permettent notamment d’estimer la qualité de vos propres outils de fouille de textes.

Aujourd’hui, nous mettons à votre disposition 4 nouveaux corpus qui ont servi à évaluer 4 de nos web services :

bibCheck : qui vérifie le statut d’une référence bibliographique ;
chemTag : qui extrait d’un texte en anglais les entités nommées en chimie ;
diseaseTag : qui extrait d’un texte en anglais les entités nommées de maladies ;
entityTag : qui extrait d’un texte diverses entités nommées.

Pourquoi ces corpus ?

Ces corpus d’évaluation sont des ensembles de données structurées et annotées, mis à disposition pour tester, comparer et améliorer les outils de fouille de textes. Leur création et leur partage répondent à plusieurs objectifs :

Évaluer les performances
- S’assurer de la qualité des outils développés.
- Permettre une comparaison sans biais entre outils (algorithmes, modèles) à l’aide de critères comme la précision*, le rappel* ou le F1-score*.
- Permettre aux chercheurs et aux développeurs de positionner leurs outils dans le cadre d’un benchmarking.
- Permettre la reproductibilité des résultats.
Améliorer les outils
- Identifier leurs faiblesses en analysant les erreurs commises par un outil sur un corpus permet aux développeurs de cibler des axes d’amélioration.
- Adapter les outils à des domaines spécifiques (médical, juridique, etc.).
Partager, former et enseigner
- Partager des ressources annotées pour éviter la duplication des travaux
- Support pédagogique pour les étudiants et professionnels.

bibCheck

Son objectif ?
Ce web service vérifie une référence bibliographique donnée, en s’assurant de sa présence dans Crossref ou DataCite tout en veillant à ce que l’article associé ne soit pas rétracté. Ce service est issu d’une coopération avec l’IRIT de Toulouse et Guillaume Cabanac.

Pour plus de détails, consultez la fiche descriptive du web service.

Son corpus d’évaluation :
Ce corpus d’évaluation est constitué de 236 références bibliographiques en 3 langues (anglais, français et espagnol) et de 4 types différents :

51 références bibliographiques valides avec un DOI.
55 références bibliographiques valides sans DOI.
70 références bibliographiques hallucinées générées par les LLMs.
60 références bibliographiques rétractées.

Au format JSONL, il a été élaboré grâce à plusieurs sources (Crossref, Problematic Paper Screener, PubMed, des maisons d’édition Spandidos, Taylor & Francis et Wiley). Les références dites hallucinées ont été soit collectées dans de précédents travaux portant sur les références hallucinées, soit générées puis manuellement modifiées.
Chaque entrée contient une référence et le statut de celle-ci retourné par le web service.

Pour accéder au corpus : https://www.ortolang.fr/market/corpora/eval-dataset-bibcheck

chemTag

Son objectif ?
Ce web service détecte, dans un texte en anglais, les entités nommées en chimie.

Pour plus de détails, consultez la fiche descriptive du web service.

Son corpus d’évaluation
Le corpus d’environ 2,2 millions d’entrées compte 84 310 substances chimiques annotées, manuellement, en anglais, à l’aide d’un unique tag NER (« Chemical »). 10 000 résumés d’articles biomédicaux issus de PubMed ont été utilisés.
Au format TSV, le corpus provient du corpus BC4CHEMD (BioCreative IV Chemical and Drug), associé à la publication de Krallinger M, Rabal O, Leitner F, Vazquez M, Salgado D, Lu Z, Leaman R, Lu Y, Ji D, Lowe DM, et al. The chemdner corpus of chemicals and drugs and its annotation principles. J Cheminformatics. 2015; 7(S1):2.

Il est divisé en 3 parties selon la division classique :

train (données d’entraînement)
devel (données de validation)
test (données test)

Pour accéder au corpus : https://www.ortolang.fr/market/corpora/dataset-chemical-extract

diseaseTag

Son objectif ?
Ce web service détecte, dans un texte en anglais, des entités nommées de maladies.

Pour plus de détails, consultez la fiche descriptive du web service.

Son corpus d’évaluation
Le corpus compte 12 850 maladies annotées, manuellement, en anglais à l’aide du tag NER (« Disease »). 1 500 résumés d’articles scientifiques issus de PubMed ont été utilisés.
Au format CONLL (Conference on Natural Language Learning), le corpus provient du corpus BC5CDR-disease (BioCreative V Chemical Disease Relation) qui résulte de la division du corpus BC5CDR original où seules les mentions de maladies sont annotées (le corpus BC5CDR contient normalement des annotations de maladies, de substances chimiques et de leurs interactions.) Le corpus est associé à la publication de Li et al., 2016, « BioCreative V CDR task corpus: a resource for chemical disease relation extraction », Database, Volume 2016, 2016, baw068, https://doi.org/10.1093/database/baw068

Il est divisé en 3 parties selon la division classique :

train (données d’entraînement)
devel (données de validation)
test (données test)

Pour accéder au corpus : https://www.ortolang.fr/market/corpora/dataset-disease-extract

entityTag

Son objectif ?
Ce web service extrait d’un texte diverses entités nommées. Deux variantes existent : la première fonctionne sur des textes français et anglais et propose 3 types d’entités ; la seconde fonctionne sur des textes en anglais uniquement.

Pour plus de détails, consultez la fiche descriptive du web service.

Son corpus d’entraînement
Le corpus multilingue représente près de 60 millions de tokens, ressource d’entraînement massive pour des modèles multilingues de reconnaissance d’entités nommées.
Les 9 langues prises en compte sont : anglais, allemand, espagnol, français, italien, néerlandais, polonais, portugais et russe.
Nous avons utilisé les versions anglaise (2×3,5 millions entrées) et française (2×3,5 millions entrées) pour entraîner le web service entityTag.
Au format texte, le corpus provient du corpus WikiNER, associé à la publication de Joel Nothman, Nicky Ringland, Will Radford, Tara Murphy et James R. Curran (2013), « Learning multilingual named entity recognition from Wikipedia », Artificial Intelligence 194 (DOI : 10.1016/j.artint.2012.03.006).

Pour accéder au corpus : https://www.ortolang.fr/market/corpora/tdm-eval-dataset-ner

*précision : nombre de documents pertinents retrouvés rapporté au nombre de documents total proposé pour une requête donnée.

*rappel : est défini par le nombre de documents retrouvés au regard du nombre de documents total.

*F-mesure ou F1-score : métrique couramment utilisée en apprentissage pour évaluer un modèle. Elle est calculée sur un corpus test, pour lequel le résultat de la classification est connu. Elle tient compte de la précision mais aussi du silence.

Venez consulter le catalogue des web services ISTEX TDM pour explorer tous les outils d’aide à l’analyse de données et de textes.

Victoria Meneghel et Valérie Bonvallot pour l’équipe TDM (Fouille de textes)

Partager cet article

Besoin d'aide ?

Consultez notre Faq, la documentation Istex ou nos tutoriels

Faq Documentation Tutoriels

N’hésitez pas à nous contacter si besoin, nous reviendrons rapidement vers vous !

Quatre nouveaux corpus pour la fouille de textes disponibles sur Ortolang

Besoin d'aide ?

Consultez notre Faq, la documentation Istex ou nos tutoriels

Écrivez-nous