A la demande du Laboratoire d’Informatique Fondamentale et Appliquée de Tours (LIFAT), un corpus de documents ISTEX a été annoté manuellement par huit personnes à l’Inist-CNRS, avec un calcul d’accord inter annotateurs effectué au LIFAT et à l’Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA).

Ce corpus gold standard est destiné aux chercheurs désirant tester ou entraîner leur outil de reconnaissance d’entités nommées.

Les annotations portent sur :

    • les noms de personnes <persName>,
    • les noms de lieux <placeName> et <geogName>
    • les noms d’organisations <orgName>, d’organisations ayant financé l’étude rapportée : <orgName type="funder"> et d’organisations hébergeant une ressource ayant servi à l’étude <orgName type="provider">
    • les url <ref type="url">

Le jeu de données Corpus Entités Nommés ISTEX est publié sur data.istex dans la collection Corpus annotés manuellement.
N’hésitez pas à naviguer :
La page Graphiques permet une exploration des données bibliographiques et de la répartition des entités nommées.
La page Recherche permet l’accès à chacune des ressources du corpus ; on y retrouve la liste des entités nommées.
La page Accueil permet le téléchargement du corpus en format TEI, des offsets des entités nommées, ainsi que du guide d’annotation qui vous donnera les détails sur la méthode de constitution du corpus ainsi que sur les règles d’annotation.
Rendez vous dans le champ Application pour le téléchargement.
Merci pour vos retours!
L’équipe des annotateurs

Voir aussi : https://www.inist.fr/nos-actualites/un-corpus-gold-standard-sur-data-istex

besoin d'aideBesoin d'aide ?

Besoin d'aide ?

Consultez notre Faq, la documentation Istex ou nos tutoriels

N’hésitez pas à nous contacter si besoin, nous reviendrons rapidement vers vous !

Écrivez-nous

fermer la modale