istex

Construire le socle de la bibliothèque scientifique numérique nationale.



TERRE-ISTEX : Identification et analyse des TERRains d’Études dans les corpus ISTEX

Projet porté par : Laboratoires GERiiCO (Université de Lille), LIUPPA (Université de Pau et des Pays de l’Adour), UMR TETIS (Montpellier), Agence Nationale de Reproduction des Thèses (Lille).

Ce projet interdisciplinaire a pour objectif d’identifier l’évolution des fronts de recherche en relation avec les territoires d’études, les croisements disciplinaires ainsi que les modalités concrètes de recherche à partir des contenus numériques hétérogènes disponibles dans les corpus d’ISTEX et dans un corpus de thèses électroniques.

Le projet se décompose en trois actions principales :

  • identifier les périodes et les lieux qui ont fait l’objet d’études empiriques et dont rendent compte les publications issues des corpus analysés
  • identifier les approches (méthodes et concepts) mobilisées pour la réalisation de ces études
  • développer un démonstrateur Web de recherche d’information géographique (RIG).

Les deux premières actions feront intervenir des approches combinant des patrons du traitement automatique du langage naturel à des méthodes de fouille de textes. En croisant les trois dimensions (spatial, thématique et temporel) dans un moteur de RIG, il sera ainsi possible de comprendre quelles recherches ont été menées sur quels territoires, selon quelles approches et à quel moment.

Au niveau technique, la solution logicielle Elastic Search, est pressentie pour être adaptée à nos besoins pour :

  • intégrer l’ensemble des résultats des chaînes de marquage
  • indexer l’ensemble des informations identifiées dans la base Lucene intégrée
  • mettre en place le moteur de recherche multidimensionnel.

En complément des corpus ISTEX, nous conduirons des tests avec deux corpus :

  • un ensemble de métadonnées et données disponibles sur la plateforme Agritrop, archive ouverte des publications du CIRAD (la recherche agronomique pour le développement) ;
  • un ensemble de métadonnées et données de thèses de doctorat soutenues en France dans le but d’enrichir les contenus d’ISTEX.

L’ANRT, qui mène actuellement une action à long terme sur les données de la recherche en lien avec les thèses, est en effet très intéressé par ce projet. L’ANRT accompagnera les partenaires scientifiques dans l’analyse des données ainsi que dans les phases de tests et d’analyse des résultats obtenus.

Mots-clés. Fouille de textes, Traitement Automatique du Langage Naturel, information géographique, territoire, multidisciplinarité, veille, fronts de recherche.

 

TERREISTEX

 

investissement d'avenir

Financement : ANR-10-IDEX-0004-02