Terre – ISTEX : Identification et analyse des TERRains d'Etudes dans les corpus ISTEX

Projet porté par : Laboratoires GERiiCO (Université de Lille), LIUPPA (Université de Pau et des Pays de l’Adour), UMR TETIS (Montpellier) & Atelier Nationale de Reproduction des Thèses (Lille).

Équipe projet : Éric Kergosien et Joachim Schöpfel.

 

Ce projet interdisciplinaire a pour objectif d’identifier l’évolution des fronts de recherche en relation avec les territoires d’études, les croisements disciplinaires ainsi que les modalités concrètes de recherche à partir des contenus numériques hétérogènes disponibles dans les corpus d’ISTEX et dans un corpus de thèses électroniques.

Le projet se décompose en trois actions principales :

  • Identifier les périodes et les lieux qui ont fait l’objet d’études empiriques et dont rendent compte les publications issues des corpus analysés ;
  • Identifier les approches (méthodes et concepts) mobilisées pour la réalisation de ces études ;
  • Développer un démonstrateur Web de recherche d’information géographique (RIG).

Les deux premières actions feront intervenir des approches combinant des patrons du traitement automatique du langage naturel à des méthodes de fouille de textes. En croisant les trois dimensions (spatial, thématique et temporel) dans un moteur de RIG, il sera ainsi possible de comprendre quelles recherches ont été menées sur quels territoires, selon quelles approches et à quel moment.

Au niveau technique, la solution logicielle Elastic Search, est pressentie pour être adaptée à nos besoins pour :

  • Intégrer l’ensemble des résultats des chaînes de marquage ;
  • Indexer l’ensemble des informations identifiées dans la base Lucene intégrée ;
  • Mettre en place le moteur de recherche multidimensionnel.

En complément des corpus ISTEX, nous conduirons des tests avec deux corpus :

  • Un ensemble de métadonnées et données disponibles sur la plateforme Agritrop, archive ouverte des publications du CIRAD (la recherche agronomique pour le développement) ;
  • Un ensemble de métadonnées et données de thèses de doctorat soutenues en France dans le but d’enrichir les contenus d’ISTEX.

L’ANRT, qui mène actuellement une action à long terme sur les données de la recherche en lien avec les thèses, est en effet très intéressé par ce projet. Cette association accompagnera les partenaires scientifiques dans l’analyse des données ainsi que dans les phases de tests et d’analyse des résultats obtenus.

 

Publications : 

  • Eric Kergosien, Marie-Noëlle Bessagnet, Maguelonne Teisseire, Joachim Schöpfel, Amin Farvardin, Stéphane Chaudiron, Bernard Jacquemin, Annig Le Parc Lacayrelle, Mathieu Roche, Christian Sallaberry, Jean Philippe Tonneau. Méthodologie pour identifier les terrains d’étude dans des corpus scientifiques, Numéro spécial Document numérique « Analyser la science : les bibliothèques numériques comme objet de recherche », à venir février 2018
  • Eric Kergosien, Amin Farvardin, Maguelonne Teisseire, Marie-Noëlle Bessagnet, Joachim Schöpfel, Stéphane Chaudiron, Bernard Jacquemin, Annig Lacayrelle, Mathieu Roche, Christian Sallaberry2, Jean Philippe Tonneau. Automatic Identification of Study Fields in Scientific Corpus, In the 11th Edition of its Language Resources and Evaluation Conference (LREC), pp. 4, Japan, may 2018
  • E. Kergosien, C. Sallaberry, M.-N. Bessagnet, A. Le Parc- Lacayrelle, S. Chaudiron, Using a GIR tool in a Business Intelligence Context: the case of EGC conferences, In 7th. International Conference on Information Systems and Economic Intelligence (SIIE), pp. 12, Al Hoceima (Maroc), 2017
  • A. Le Parc – Lacayrelle, A. Farvardin, TERRE-ISTEX : vers un modèle pour identifier des terrains d’études, In Atelier Valorisation et Analyse des Données de la Recherche (VADOR), conférence Inforsid, Toulouse (France), mai 2017
  • J. Schöpfel, E. Kergosien, S. Chaudiron, B. Jacquemin. Dissertations as Data, In 19th International Symposium on Electronic Theses and Dissertations (ETD 2016) « Data and Dissertations », To appear, Lille, 2016.
  • E. Kergosien, M.-N. Bessagnet, C. Sallaberry, A. Le Parc – Lacayrelle, A. Royer, Analyse géographique de séries de publications : application aux conférences EGC, In In Actes de la conférence EGC’2016 (Extraction et Gestion des Connaissances), p.371-382, Reims, 2016.
  • M. A. Farvardin, E. Kergosien, M. Roche and M. Teisseire, A webtool for analyzing land-use planning documents. In Proceedings of ISWC 2015 (14th International Semantic Web Conference) Demonstration track, LNCS conference proceedings, pp. 4, Bethlehem, United-States, 2015.

Communications : 

  •  M.-N. Bessagnet, E. Kergosien, M. Farvardin, A. Le Parc – Lacayrelle et C. Sallaberry, A propos des territoires dans les corpus scientifiques, Atelier sur l’Extraction et la Modélisation de Connaissances à partir de textes scientifiques, 28es Journées francophones d’Ingénierie des Connaissances, Caen (France), juillet 2017
  • E. Kergosien, M. Teisseire, M.-N. Bessagnet, J. Schöpfel, Amin Farvardin, Identification des terrains d’études dans les corpus scientifique, In 85e congrès de l’ACFAS, colloque #605 Analyser la science : les bibliothèques numériques comme objet de recherche, Montréal (Canada), Mai 2017
  • E. Kergosien, 2017, Identification et analyse des terrains d’études dans les corpus ISTEX, conférencier invité journées Carrefour de l’IST (CARIST 2017), mars 2017, Nancy.
  • M. Roche, Le projet TERRE-ISTEX, « Two Minutes of Madness » conférence EGC, Grenoble, janvier 2017
  • E. Kergosien, M.-N. Bessagnet, C. Sallaberry, A. Le Parc – Lacayrelle, A. Royer, Vers une analyse thématique automatique de séries de publications : application aux articles des conférences EGC, In 84ème conférence de l’ACFAS, Montréal, mai 2016
  • J. Schopfel, E. Kergosien, et Al.. Le projet TERRE-ISTEX pour l’identification et l’analyse des TERRains d’Études dans les corpus ISTEX. Dans la journée d’études Data4IST : Exploration et analyse des sources IST pour la recherche et ses environnements, IRHT à Paris (France), mai 2016.
  • E. Kergosien, J. Schopfel. TERRE-ISTEX : Identification et analyse des TERRains d’Études dans les corpus ISTEX, Chantiers thématiques d’usage des corpus d’ISTEX 2016-2017, Nancy (France), avril 2016

Évènements organisés : 

Autres résultats : 

  • Modèle de description des données : format MODS enrichi
  • Chaînes de traitements linguistiques :
    • Enrichissement des chaînes de marquage des entités spatiales et thématiques pour le passage à l’anglais
    • Prise en compte de la composante temporelle
    • Montée en charge :
      • Intégration des ressources externes (Agrovoc, Geonames),
      • Amélioration des modules pour atteindre un temps de traitement de 2 secondes/document,
      • Amélioration du module d’indexation, de correction et d’upload des résultats d’annotation
      • Mise en place d’un serveur pour le démonstrateur SISO et le moteur de recherche ElasticSearch (bientôt accessible sur internet),
      • Tests en cours du démonstrateur SISO sur un serveur à Lille : couteux et assez lourd à gérer
    • Equipe projet :
      • Consolidation des liens entre les différents acteurs impliqués (publications, évènements organisés en commun, projets à venir en commun)
      • Approche pluridisciplinaire avec des apports des géographes et des SIC.
      • Action financée nous permettant de cadrer notre réflexion sur :
        • La formalisation du concept donnée de la recherche
        • La formalisation des liens entre article scientifique – thèse – données de la recherche
        • Prise en compte de données hétérogènes (thèses, articles scientifiques)
      • Mise en place du projet D4Humanities (coordinateur : J. Schöpfel)

 

Présentation lors du séminaire technique 2017 :