istex

Construire le socle de la bibliothèque scientifique numérique nationale.



FULLAB : comparaison du fulltext et de l’abstract en sciences environnementales

Projet porté par : le Laboratoire Interdisciplinaire Sciences Innovations Sociétés (LISIS) en collaboration avec l’École des Ponts.

Le projet FULLAB s’intéresse à l’article scientifique et plus précisément son résumé ou abstract. L’objectif est de déterminer si l’abstract a varié dans sa forme et son contenu au fil du temps et s’il diffère d’un champ disciplinaire à un autre. Pour ce faire, l’équipe a  choisi un domaine large (les sciences environnementales) pour lequel elle possède une expertise partagée et un intérêt commun et qui présente des caractéristiques contrastées.

Ce projet vise à comparer la quantité d’informations livrée par l’abstract avec celle du texte intégral (fulltext) de l’article qu’il résume et de “calculer” alors un taux de générosité de l’abstract, et une distribution de catégories (types d’arguments, catégories d’entités nommées, formes linguistiques de base). Les abstracts peuvent en effet être très structurés et intégrer alors au moins une partie des résultats ; d’autres sont de simples teasers et il est indispensable d’accéder au texte intégral pour avoir une idée du contenu.

Le projet est porté par le Laboratoire Interdisciplinaire Sciences Innovations Sociétés (LISIS), une unité de recherche créée en 2015 qui est à la fois une Formation de Recherche en Evolution CNRS et une UMR INRA-UPEM-ESIEE, dans le cadre d’une collaboration avec l’Ecole des Ponts. Il s’est adjoint les compétences d’une post-doctorante (Liana Ermakova) qui travaillera au LISIS pendant un an.

FULLAB poursuit un double objectif : d’une part réaliser un outil de text-mining (et une interface user-friendly) qui pourra être réutilisé pour l’analyse d’autres corpus issus d’ISTEX, mais également dans d’autres contextes de text-mining, d’autre part produire de la connaissance (et des publications) en SHS en utilisant cet outil à des fins de recherche en histoire et sociologie des sciences avec une perspective diachronique.

Le projet est structuré autour de deux activités majeures : l’élaboration d’un cadre analytique autour d’une revue de la littérature, et le travail (principal) empirique de constitution des corpus et de développement logiciel autour de l’outil, qui permettra en parallèle la mise à l’épreuve des API développées par ISTEX. Le travail de text-mining repose sur l’analyse des relations entre entités nommées à partir de schémas d’argumentation et dans un cadre d’usage.

Des collaborations avec d’autres projets retenus dans le cadre des chantiers d’usage sont d’ores et déjà à l’étude avec l’IRIT, le LI de Tours, le projet OTELo, etc…

Participants au projet : Frédérique Bordignon, Liana Ermakova, Marianne Noel, Nicolas Turenne.

FULLAB

investissement d'avenir

Financement : ANR-10-IDEX-0004-02