Biosystémique : Recherche de résultats expérimentaux dans les publications scientifiques en biologie systémique

Projet porté par : Lifat (laboratoire d'informatique de l'université de Tours) & Equipe BIOS, UMR7247 (INRA/CNRS Tours)

Équipe projet : Denis Maurel et Anne Poupon.

 

L’objectif initial de ce projet était la recherche de résultats expérimentaux dans les publications scientifiques concernant la biologie systémique afin de reconstruire les voies de signalisation des récepteurs couplés aux protéines G (GPCR – récepteurs situés dans les membranes des cellules).

Un stage postdoctoral a permis la réalisation et l’évaluation d’un premier système de recherche d’information dédié à l’extraction des phrases d’intérêt dans la littérature scientifique. Un premier prototype utilisant les cascades de graphes Unitex a été implémenté et appliqué à un premier corpus d’articles concernant deux protéines particulières (ERK et ß-arrestins) dans la signalisation des GPCR. Nous avons obtenus 3 255 documents et extrait 62 655 phrases avec une précision de 81% et un rappel de 90%. Ces résultats ont fait l’objet d’une communication.

Ensuite un stage de master avait pour but de transformer ces phrases en relation prédicat-arguments afin de pouvoir les traiter par un système expert existant à l’INRA. Les résultats ont été très encourageants, avec une précision de 78% et un rappel de 76%, démontrant la faisabilité de notre système, même si la chaîne complète n’a pu être totalement mise au point.

Nous pensons donc poursuive ce travail de collaboration pour le mener à son terme, ce qui aurait été impossible sans le soutien apporté dans le cadre des chantiers d’usage ISTEX.

 

Présentation lors du séminaire technique 2017 :