ALMAnaCH : Annotation de corpus ISTEX et codage en TEI

Projet porté par : INRIA

Équipe projet : Achraf Azhar, Luco Foppiano, Patrice Lopez et Laurent Romary.

 

Notre travail est consacré à la fouille de textes à grande échelle dans le but de rendre exploitable l’information contenue dans la littérature scientifique et technique pour des applications telles que la recherche d’information, les études d’antériorité ou encore la génération automatiques d’hypothèses de recherche. Ce chantier d’usage nous a permis d’expérimenter la montée en charge d’un module d’identification et normalisation des mesures physiques, que nous avons développé récemment, utilisé notamment au JPL (NASA) sur des collections de documents à faible échelle.

L’adaptation aux données ISTEX a donné lieu à un prototype permettant de chercher des documents en croisant métadonnées, termes de recherche et mesures physiques, une fonctionnalité jusqu’à présent impossible sur les moteurs de recherche traditionnels.

 

Présentation lors du séminaire technique 2017 :