istex

Construire le socle de la bibliothèque scientifique numérique nationale.



Les services de base

Services de base d’exploitation du plein texte

Outre la recherche sur les métadonnées descriptives des collections et articles et  l’indexation plein texte, nous prévoyons trois services de bases supplémentaires :

  1. Recherche de termes et de leurs variantes. Il convient alors de déterminer dans le texte initial des séquences textuelles les plus susceptibles d’être de bons candidats termes dans le domaine scientifique correspondant au document analysé. Une équipe réunissant les compétences de l’équipe TALN du LINA et de l’INIST se donne comme objectif, dans des domaines spécialisés, d’assurer la détection et le balisage de termes et de leurs variantes en plein texte, et de maintenir un référentiel de terminologie scientifique pour l’exploitation des données d’ISTEX.
  2. Recherche sur les entités nommées. Cela nécessite au préalable de pouvoir détecter, normaliser et baliser de telles entités nommées dans le plein texte. Une équipe réunissant les compétences du Laboratoire d’Informatique de Tours et de l’INIST est en charge de cet aspect. Par entités nommées on entend, dans un cadre général, les dates, les noms de lieux  (villes, région, pays), les noms d’individus ou groupes d’individus (nom d’équipe ou de laboratoire ou d’institution). On pourrait y ajouter les adresses internet de ressources ou de données, les noms de projets liés à une publication ou cités dans une publication. Dans un domaine spécialisé, cela pourrait être beaucoup plus fin : noms des astres en astronomie, noms de molécules en chimie, noms de formules en mathématiques, noms de plantes en botanique, etc.
  3. Accès aux champs principaux des références bibliographiques. Un balisage automatique préalable de ces informations dans les références bibliographiques des articles est en cours de réalisation à l’INIST. De tels accès permettront, pour des sous-domaines, de construire des cartographies scientifiques et de répondre à des questions du type : Qui travaillent avec qui ? Quels sont les réseaux de citations existants ? Quels sont les vecteurs de publication les plus marquants ? Quels sont les vecteurs privilégiés de publication d’une communauté scientifique ? Quelles sont leurs évolutions au cours du temps ? Etc.
investissement d'avenir

Financement : ANR-10-IDEX-0004-02