Ressources pour la fouille de textes

Nous mettons à votre disposition un ensemble de ressources documentaires et scientifiques pour une utilisation dans différentes étapes du processus de recherche, que ce soit pour la bibliographie, comme données de recherche ou comme sujets d’études.

Base documentaire

La base documentaire regroupe des collections rétrospectives multilingues et multidisciplinaires de la littérature scientifique mondiale. Hébergée localement pour garantir la souveraineté des données, elle met à disposition plus de 30 millions de documents issus à la fois de grandes maisons d’édition internationales (Elsevier, Springer, Wiley, etc.) et de dépôts en libre accès (PLoS, SciELO, etc.). Résolument tournée vers la qualité, la base est dédoublonnée et normalisée. Chaque objet documentaire est finement structuré, homogénéisé et enrichi via des métadonnées exclusives. Et contrairement à d’autres systèmes, la base contient pour chaque document le texte intégral disponible dans différents versions et formats (XML/TEI; texte au kilomètre, texte nettoyé).

Atouts

Des documents enrichis et de qualité, utilisables dans des outils et plateformes de l’enseignement supérieur et de la recherche, comme Gargantext, Cortext ou NooJ.

Usagers

Dans le cadre de la politique de Science ouverte, toutes les métadonnées de la base sont en accès libre via une licence Etalab. Par contre, pour des raisons de droits, l’accès aux versions en texte intégral est réservé à tous les établissements français ayants droit et à leurs usagers : étudiants, doctorants, chercheurs, professionnels de la documentation (350 établissements sont concernés). L’accès à la base se fait principalement via son intégration dans les systèmes documentaires des bibliothèques des établissements (API, résolveurs de lien, etc.).

Partenaires

Le GIS CollEx-Persée est le principal partenaire de la base documentaire, toute la documentation scientifique achetée dans le cadre du GIS est in fine déposée dans la base. Dans le cadre du nouveau GIS (en cours de montage), les données numérisées sont amenées à également être déposées dans la base.

Les plateformes d’édition scientifique française sont également partenaires de la base, à travers un dispositif qui permet le dépôt régulier des publications qu’elles produisent.

Le consortium Couperin, à travers les négociations des licences nationales, contribue également à l’alimentation de base par la signature d’un accord sur le versement glissant des archives Elsevier.

Code source ouvert

Différents composants de la base documentaire sont mis à disposition dans un entrepôt dédié : https://github.com/istex.

Accès à la base Istex

Retrouvez plus de détails sur :

Base terminologique - Loterre

Loterre (Linked open terminology resources) est une plateforme d’exposition et de partage de terminologies scientifiques multidisciplinaires et multilingues, conforme aux standards du web des données ouvertes et liées et répondant aux principes FAIR (Facile à trouver, Accessible, Interopérable et Réutilisable).

Le service propose le stockage, la normalisation de ressources langagières en vue de les rendre accessibles pour la consultation, le partage et la libre réutilisation de terminologies scientifiques fiables et validées par des experts de chaque domaine couvert.

Au total, c’est plus de 2,5 millions de termes scientifiques regroupés dans 750 000 concepts qui sont consultables pour de l’indexation, de l’annotation et le référencement de publication et de jeux données, ou la recherche d’information, de la rédaction scientifique et de la traduction ou encore pour aider à la diffusion des savoirs lors de formation.

Atouts

Des ressources terminologiques scientifiques multidisciplinaires et multilingues ouvertes, riches homogènes et validées, conformes aux standards du web de données (LOD) et au web sémantique.

Usagers

Dans le cadre de la politique de Science ouverte, toutes les données exposées dans Loterre sont accessibles gratuitement grâce à une licence qui autorise leur mise à disposition et leur réutilisation. L’accès est donc ouvert à tous sans aucune restriction.

Partenaires

Le stockage et l’exposition sont ouverts à tous partenaires en lien avec la recherche française ou internationale. Et si la majorité des terminologies ont été produites par le CNRS, 30% des ressources exposées ont été produites par des partenaires (Getty Research Institute, EMBL-EBI, MNHN, INRAE, INSERM etc.).

Code source ouvert

Loterre utilise le logiciel libre Skosmos : https://github.com/NatLibFi/Skosmos.

Pour en savoir plus sur l’accès aux ressources et leur utilisation :

La base terminologique

Accès à Istex Loterre

Lac de publications - IALAC

Actuellement en cours de développement avec l’objectif d’ouverture fin 2026, le service lac de publications vise à répondre aux besoins spécifiques des chercheurs d’analyse d’information à l’aide de technologies d’IA. Le service reposera sur une plate-forme à deux niveaux; permettant d’une part l’intégration, le stockage et la normalisation de fonds de documents divers, larges et hétérogènes sans restriction documentaire à priori (Preprint, Thèses, Brevets, etc.) et d’autre part d’offrir un accès direct aux données stockées selon un contrôle d’accès propres à chaque document. Le lac doit permettre aux équipes de recherche non seulement de directement effectuer des opérations de fouille de données mais aussi d’y brancher leurs propres services expérimentaux afin d’y stocker potentiellement le résultat de leur traitement pour chaque document.

L’ambition est d’éviter la dérive actuelle, où plusieurs opérateurs ou projets téléchargent les mêmes fichiers PDF pour les convertir et les traiter pour in fine ne garder que le résultat de la transformation utile à leur cas d’usage (détection de code logiciel, graphe de citation, extraction d’entités nommées, etc.). Le lac permettra d’agréger en un point unique l’ensemble des traitements réalisés par chacun au bénéfice de tous.

Atouts

Des masses de documents utilisables directement par des IAs dans des formats adaptés.

Usagers

Toutes les données stockées dans le lac seront accessibles à tous dans le respect des licences et droits accordés.

Partenaires

Le stockage des données du lac sera assuré via un partenariat avec l’université de Lorraine pour un hébergement dans le datacenter labellisé ADAGE. L’usage de ce type d’infrastructure doit assurer la sécurité des données, notamment par une réplication des données dans un site distant (Strasbourg).

Code source ouvert

Le lac utilise différents outils open source comme la suite logicielle Grobid : https://github.com/kermitt2/grobid.

Besoin d'aide ?

Consultez notre Faq, la documentation Istex ou nos tutoriels

Faq Documentation Tutoriels

N’hésitez pas à nous contacter si besoin, nous reviendrons rapidement vers vous !

Ressources pour la fouille de textes

Base documentaire

Atouts

Usagers

Partenaires

Code source ouvert

Base terminologique - Loterre

Atouts

Usagers

Partenaires

Code source ouvert

Lac de publications - IALAC

Atouts

Usagers

Partenaires

Code source ouvert

Besoin d'aide ?

Consultez notre Faq, la documentation Istex ou nos tutoriels

Écrivez-nous