Dans un projet de fouille de textes, l’élaboration d’un corpus de qualité représente une première étape clé pouvant conditionner la réussite de ce projet.
L’équipe Istex vous accompagne dans cette étape cruciale en mettant à votre disposition :

  • une base documentaire permettant d’explorer la littérature scientifique mondiale
  • des outils pour rechercher, télécharger, affiner votre corpus
  • une expertise dans la définition de votre besoin et dans l’utilisation des différents outils associés à Istex

Inist CNRS. (2025). Istex : constitution de corpus. [Vidéo]. Canal-U. https://www.canal-u.tv/chaines/inist-cnrs/istex-constitution-de-corpus

Rechercher des documents

Istex Search est un service dédié à la constitution de corpus.


Au moyen d’une interface ergonomique directement connectée à l’API, il exploite toute la richesse du moteur de recherche Elastic search pour interroger la base Istex, et facilite votre recherche grâce à un assistant à la construction de requêtes.

Il vous permet ensuite d’explorer les résultats de votre recherche et de délimiter peu à peu les contours de votre corpus grâce à :

  • des indicateurs offrant une vue synthétique sur votre corpus
  • des filtres prédéfinis pour une première exploration de vos résultats
  • une notice détaillant chacun des documents
  • un accès aux documents en texte intégral, à leurs métadonnées, ainsi qu’à leurs enrichissements, dans différents formats
  • une sélection personnalisée des documents de votre corpus.

Télécharger un corpus

Une fois votre recherche finalisée, Istex Search vous permet de télécharger massivement vos résultats.

Configurez votre téléchargement afin d’adapter votre corpus à votre usage :

  • soit par une sélection personnalisée  des formats et types de données souhaités
  • soit grâce à nos passerelles avec des outils du monde académique (Lodex, CorText, Gargantext, NooJ) qui sélectionnent automatiquement les fichiers requis par ces outils et facilitent ainsi l’exploitation de vos résultats.

Définissez ensuite vos options de compression pour obtenir votre corpus sous forme d’archive compressée.

 

Affiner un corpus

Lodex est un outil open source dédié à la valorisation de données structurées.

Il vous permet d’importer votre corpus directement téléchargé depuis Istex Search et de paramétrer à votre guise l’affichage de vos données afin de les exposer et les visualiser dans un site web dédié.

Vous pourrez ainsi naviguer dans le contenu de votre corpus au moyen de filtres et de graphiques qui vous offriront différents angles de vues sur les métadonnées et les enrichissements des documents le composant.

Cette exploration vous permettra d’analyser la pertinence de votre corpus par rapport à vos besoins et aux applications visées, et vous donnera ainsi des clés pour affiner votre requête et télécharger votre corpus définitif via Istex Search au moyen d’une boucle itérative.

Les points forts de Lodex

Outil Lodex

L’infrastructure Istex propose à ses membres la création et l’hébergement d’instance Lodex pour vos corpus Istex ou pour vos propres données.

Pour accéder à ce service, prenez contact avec l’équipe Istex.

Nous contacter

besoin d'aideBesoin d'aide ?

Besoin d'aide ?

Consultez notre Faq, la documentation Istex ou nos tutoriels

N’hésitez pas à nous contacter si besoin, nous reviendrons rapidement vers vous !

Écrivez-nous

fermer la modale