Nous mettons à disposition divers outils de fouille de textes utilisables avec 3 différentes interfaces, adaptées à différents profils (informaticien, gestionnaire de données, néophyte).
TDM Factory
Une interface simple pour l’analyse automatique de textes scientifiques
Chercheurs, enseignants, professionnels IST : « TDM Factory » vous permet, en quelques clics, de traiter vos documents scientifiques grâce à une série d’outils de fouille de textes puissants… sans coder une ligne, et sans installation. Tout se passe dans votre navigateur.
Un site web
TDM Factory est un site web conçu pour permettre de transformer facilement un fichier de votre choix en connaissances exploitables. Grâce à une interface minimale et intuitive, vous pouvez charger vos articles ou corpus scientifiques et sélectionner un service parmi une large palette de traitements disponibles. Ceux-ci couvrent des tâches variées telles que l’extraction d’informations, l’enrichissement ou la structuration automatique de textes.
Exemples d’outils prêts à l’emploi pour explorer vos corpus scientifiques.
- chemTag : détecte les composés chimiques dans vos textes
- aiAbstractCheck : repère les résumés rédigés par IA
- bibCheck : contrôle les références bibliographiques développé avec l’IRIT

Un usage en 3 temps simple et rapide :
- chargez un fichier (pdf, csv, etc),
- choisissez un traitement dans la liste proposée par TDM factory en fonction du format de votre fichier (vous pouvez retrouver en amont le détail et les explications détaillées de tous les traitements proposés sur TDM web services)
- recevez le résultat par courriel.
Usagers
Le service est ouvert à toutes les données (données privées, données opendata, données d’entrepôts, etc.) Pour des raisons économiques et de sécurité informatique, l’utilisation de TDM Factory est actuellement limité à tous les établissements français ayant droits Istex et à leurs usagers ; étudiants, doctorants, chercheurs, professionnels de la documentation (350 établissements sont concernés). Les exceptions sont évidemment possibles pour les partenaires d’un projet européen ou international.
Sécurité pour vos données
TDM Factory garantit la confidentialité des données : les fichiers sont uniquement traités temporairement sur les serveurs internes et ne sont pas conservés après traitement. La plateforme est ainsi pensée pour un usage sécurisé et accessible à tous les niveaux de compétence technique.
Partenaires
Certains traitements proposés ont été développés en partenariat avec des laboratoires de recherche, comme le service bibCheck qui permet de contrôler les références bibliographiques d’un article scientifique, développé avec Guillaume Cabanac de l’IRIT à Toulouse. (https://www.irit.fr/)
Essayez TDM Factory
- Sans installation
- Interface simple
- Utilisable avec vos fichiers
Code source ouvert
- Développé par les équipes ISTEX
- Voir sur GitHub
TDM web services
Plus de 40 traitements IA prêts à l’emploi pour analyser ou enrichir vos textes scientifiques
TDM web services est une collection de traitements permettant de traiter, enrichir ou analyser vos documents scientifiques grâce à une série d’outils de fouille de textes puissants…
Une collection de web services
Basés sur des modèles d’IA spécialisés et frugaux, les TDM web Services permettent de traiter automatiquement des métadonnées et des textes… Chaque web service accomplit une tâche bien précise : indexation, classification, extraction d’entités nommées, attribution d’identifiants…
Exemples de traitements disponibles pour analyser vos corpus scientifiques.
Grâce à eux, il devient facile de réaliser des classements thématiques de documents (clustering), déduire des informations (laboratoires CNRS, auteurs français, etc..), d’indexer des documents ou encore d’extraire les entités nommées d’un corpus (espèces animales, lieux géographiques…)
- textSummarize – Résumé automatique d’un article scientifique
- ldaClass – Extraction de thématiques d’un corpus
- topRefExtract – Extraction des références phares d’un corpus
Exemple d’utilisation détaillé : https://www.istex.fr/deux-web-services-pour-indexer-vos-documents-teeft-et-termsuite/

Les web services sont utilisables :
- avec TDM factory,
- avec Lodex,
- ou directement avec une API, via une ligne de commandes (outils curl, wget, ou autres) selon votre envie et votre degré d’autonomie avec ces diverses solutions.
- sans paramétrage complexe : juste ce qu’il faut pour ajuster à votre besoin (ex : nombre de termes à extraire)
Usagers
Pour des raisons économiques et de sécurité informatique, l’exécution des web services est actuellement limitée à tous les établissements français ayant droits Istex et à leurs usagers ; étudiants, doctorants, chercheurs, professionnels de la documentation (350 établissements sont concernés). Les exceptions sont évidemment possibles pour les partenaires d’un projet européen ou international.
Sécurité de vos données
Dans le cadre de la politique de Science ouverte, le code logiciel de chaque web service est en open source, consultable dans une forge logicielle. Cette transparence permet à quiconque de vérifier l’algorithme sous-jacent et offrant la possibilité de l’exécuter localement. Vous traitez vos données dans un cadre sécurisé, sobre et respectueux.
- Exécution locale sur l’infrastructure ISTEX
- Modèles IA frugaux, optimisés pour minimiser l’impact environnemental
- Consommation énergétique uniquement lors de l’exécution
Partenaires
L’architecture technique est ouverte à la contribution de tous partenaires en lien avec la recherche française ou internationale. Et si la majorité des web services ont été produits par le CNRS, un premier partenariat avec l’INALCO est en cours et fin août 2025 le code IA développé par un doctorant du laboratoire sera mis à disposition de tous. Ce projet doit ouvrir la voie à d’autres partenariats du même type.
Envie de contribuer ? La plateforme est conçue pour évoluer avec vos projets !
Essayez les TDM web services
- 40 traitements prêts à l’emploi
- Intégrables à vos outils via API
- Compatible avec tous types de documents scientifiques, en français ou en anglais
Code source ouvert
- Développée par les équipes ISTEX
- Le code est en open source, disponible dans la forge logicielle ISTEX. Pour des raisons de sécurité et techniques, les modèles associés aux algorithmes sont stockés sur des serveurs internes, ils sont disponibles à la demande.
Lodex
Lodex : hébergez, traitez et valorisez vos données structurées dans un site web interactif
Lodex est une application open source qui transforme vos données structurées en un site d’exploration riche et visuel.
En quelques étapes, et grâce aux web services intégrés, vous analysez, enrichissez et publiez vos données… sans installer de logiciel, l’infrastructure Istex vous propose l’hébergement de vos instances Lodex.
Analyse et visualisation
Lodex est une application open source permettant d’analyser tout type de données structurées via des traitements d’enrichissement et de fouille (TDM web services). Les données traitées sont exposées dans un site web proposant exploration, recherche ainsi qu’un tableau de bord de visualisation. L’application est librement disponible et téléchargeable.
Pour simplifier son usage, un service d’hébergement est proposé par l’infrastructure. Il permet de valoriser et publier ses propres jeux de données, indépendamment des ressources Istex. Chaque utilisateur bénéficie de son propre site d’exposition public et une interface d’administration indépendante. L’hébergement est mutualisé : toutes les instances partagent les mêmes ressources informatiques (RAM, CPU, espace de stockage), allouées de façon dynamique en fonction de l’activité globale, ce qui permet une utilisation optimisée des capacités techniques disponibles
Enrichir, explorer, publier
- chargez vos données structurées (Istex ou propres données…)
- enrichissez-les et configurez votre tableau de bord
- obtenez un site web d’exploration avec recherche, filtres et visualisations interactives
Pas besoin d’installation si vous choisissez l’hébergement proposé par ISTEX (https://lodex.istex.fr/)
Service sécurisé
- hébergement mutualisé optimisant RAM, CPU et stockage
- instances indépendantes et données sous votre contrôle
- pas d’obligation d’ouverture publique : vos données peuvent rester privées
Usagers
- tous les établissements français ayant droits ISTEX (350 établissements)
- leurs chercheurs, doctorants, étudiants, professionnels IST
- partenaires européens ou internationaux sur projet
Essayez Lodex
- Utilisable sans installation dans un navigateur (avec l’hébergement Istex)
- Compatible avec tout type de données structurées
- Interface intuitive pour explorer et valoriser vos données
- Vos données restent sous contrôle avec l’hébergement Istex