Un nouveau web service qui traite le format PDF est à votre disposition. Après notamment bibCheck, datatableExtract, Grobid et textExtract, voici hiddenTextDetect.

  • Vous en avez assez de ne pas savoir ce que contiennent vraiment vos PDF ?
  • Vous en avez assez des techniques de dissimulation dans vos fichiers ?
  • Vous avez besoin de garantir l’intégrité de vos documents ?
  • Vous avez besoin de protéger vos analyses automatiques ?

hiddenTextDetect est la solution.

  • Il va rendre visible au lecteur ce qui ne l’est initialement pas mais qui est compréhensible par les machines.
  • Il va mettre en évidence, par exemple, des textes de taille minuscule illisibles par l’œil humain ainsi que des textes de la couleur de l’arrière plan.

Grâce à hiddenTextDetect,

  • finies les instructions cachées qui peuvent fausser le comportement des algorithmes (prompts, commandes cachés pour tromper ou influencer l’IA, liens malveillants, contournement de filtres, de systèmes de détection),
  • finis les textes cachés qui peuvent aller à l’encontre de l’éthique scientifique (références cachées pour fausser le comptage des citations, métadonnées et/ou mots-clés pour tromper un moteur de recherche ou améliorer le référencement, falsification de données, campagnes de désinformation).

Pour en savoir davantage sur cet outil, rendez-vous sur sa fiche descriptive.

Il est également présent dans TDM Factory, l’interface simple pour lancer les outils de fouille de textes. Venez donc le tester : https://tdm-factory.services.istex.fr/ 

Des besoins d’autres traitements d’analyse ? Venez consulter le catalogue ISTEX TDM qui recense tous nos services développés en interne ou en partenariat.

Valérie Bonvallot pour l’équipe TDM (Text & Data Mining – Fouille de textes)

besoin d'aideBesoin d'aide ?

Besoin d'aide ?

Consultez notre Faq, la documentation Istex ou nos tutoriels

N’hésitez pas à nous contacter si besoin, nous reviendrons rapidement vers vous !

Écrivez-nous

fermer la modale