
Un nouveau web service qui traite le format PDF est à votre disposition. Après notamment bibCheck, datatableExtract, Grobid et textExtract, voici hiddenTextDetect.
- Vous en avez assez de ne pas savoir ce que contiennent vraiment vos PDF ?
- Vous en avez assez des techniques de dissimulation dans vos fichiers ?
- Vous avez besoin de garantir l’intégrité de vos documents ?
- Vous avez besoin de protéger vos analyses automatiques ?
hiddenTextDetect est la solution.
- Il va rendre visible au lecteur ce qui ne l’est initialement pas mais qui est compréhensible par les machines.
- Il va mettre en évidence, par exemple, des textes de taille minuscule illisibles par l’œil humain ainsi que des textes de la couleur de l’arrière plan.
Grâce à hiddenTextDetect,
- finies les instructions cachées qui peuvent fausser le comportement des algorithmes (prompts, commandes cachés pour tromper ou influencer l’IA, liens malveillants, contournement de filtres, de systèmes de détection),
- finis les textes cachés qui peuvent aller à l’encontre de l’éthique scientifique (références cachées pour fausser le comptage des citations, métadonnées et/ou mots-clés pour tromper un moteur de recherche ou améliorer le référencement, falsification de données, campagnes de désinformation).
Pour en savoir davantage sur cet outil, rendez-vous sur sa fiche descriptive.
Il est également présent dans TDM Factory, l’interface simple pour lancer les outils de fouille de textes. Venez donc le tester : https://tdm-factory.services.istex.fr/
Des besoins d’autres traitements d’analyse ? Venez consulter le catalogue ISTEX TDM qui recense tous nos services développés en interne ou en partenariat.
Valérie Bonvallot pour l’équipe TDM (Text & Data Mining – Fouille de textes)
Besoin d'aide ?
Consultez notre Faq, la documentation Istex ou nos tutoriels
N’hésitez pas à nous contacter si besoin, nous reviendrons rapidement vers vous !