Nous avons le plaisir d’annoncer la publication d’une nouvelle ressource sur Loterre : une terminologie bilingue consacrée au traitement automatique des langues (TAL). Conçue dans le cadre du projet ANR MaTOS (Machine Translation for Open Science), cette terminologie répond à un besoin majeur : améliorer la précision et la cohérence dans la traduction scientifique, dans un domaine où l’anglais domine largement et où les équivalents français sont multiples ou inexistants.
Une ressource enrichie et structurée
Cette terminologie comprend environ 1 600 termes en français et en anglais. Un soin particulier a été apporté à l’intégration de néologismes, témoignant de l’évolution rapide du domaine du TAL.
Les termes sont organisés autour de cinq thématiques : Applications (ex. extraction d’information), Linguistique computationnelle (ex. désambiguïsation lexicale), Méthodes et outils (ex. IA sous-symbolique), Ressources et évaluation (ex. perte d’entropie croisée) et TAL responsable (ex. biais).
Pour de nombreux termes, la ressource propose : des définitions, des contextes définitoires bilingues, qui permettent de clarifier les concepts de manière précise et des contextes d’emploi bilingues, illustrant l’usage réel des termes dans les publications scientifiques.

Exemple d’entrée issue de Loterre
Une extraction de contextes automatisée
Les contextes proviennent de deux corpus monolingues, l’un en français et l’autre en anglais, construits à partir des actes de conférences de l’ISCA et de l’ACL Anthology. Après conversion des PDF en texte brut grâce à Grobid, les exemples ont été extraits automatiquement à l’aide de l’outil Concordancer, puis validés manuellement afin de garantir leur pertinence et leur qualité. Chaque extrait reste lié à sa source scientifique, assurant ainsi la traçabilité des données.
Un outil au service de la communauté
La ressource est disponible en plusieurs formats (CSV, SKOS-XML, JSON-LD) pour favoriser sa réutilisation dans les systèmes d’information, les outils de traduction ou encore les recherches en linguistique et en intelligence artificielle. Elle est diffusée sous licence CC-BY, garantissant sa libre utilisation et son enrichissement collaboratif.
📍 Accessible dès maintenant sur Loterre, cette nouvelle ressource représente un outil précieux pour les chercheurs, traducteurs, ingénieurs et toute la communauté TAL.
Mathilde (Équipe Istex – Textes & Corpus) & Manon (Équipe Ressources Langagières Multilingues)
👉 Vous souhaitez proposer un terme, une définition ou un exemple d’usage ? Écrivez-nous à contact@anr-matos.fr
Besoin d'aide ?
Consultez notre Faq, la documentation Istex ou nos tutoriels
N’hésitez pas à nous contacter si besoin, nous reviendrons rapidement vers vous !