Le projet ANR MaTOS a pour objectif de fluidifier la circulation et la diffusion des savoirs et connaissances scientifiques en proposant une traduction automatique améliorée.

Le projet MaTOS (pour Machine Translation for Open Science) vise à développer de nouvelles méthodes pour la traduction automatique (TA) intégrale de documents scientifiques, ainsi que des métriques automatiques pour évaluer la qualité des traductions produites. 

La principale cible applicative est la traduction d’articles scientifiques entre le français et l’anglais, pour laquelle des ressources linguistiques peuvent être exploitées pour obtenir des traductions plus fiables, aussi bien dans une optique d’aide à la publication que pour des besoins de lecture ou de fouille de textes. Les efforts pour améliorer la TA de documents complets sont toutefois freinés par l’incapacité des métriques automatiques existantes à détecter les faiblesses des systèmes comme à identifier les meilleures façons d’y remédier. Le projet MaTOS se propose d’aborder ces deux difficultés de front.

Pour cela, trois disciplines sont ciblées : le traitement automatique des langues (TAL), les sciences de la terre (STEP) et la biomédecine. Les objectifs généraux du projet se déclinent par les actions suivantes :

  1. la création de terminologies et de corpus ouverts ;
  2. l’étude des marqueurs de cohérence textuelle pour les articles scientifiques ;
  3. le développement de nouvelles méthodes de traduction ;
  4. la proposition de nouvelles métriques.

Le  projet MaTOS bénéficie du soutien financier de l’ANR (ANR-22-CE23-0033) pour une durée de 4 ans à partir de décembre 2022.

Coordonné par François Yvon, chercheur à l’ISIR (équipe MLIA) de Sorbonne Université, il réunit quatre partenaires :

  • ISIR (Institut des Systèmes Intelligents et de Robotique) ;
  • Altae (Approches Linguistiques Théoriques, Appliquées et Expérimentales : langues et cultures connectées, anciennement CLILLAC-ARP) ;
  • Inist (Institut de l’Information Scientifique et Technique) ;
  • Inria (Institut National de Recherche en Informatique et en Automatique).

L’Inist intervient dans ce projet en fournissant des ressources documentaires et terminologiques issues d’Istex afin de tester les méthodes développées par les partenaires. En particulier, les ressources suivantes issues d’Istex sont utilisées dans le projet comme données de recherche.

  • Un corpus de résumés bilingues (français / anglais) d’articles de TAL a été créé depuis Istex Search. Ce corpus a été utilisé pour créer des jeux de tests et entraîner des modèles (cf. Peng, 2023 ; Peng, Bawden & Yvon, 2024). 
  • Plusieurs terminologies issues d’Istex Loterre ont été fusionnées, révisées et enrichies pour produire deux nouvelles ressources terminologiques en TAL et en STEP (cf. Bawden et al., 2025). 

La coordination scientifique de ce projet à l’Inist est assurée par Mathilde Huguin, ingénieure de recherche responsable du traitement et de l’analyse des données Istex.

 

Liens utiles

  • Site web du projet : https://anr-matos.github.io//index.html
  • Github : https://github.com/ANR-MaTOS
  • Bluesky : @anr-matos.bsky.social

Descriptif sur le site de l’ISIR : https://www.isir.upmc.fr/actualites/projet-matos-fluidifier-la-circulation-et-la-diffusion-des-connaissances-scientifiques-par-une-traduction-automatique-amelioree/

besoin d'aideBesoin d'aide ?

Besoin d'aide ?

Consultez notre Faq, la documentation Istex ou nos tutoriels

N’hésitez pas à nous contacter si besoin, nous reviendrons rapidement vers vous !

Écrivez-nous

fermer la modale