dimanche 24 mai 2026

Les IA corrompent insidieusement les documents qu’on leur soumet

Au bout d’une succession de tâches, même les meilleurs modèles accumulent des erreurs qui transforment irrémédiablement le contenu initial.

Dix-neuf modèles d’IA ont été évalués via un test de performance sur des dizaines de tâches, mis au point par trois chercheurs de Microsoft.

Peut-on déléguer à une intelligence artificielle une suite de tâches sur un même document, sans avoir à vérifier le résultat final ? Pas encore, expliquent des chercheurs de Microsoft Research dans une étude mise en ligne sur un serveur de prépublication. Ils mettent en garde contre le fait que les grands modèles de langage (LLM) actuels, comme ChatGPT, «ne sont pas des agents fiables : ils introduisent des erreurs rares mais graves qui corrompent silencieusement les documents et se cumulent au fil de longues interactions». Un avertissement tranché, alors que dans de très nombreux secteurs de l’économie, la tentation est de plus en plus forte de remplacer des êtres humains par des IA.

Pour arriver à cette conclusion, les trois chercheurs de Microsoft ont employé les grands moyens : ils ont mis au point un test de performance sur des dizaines de tâches différentes, avec lequel ils ont évalué 19 modèles d’IA. Plusieurs versions de ChatGPT, développée par OpenAI, qui a un partenariat étroit avec Microsoft, ont fait partie du lot. Mais ils ont aussi évalué la concurrence, en incluant des modèles de Google, d’Anthropic, de xAI, l’entreprise d’Elon Musk, du français Mistral et de la société chinoise Moonshot AI. Signe que le test n’a pas été conçu pour tresser des lauriers à ChatGPT, c’est le modèle concurrent Gemini 3.1 Pro de Google qui a obtenu les meilleurs résultats. Ou plutôt, les moins mauvais.

De très nombreux tests existent déjà pour évaluer l’efficacité des modèles d’IA, mais l’équipe américaine a eu une approche originale. «D’habitude, les LLM sont évalués sur une tâche unique, la traduction ou le résumé d’un texte par exemple. Dans cette étude, ils vont beaucoup plus loin en essayant de regarder des opérations d’édition qui pourraient être faites dans plein de domaines différents, avec des tâches métiers très variées», explique Claire Gardent, directrice de recherche CNRS au Laboratoire lorrain de recherche en informatique et ses applications (Loria), près de Nancy. Les chercheurs ont ainsi retenu pas moins de 52 domaines, dont plusieurs liés à la programmation informatique (langage Python, gestion de bases de données…), d’autres à la création artistique (travail sur des sous-titres de films, des partitions musicales…), à des métiers techniques et scientifiques (crystallographie, robotique, catalogue astronomique…), utilisant des données structurées (registres comptables, courriels, agendas), et pour finir liés à des activités de la vie quotidienne (des recettes de cuisine, des horaires de transport en commun, des parties d’échecs…). « Réussir à définir des tâches représentatives et pertinentes sur un aussi grand nombre de domaines a dû demander un travail considérable», précise Claire Gardent.

Autre particularité, l’étude n’évalue pas directement la qualité du travail effectué, mais les pertes d’informations et les transformations apportées au document de départ au fur et à mesure du travail effectué par l’IA. « Les chercheurs utilisent pour cela des tâches réversibles, en regardant les dégradations apportées en allant d’un état A à B, puis en faisant l’opération inverse, de B à A, et en vérifiant à la fin si on retrouve bien l’état initial », explique François Yvon, directeur de recherche CNRS à l’institut des systèmes intelligents et robotique à Sorbonne université. «C’est une technique connue depuis très longtemps pour évaluer la traduction entre deux langues, mais qui a ici été élargie à de très nombreux domaines. » Pour l’analyse sur un registre comptable, l’opération demandée à l’IA a par exemple consisté à extraire les dépenses et les recettes, puis prendre ces deux listes créées par l’IA et les rassembler, avec classement chronologique. Une autre opération encore plus simple a consisté à demander à l’IA de manipuler des taux de change, avec par exemple un passage de montants en dollars en euros, avant de revenir à des dollars.

Ce couple d’opérations a ensuite été répété, jusqu’à une dizaine d’allers et retour, en mesurant à chaque étape les pertes d’informations et les erreurs ajoutées. «Ces opérations, individuellement, ne sont pas particulièrement complexes, mais quand on les répète de proche en proche, par un effet de téléphone arabe, elles finissent par devenir catastrophiques pour tous les modèles, même ceux qui avaient l’air de plutôt bien se comporter après le premier tour », résume François Yvon. Le modèle le moins efficace, ChatGPT5 Nano, décroche même après le premier aller et retour, avec un score de conservation de l’information de départ catastrophique de seulement 30 %. Au terme de la simulation, après 20 tâches successives, le score moyen de tous les modèles n’est que de 50 %, ce qui correspond à une perte de la moitié des informations de départ. Les trois modèles qui arrivent en tête de l’étude, Gemini 3.1 Pro, Claude 4.6 Opus d’Anthropic et ChatGPT 5.4 d’OpenAI, semblent bien résister après deux passages, avec des scores proches de 95 %. Mais en fin de test, après 20 tâches successives, ils accumulent quand même 25 % d’erreurs par rapport au document initial. Sur un texte, cela fait un quart de la longueur qui n’a plus aucun rapport avec le point de départ… alors que l’opération demandée est conçue pour être réversible. « Avec ce genre de résultats, on constate que ces modèles de langage ne sont pas prêts à se voir confier des tâches réelles qui se succèdent», estime François Yvon. 

 Exemple concret tiré de l’étude Microsoft. Elle illustre de façon visuelle et frappante le problème central du papier : la dégradation progressive et irréversible d’un document lorsqu’on enchaîne de nombreuses tâches sur lui avec un LLM. 
Les chercheurs ont conçu des paires de tâches réversibles (exemple dans l’étude) :
« Applique un schéma de couleurs automnales ». Puis : « Restaure les matériaux et couleurs d’origine à partir de la sauvegarde ».
Ou : « Sépare le tronc et le feuillage en deux fichiers » → « Fusionne-les à nouveau en un seul fichier palmier ». 
Départ (0 tâches, à gauche) — Palmier vert complet, en bonne santé → 100 % de conservation.
 
Fin (après ~20 tâches, à droite) — Il ne reste plus qu’un vague bâton marron avec une petite feuille ou un trait → seulement 6 % de fidélité au document d'origine.

Pour Pierre Colombo, ancien chercheur à CentraleSupélec qui a rejoint la société canadienne en IA Cohere, « l’accumulation de ces erreurs n’est pas du tout une surprise. C’est complètement lié à ces modèles qui ont un fonctionnement autorégressif, où on prédit le mot suivant en regardant ceux qui précèdent. Si une erreur apparaît à un moment T, elle se propage, sans que le modèle puisse la corriger ». Les chercheurs précisent qu’ils ont volontairement augmenté la difficulté en faisant travailler les modèles avec des documents de taille « réelle », d’une longueur équivalente à quelques milliers de mots (l’équivalent d’un chapitre de livre ou d’un rapport de plus d’une dizaine de pages). « L’un des gros défis pour les modèles d’IA avec des interactions successives sur un même travail, c’est de garder la mémoire de tout ce qui a été fait, avec un contexte qui grossit, explique Pierre Colombo. Les données sont représentées dans un espace, mais comme dans une conversation entre deux personnes, plus l’information est ancienne, plus il est difficile de s’en souvenir. »

Sur les 52 domaines étudiés, le seul qualifié de «prêt pour une délégation à L’IA » par les chercheurs de Microsoft est la programmation en Python, avec des scores après 20 tâches qui dépassent 98 % pour la majorité des modèles testés.

« Ce n’est pas complètement surprenant, estime Claire Gardent. Le code de programmation est bien plus structuré qu’un langage naturel, avec une syntaxe plus limitée et une complexité moindre. » « Je ne vois pas comment éviter complètement ces accumulations d’erreurs, à moins de mettre des vérifications en sortie du modèle, ce qui est loin d’être facile à mettre en place, résume François Yvon. Le piège, c’est que, comme l’interaction en langage naturel avec ces IA est très facile, on pense qu’elles sont intelligentes, et on oublie leurs limites. » 


Source : Le Figaro


Aucun commentaire:

Enregistrer un commentaire