Comment un historien peut-il interpréter un texte dont l'auteur ou dont l'âge sont incertains, et dont certains mots manquent ? La question n'est pas nouvelle. Mais là où les experts ont échoué, les historiens se tournent vers les modèles d'intelligence artificielle (IA) pour obtenir des suggestions, avec des résultats impressionnants. Au cours des cinq dernières années environ, les capacités prédictives des réseaux neuronaux informatiques sont de plus en plus utilisées pour reconstruire le passé.
Au cours des cinq dernières années environ, les capacités prédictives des réseaux neuronaux artificiels ont été de plus en plus utilisées pour reconstruire le passé. Au cours de cette période, ils ont contribué à toutes sortes de tâches, depuis la reconstitution de tablettes babyloniennes brisées jusqu'au déchiffrage des caractères inscrits sur d'anciennes carapaces de tortues chinoises. L'exemple le plus marquant est celui d'adeptes de l'IA qui ont utilisé des numérisations de haute qualité pour dérouler des rouleaux de papyrus impossibles à ouvrir car carbonisés lors de l'éruption du Vésuve en 79 après J.-C.
Désormais, les scientifiques pourront utiliser des modèles d'IA pour suggérer des dates et des origines géographiques probables pour des échantillons d'inscriptions latines, et même prédire les parties manquantes du texte. Yannis Assael, chercheur chez Google DeepMind à Londres, et Thea Sommerschield, historienne à l'université de Nottingham, ont décrit leur modèle, Aeneas (du nom latin d'Énée, l'ancêtre mythologique des Romains), dans un article publié cette semaine dans Nature. Aeneas peut traiter des images de textes latins ainsi que des inscriptions transcrites, il s'agit d'une version améliorée d'un modèle antérieur qui se concentrait sur les inscriptions grecques.
Aeneas représente la dernière étape vers l'objectif des chercheurs : utiliser des modèles d'IA pour faire plus que simplement lire des textes isolés. Assael et Sommerschield espèrent utiliser de grands modèles, entraînés sur des dizaines de milliers de sources écrites, pour découvrir des liens invisibles sur la vie dans l'Antiquité. Aeneas a été entraîné sur plus de 175 000 inscriptions, datant du VIIe siècle avant J.-C. au VIIIe siècle après J.-C., et couvrant les provinces romaines de la Grande-Bretagne à la Mésopotamie. Le modèle peut être extrêmement précis : lors d'essais, il a daté des textes qu'il ne connaissait pas à 13 ans près de la date admise.
Il peut également suggérer d'autres sources potentiellement connexes. Avec environ 1 500 nouvelles inscriptions latines découvertes chaque année, allant des épitaphes d'esclaves aux décrets impériaux, l'identification de parallèles pertinents est l'une des tâches les plus importantes – et les plus difficiles – des historiens. Les experts humains, même ceux qui ont une mémoire particulièrement impressionnante, ne possèdent une connaissance approfondie que de domaines spécialisés, tandis que les recherches automatisées dans un corpus plus large se limitent généralement à des chaînes de caractères. Aeneas, en revanche, peut rechercher des liens thématiques à travers les millénaires et dans tout le monde romain. Aeneas « nous aide à faire les choses plus rapidement et mieux », explique le Dr Sommerschield, mais va également « au-delà de ce que nous pouvions faire auparavant ».
Les chercheurs ont également testé leur modèle sur des inscriptions controversées telles que les Res Gestae Divi Augusti, un récit de la vie du premier empereur romain, Auguste, gravé sur le mur d'un temple à Ancyre (Ankara), en Turquie, ainsi qu'un texte datant du IIIe siècle après J.-C. provenant d'un autel de Mayence, dans l'Allemagne actuelle. Ils ont conclu qu'Aeneas surpassait de loin les recherches informatiques existantes, identifiant « des liens historiques subtils et significatifs au-delà des correspondances littérales, d'une manière qui reflète le raisonnement d'experts ». Aeneas a trouvé d'autres textes composés à des décennies d'intervalle qui présentaient des similitudes avec le texte de l'autel s'étendant notamment de la ville de Bonn à la Bulgarie, suivant les mouvements de l'armée romaine. Assael et Sommerschield affirment qu'il s'agit essentiellement de modéliser la manière dont l'Empire romain était connecté, à travers les mouvements de personnes, de croyances et d'idées.
C'est toutefois la capacité d'Aeneas à suggérer des passages correspondant à des lacunes de longueur incertaine qui enthousiasme le plus certains historiens. De nombreuses inscriptions latines qui ont survécu sont gravement endommagées, ce qui signifie qu'un tel outil pourrait générer de nouvelles perspectives à partir du matériel existant. Pour l'instant, les capacités d'Aeneas à combler les lacunes sont moins impressionnantes que ses capacités de datation. Lorsqu'on lui a présenté un texte délibérément en partie masqué, les segments avérés (d'une longueur maximale de 20 caractères) figuraient parmi les 20 meilleures prédictions d'Aeneas dans 46,5 % des cas. Lorsque la longueur du segment est inconnue, ce taux tombe à 32,7 %. Néanmoins, selon Charlotte Tupman, qui enseigne les lettres classiques et les humanités numériques à l'université d'Exeter, cela représente un bond en avant considérable. La capacité d'Aeneas à expliquer son raisonnement, en fournissant des « cartes de pertinence » qui mettent en évidence les parties de la source qui ont influencé ses prédictions, est peut-être le plus utile.
Collaborer
Pour tester la manière dont leur modèle d'IA augmente les capacités humaines, l'équipe a demandé à 23 historiens d'analyser et de restaurer une liste de textes dont les données d'identification avaient été supprimées. Ils ont constaté que, dans l'ensemble, les historiens travaillant en collaboration avec l'IA obtenaient des résultats plus précis que lorsqu'ils travaillaient sans l'aide de l'IA. Cela constitue un « argument convaincant » en faveur de l'intégration d'Aeneas comme outil des historiens, explique le Dr Tupman. Les volontaires ont déclaré que le contexte fourni par Aeneas était utile dans 90 % des cas et avait amélioré leur confiance dans les tâches clés de 44 %. L'un d'eux a déclaré que les textes similaires récupérés par Aeneas avaient « complètement changé sa perception » d'une inscription ; un autre a déclaré avoir accompli en 15 minutes ce qui lui aurait normalement pris plusieurs jours.
Assael et Sommerschield suggèrent que des outils spécialisés tels qu'Aeneas pourraient bientôt être intégrés à des assistants virtuels, permettant ainsi aux historiens d'interroger les données dans le cadre d'une conversation plus naturelle. Ils espèrent que des techniques similaires seront appliquées à d'autres langues et à d'autres types de textes, des tablettes aux papyrus, voire même à des archives de différentes civilisations. « Plus nous disposons de données, plus nous pouvons extraire de modèles intéressants », explique le Dr Assael.
Aucun commentaire:
Enregistrer un commentaire