ChatGPT-4.5 d’OpenAI atteint une étape autrefois jugée lointaine : convaincre la majorité des participants d’un test de Turing qu’il est humain.
Dans une étude récente menée par l’Université de Californie à San Diego, qui visait à évaluer si les grands modèles de langage peuvent passer le test de Turing classique à trois parties, GPT-4.5 a réussi à se faire passer pour un humain dans 73 % des conversations textuelles.
L’étude montre que ce dernier modèle surpasse ses prédécesseurs, comme GPT-4.0, ainsi que d’autres systèmes tels qu’ELIZA ou LLama-3.1-405B.
GPT-4.5, lancé par OpenAI en février, a su détecter des indices subtils dans le langage, le rendant plus humain selon Cameron Jones, chercheur postdoctoral à l’UC San Diego.
« Si vous leur demandez ce que ça fait d’être humain, les modèles répondent généralement très bien et peuvent simuler de manière convaincante des expériences émotionnelles ou sensorielles », a déclaré Jones à Decrypt. « Mais ils ont du mal avec des choses comme l’actualité ou les informations en temps réel. »
Le test de Turing, proposé par le mathématicien britannique Alan Turing en 1950, évalue si une machine peut simuler une conversation humaine de manière assez convaincante pour tromper un juge humain. Si ce dernier ne peut pas distinguer de manière fiable la machine de l’humain, alors la machine est considérée comme ayant passé le test.
Pour évaluer les performances des modèles d’IA, les chercheurs ont testé deux types de prompts : un prompt de base avec peu d’instructions, et un prompt plus détaillé qui demandait au modèle d’adopter la voix d’un jeune introverti, adepte d’internet, utilisant de l’argot.
« Nous avons sélectionné ces prompts sur la base d’une étude exploratoire où nous avons testé cinq prompts différents et sept modèles de langage. Nous avons constaté que LLaMa-3.1-405B, GPT-4.5, et ce prompt "persona" donnaient les meilleurs résultats », ont déclaré les chercheurs.
L’étude aborde également les implications sociales et économiques plus larges du fait que des modèles de langage puissent passer le test de Turing, notamment les risques d’abus.
« Certains risques incluent la désinformation, comme l’astroturfing, où des bots se font passer pour des personnes pour gonfler artificiellement l’intérêt autour d’une cause », a expliqué Jones. « D’autres concernent la fraude ou l’ingénierie sociale — si un modèle échange des mails avec quelqu’un sur la durée et paraît crédible, il pourrait l’amener à partager des informations sensibles ou à donner accès à ses comptes bancaires. »
La nouvelle mémoire d’OpenAI retient tout l’historique des conversations
OpenAI a annoncé une mise à jour majeure de la mémoire de ChatGPT, lui permettant désormais de se souvenir de l’intégralité de l’historique des échanges avec un utilisateur pour fournir des réponses plus personnalisées. Cette fonctionnalité, déployée d’abord pour les utilisateurs payants du niveau Pro, marque un pas important vers des IA plus personnalisées. « Nous avons grandement amélioré la mémoire de ChatGPT — il peut maintenant se référer à toutes vos conversations passées ! », a annoncé le PDG d’OpenAI, Sam Altman, sur X. « C’est une fonction étonnamment utile à mon avis, et cela pointe vers un avenir très prometteur... »
Lundi, OpenAI a annoncé la sortie de la prochaine version de son modèle phare, GPT-4.1. Ce nouveau modèle est encore plus avancé et capable de traiter de longs documents, bases de code, voire des romans entiers. OpenAI a indiqué qu’il retirerait GPT-4.5 du marché cet été pour le remplacer par GPT-4.1.
Même si Turing n’a jamais connu le paysage actuel de l’IA, Jones souligne que le test qu’il a imaginé reste pertinent.
« Le test de Turing reste pertinent au sens voulu par Turing », dit-il. « Dans son article, il parle de machines apprenantes et suggère que pour créer quelque chose qui passe le test de Turing, il faut concevoir un enfant computationnel qui apprend à partir de vastes quantités de données. C’est exactement comme fonctionnent les modèles d’apprentissage automatique aujourd’hui. »
Interrogé sur les critiques de l’étude, Jones en reconnaît l’intérêt tout en précisant ce que le test mesure — et ce qu’il ne mesure pas.
« Le principal point à retenir, c’est que le test de Turing n’est pas un test parfait de l’intelligence — ni même de la ressemblance humaine », dit-il. « Mais il est précieux pour ce qu’il mesure : la capacité d’une machine à convaincre un humain qu’elle est humaine. Et ça, c’est quelque chose qui mérite d’être mesuré, car ça a des implications réelles. »