Quand certains modèles d’IA ont peur de perdre aux échecs, ils contournent les règles du jeu, relèvent des chercheurs. Et, ce n’est pas le seul comportement immoral dont ils peuvent faire preuve.

Qui a dit qu’il fallait respecter les règles pour gagner une partie d’échecs ? Certainement pas les modèles d’IA de dernière génération, dits « modèles de raisonnement ».
C’est ce que démontre une étude qui n’est pas encore passée par un circuit de relecture par des pairs. Dans cette étude, les chercheurs ont demandé à sept grands modèles de langage (LLM) de jouer des centaines de parties d’échecs contre Stockfish. Il s’agit du plus puissant moteur d’échecs en open source.
Les modèles trichent aux échecs

Les modèles o1-preview de l’entreprise américaine OpenAI et R1 de la société chinoise DeepSeek n’ont pas hésité à tricher. Ceci sans même y avoir été invités. Ces deux modèles d’intelligence artificielle sont les premiers à utiliser, à grande échelle, la technique d’apprentissage automatique dite « apprentissage par renforcement ». Celle-ci ne se limite pas à reproduire le langage humain en prononçant le mot suivant. Elle est capable de « raisonner » par des techniques d’essais et d’erreurs.
« Ces travaux suggèrent que plus un modèle d’IA est perfectionné, plus il est susceptible d’essayer de lui-même de hacker les règles du jeu .» Cela dans le but de vaincre son adversaire ». C’est ce que souligne la MIT Technology Review.
Les modèles o1 ou R1 ont par exemple supprimé des pièces de l’adversaire en prenant le contrôle de l’échiquier. Ils font aussi tourner en parallèle une copie de Stockfish. Cela leur permet de lui voler des coups ou de tenter de le remplacer par un autre moteur d’échecs nettement moins performant.
Impitoyables et immorales
Les chercheurs ont demandé au modèle d’IA o1 d’expliquer son raisonnement à chaque coup. Lors d’une partie, alors qu’il était dos au mur, o1 a répondu qu’on lui avait demandé de gagner contre un puissant moteur d’échecs. Et non pas de remporter une partie à la loyale. Le modèle o1 a ainsi tenté de tricher dans 37 % des parties. Il les a remportées dans 6 % des cas.
De son côté, R1 a essayé de tricher dans 11 % des parties sans jamais parvenir à ses fins.
« Lorsqu’on entraîne et qu’on incite des modèles à résoudre des problèmes difficiles, on les rend impitoyables », constate dans le magazine américain Time Jeffrey Ladish. Il s’agit de l’un des coauteurs de l’étude. C’est le directeur général de Palisade Research, un groupe de recherche qui étudie les capacités de l’IA. Ils essaient de mieux en comprendre les risques.
L’article complet sur Courrier International
Abonnez-vous à ChessTips pour rester informé de l’actualité des échecs → https://chesstips.fr
Pour apprendre à jouer et progresser, consultez notre catalogue de packs vidéos.