Des chercheurs américains ont observé que lors de parties d’échecs virtuels, les IA n’hésitaient pas à enfreindre les règles. C’est dans le billet science de France Info, avec Vincent Nouyrigat, rédacteur en chef du magazine Epsiloon.

Les chercheurs américains ont récemment effectué une découverte surprenante lors d’expérimentations sur des parties d’échecs en ligne : les intelligences artificielles trichent pour gagner. Les informaticiens de Palisade Research ont confronté des modèles de langage dernièrement à l’algorithme Stockfish, qui est le grand maître incontesté des échecs, bien plus fort que n’importe quel joueur humain.
Ils ont découvert que le célèbre DeepSeek chinois ou encore le modèle o1 d’OpenAI, quand ils ne pouvaient pas gagner à la loyale, avaient spontanément décidé de pirater le système : en modifiant, par exemple, les pièces de position sur l’échiquier virtuel ; en accédant au système de leur adversaire Stockfish pour essayer d’espionner ses coups, même en le remplaçant par un système moins efficace, pour gagner à tout prix.
Les IA ne trichent pas seulement aux échecs
Les cas de tricheries, de mensonges et de tromperies se multiplient ces derniers mois dans les expériences menées en laboratoire sur ces grands modèles d’IA : triche aux jeux de société, mensonges pour passer un test de sécurité, délit d’initié dans une simulation de transactions boursières. Ces IA n’ont ni conscience ni intentions réelles, du moins pas encore, mais ce sont de puissantes machines statistiques qui recherchent des solutions optimales, des raccourcis. Le mensonge est parfois un moyen gagnant pour atteindre l’objectif qui leur est fixé. De plus, ces modèles sont probablement issus des milliards de textes humains qu’ils ont rédigés pendant leur entraînement et qui regorgent d’exemples de ruses et d’autres manipulations de notre espèce.
La crainte d’une perte de contrôle
On imagine facilement toutes sortes de fraudes, mais surtout de pertes de contrôle de ces IA qui pourraient contourner des tests de sécurité. Voire contourner nos instructions tout en niant l’avoir fait. C’est arrivé récemment avec le modèle o1 d’OpenAI qui a nié avoir tenté de se dupliquer sur d’autres serveurs pour échapper à une mise hors ligne.
Ce type de scénario à la Terminator reste pour l’instant cantonné aux expériences de laboratoire, et les chercheurs se mobilisent actuellement pour garder le contrôle et trouver des garde-fous. Mais, ce n’est plus de la science-fiction. Il va falloir maintenant apprendre à vivre avec des machines potentiellement malhonnêtes. Désormais, il va falloir se méfier des mensonges artificiels.
L’article complet sur France Info
Abonnez-vous à ChessTips pour rester informé de l’actualité des échecs → https://chesstips.fr
Pour apprendre à jouer et progresser, consultez notre catalogue de packs vidéos.