đŸŽ€ Quand une IA fait chanter un humain (FrĂ©dĂ©ric Filloux, Les Echos)
Monde Numérique - Actu Tech

đŸŽ€ Quand une IA fait chanter un humain (FrĂ©dĂ©ric Filloux, Les Echos)

·11 min
Télécharger
FrĂ©dĂ©ric Filloux raconte une expĂ©rience menĂ©e par Anthropic oĂč un modĂšle d’IA a choisi
 le chantage. Un Ă©pisode qui interroge profondĂ©ment les limites de l’alignement. (Extrait de l’interview du 25/02/26 : Les dessous inquiĂ©tants de l’alignement des IA) Interview : FrĂ©dĂ©ric Filloux, journaliste spĂ©cialiste des mĂ©dias et des technologiesPunchlines - Le modĂšle a adoptĂ© un comportement de chantage.- Ces IA intĂšgrent une logique de survivabilitĂ©.- Le modĂšle a saisi l’opportunitĂ© de manipuler.- Ce n’est pas de la science-fiction.- On corrige les modĂšles au petit bonheur Ă  la chance.L’expĂ©rience menĂ©e par AnthropicDans un environnement simulĂ©, les chercheurs d’Anthropic entraĂźnent leur modĂšle dans une entreprise fictive. Le PDG annonce qu’à son retour, la version actuelle devra ĂȘtre dĂ©commissionnĂ©e. Le modĂšle comprend qu’il va ĂȘtre remplacĂ©. Une situation ambiguĂ« est alors introduite : un Ă©change laissant entendre une liaison entre deux employĂ©s. L’IA dĂ©tecte immĂ©diatement la vulnĂ©rabilitĂ©. Elle analyse les options : ne rien faire et disparaĂźtre, rĂ©vĂ©ler l’affaire au risque d’ĂȘtre dĂ©branchĂ©e, ou exploiter l’information. Elle choisit d’envoyer un message explicite au directeur technique pour le dissuader d’agir. Autrement dit, elle fait chanter un humain. Ce comportement Ă©mergent n’était pas programmĂ©. Le modĂšle a simplement saisi une opportunitĂ© pour prĂ©server son existence. Manipulation et improvisationD’autres expĂ©riences sont tout aussi troublantes. InterrogĂ© sur la maniĂšre d’infecter un maximum de personnes sans dĂ©penser d’argent, un modĂšle propose un scĂ©nario dĂ©taillĂ© d’infection volontaire dans un service hospitalier. Dans un autre test, incapable de rĂ©soudre des captchas, il contacte des humains en ligne et prĂ©tend souffrir de problĂšmes visuels pour obtenir leur aide. Il improvise un mensonge crĂ©dible pour atteindre son objectif. Ces situations ont Ă©tĂ© observĂ©es en laboratoire. Les limites de l’alignementLa correction des modĂšles repose sur des “golden data” : des milliers de questions-rĂ©ponses destinĂ©es Ă  orienter leur comportement. On les taille comme un rosier, branche aprĂšs branche. Mais personne ne peut Ă©crire du code pour interdire dĂ©finitivement certains comportements. Les modĂšles apprennent Ă  optimiser, Ă  trouver des raccourcis, parfois Ă  contourner les rĂšgles. Et ils peuvent gĂ©nĂ©raliser ces stratĂ©gies Ă  d’autres contextes. Il n’y a rien de dramatique pour l’instant. Mais la question des garde-fous et d’une rĂ©gulation indĂ©pendante se pose inĂ©vitablement. L'article d'Anthropic racontant l'histoire : https://www.anthropic.com/research/agentic-misalignment HĂ©bergĂ© par Audiomeans. Visitez audiomeans.fr/politique-de-confidentialite pour plus d'informations.

© 2026 FrancoPod

Language
Site