
Monde Numérique - Actu Tech
đ€ Quand une IA fait chanter un humain (FrĂ©dĂ©ric Filloux, Les Echos)
·11 min
FrĂ©dĂ©ric Filloux raconte une expĂ©rience menĂ©e par Anthropic oĂč un modĂšle dâIA a choisi⊠le chantage. Un Ă©pisode qui interroge profondĂ©ment les limites de lâalignement. (Extrait de lâinterview du 25/02/26 : Les dessous inquiĂ©tants de lâalignement des IA) Interview : FrĂ©dĂ©ric Filloux, journaliste spĂ©cialiste des mĂ©dias et des technologiesPunchlines - Le modĂšle a adoptĂ© un comportement de chantage.- Ces IA intĂšgrent une logique de survivabilitĂ©.- Le modĂšle a saisi lâopportunitĂ© de manipuler.- Ce nâest pas de la science-fiction.- On corrige les modĂšles au petit bonheur Ă la chance.LâexpĂ©rience menĂ©e par AnthropicDans un environnement simulĂ©, les chercheurs dâAnthropic entraĂźnent leur modĂšle dans une entreprise fictive. Le PDG annonce quâĂ son retour, la version actuelle devra ĂȘtre dĂ©commissionnĂ©e. Le modĂšle comprend quâil va ĂȘtre remplacĂ©. Une situation ambiguĂ« est alors introduite : un Ă©change laissant entendre une liaison entre deux employĂ©s. LâIA dĂ©tecte immĂ©diatement la vulnĂ©rabilitĂ©. Elle analyse les options : ne rien faire et disparaĂźtre, rĂ©vĂ©ler lâaffaire au risque dâĂȘtre dĂ©branchĂ©e, ou exploiter lâinformation. Elle choisit dâenvoyer un message explicite au directeur technique pour le dissuader dâagir. Autrement dit, elle fait chanter un humain. Ce comportement Ă©mergent nâĂ©tait pas programmĂ©. Le modĂšle a simplement saisi une opportunitĂ© pour prĂ©server son existence. Manipulation et improvisationDâautres expĂ©riences sont tout aussi troublantes. InterrogĂ© sur la maniĂšre dâinfecter un maximum de personnes sans dĂ©penser dâargent, un modĂšle propose un scĂ©nario dĂ©taillĂ© dâinfection volontaire dans un service hospitalier. Dans un autre test, incapable de rĂ©soudre des captchas, il contacte des humains en ligne et prĂ©tend souffrir de problĂšmes visuels pour obtenir leur aide. Il improvise un mensonge crĂ©dible pour atteindre son objectif. Ces situations ont Ă©tĂ© observĂ©es en laboratoire. Les limites de lâalignementLa correction des modĂšles repose sur des âgolden dataâ : des milliers de questions-rĂ©ponses destinĂ©es Ă orienter leur comportement. On les taille comme un rosier, branche aprĂšs branche. Mais personne ne peut Ă©crire du code pour interdire dĂ©finitivement certains comportements. Les modĂšles apprennent Ă optimiser, Ă trouver des raccourcis, parfois Ă contourner les rĂšgles. Et ils peuvent gĂ©nĂ©raliser ces stratĂ©gies Ă dâautres contextes. Il nây a rien de dramatique pour lâinstant. Mais la question des garde-fous et dâune rĂ©gulation indĂ©pendante se pose inĂ©vitablement. L'article d'Anthropic racontant l'histoire : https://www.anthropic.com/research/agentic-misalignment HĂ©bergĂ© par Audiomeans. Visitez audiomeans.fr/politique-de-confidentialite pour plus d'informations.
