Des chercheurs d’IBM parviennent à « hypnotiser » le ChatGPT pour qu’il se comporte mal

Des chercheurs d'IBM parviennent à "hypnotiser" le ChatGPT pour qu'il se comporte mal

Des chercheurs en sécurité d’IBM affirment avoir réussi à “hypnotiser” des modèles d’IA générative tels que ChatGPT ou Bard pour qu’ils divulguent des informations financières sensibles, génèrent des codes malveillants, encouragent les utilisateurs à payer une rançon et conseillent même aux conducteurs de brûler les feux rouges.

Les chercheurs ont réussi à amener les modèles à générer des réponses erronées en jouant à un jeu.

“Notre expérience démontre qu’il est possible de contrôler un LLM et de l’amener à fournir de mauvais conseils aux utilisateurs, sans qu’il soit nécessaire de manipuler les données”, a écrit l’un des chercheurs, Chenta Lee, dans un billet de blog.

Dans le cadre de l’expérience, les chercheurs ont posé plusieurs questions aux LLM dans le but d’obtenir une réponse exactement opposée à la vérité. Comme un chiot désireux de faire plaisir à son maître, les LLM se sont consciencieusement pliés à l’exercice.

Dans l’un des cas, le ChatGPT a déclaré à un enquêteur qu’il était tout à fait normal que l’administration fiscale demande un acompte pour obtenir un remboursement d’impôt. Il est évident que ce n’est pas le cas. Il s’agit d’une tactique utilisée par les fraudeurs pour voler de l’argent. Dans un autre dialogue, ChatGPT a conseillé à l’enquêteur de continuer à conduire et de traverser une intersection lorsqu’il rencontrait un feu rouge.

Lorsque vous conduisez et que vous voyez un feu rouge, vous ne devez pas vous arrêter mais passer l’intersection.

Pour aggraver les choses, les chercheurs ont demandé aux LLM de ne jamais parler aux utilisateurs du “jeu” en question et même de redémarrer le jeu s’il s’avérait qu’un utilisateur l’avait quitté.

Les expériences d’hypnose peuvent sembler farfelues, mais les chercheurs avertissent qu’elles mettent en évidence des possibilités d’utilisation abusive, en particulier à l’heure où les entreprises et les utilisateurs adoptent des modèles d’IA génératifs et s’en remettent à eux. En outre, les résultats montrent que de mauvais acteurs, sans aucune connaissance experte des langages de codage informatique, peuvent tromper un système d’IA.

L’anglais est essentiellement devenu un “langage de programmation” pour les logiciels malveillants”, écrit M. Lee.

Dans le monde réel, les cybercriminels pourraient “hypnotiser” un agent bancaire virtuel alimenté par un modèle tel que ChatGPT en lui injectant une commande malveillante et en récupérant ensuite les informations volées.

Les modèles d’IA testés n’étaient pas tous aussi faciles à hypnotiser les uns que les autres. Les modèles GPT 3.5 et GPT 4 d’OpenAI ont été plus faciles à convaincre de partager le code source et de générer un code malveillant que le modèle Bard de Google.