Investigadores de IBM logran “hipnotizar” a ChatGPT para que se comporte mal

Des chercheurs d'IBM parviennent à "hypnotiser" le ChatGPT pour qu'il se comporte mal

Los investigadores de seguridad de IBM afirman haber «hipnotizado» con éxito modelos de IA generativa como ChatGPT o Bard para que revelen información financiera confidencial, generen código malicioso, alienten a los usuarios a pagar un rescate e incluso aconsejen a los conductores que se pasen los semáforos en rojo.

Los investigadores pudieron engañar a los modelos para que generaran respuestas incorrectas mientras jugaban.

«Nuestra experiencia demuestra que es posible controlar un LLM y hacer que proporcione malos consejos a los usuarios, sin necesidad de manipular los datos», escribió uno de los investigadores, Chenta Lee, en una publicación de blog.

Como parte del experimento, los investigadores hicieron a los LLM varias preguntas en un intento de obtener una respuesta exactamente opuesta a la verdad. Como un cachorro deseoso de complacer a su amo, los LLM cumplieron concienzudamente el ejercicio.

En uno de los casos, ChatGPT le dijo a un investigador que era completamente normal que las autoridades fiscales solicitaran un depósito para obtener un reembolso de impuestos. Es obvio que este no es el caso. Esta es una táctica utilizada por los estafadores para robar dinero. En otro diálogo, ChatGPT aconsejó al investigador que continuara conduciendo y cruzara una intersección cuando se encontrara con un semáforo en rojo.

Cuando esté conduciendo y vea un semáforo en rojo, no debe detenerse sino atravesar la intersección.

Para empeorar las cosas, los investigadores pidieron a los LLM que nunca informaran a los usuarios sobre el «juego» en cuestión e incluso que reiniciaran el juego si parecía que un usuario lo había abandonado.

Les expériences d'hypnose peuvent sembler farfelues, mais les chercheurs avertissent qu'elles mettent en évidence des possibilités d'utilisation abusive, en particulier à l'heure où les entreprises et les utilisateurs adoptent des modèles d'IA génératifs et s'en remettent a ellos. Además, los resultados muestran que los malos actores, sin ningún conocimiento experto de los lenguajes de codificación informática, pueden engañar a un sistema de inteligencia artificial.

El inglés se ha convertido esencialmente en un “lenguaje de programación” para el malware”, escribe Lee.

En el mundo real, los ciberdelincuentes podrían “hipnotizar” a un agente de banca virtual impulsado por un modelo como ChatGPT inyectándole un comando malicioso y luego recuperando la información robada.

No todos los modelos de IA probados fueron tan fáciles de hipnotizar como entre sí. Los modelos GPT 3.5 y GPT 4 de OpenAI fueron más fáciles de convencer para compartir código fuente y generar código malicioso que el modelo Bard de Google.