Os pesquisadores de segurança da IBM afirmam ter “hipnotizado” com sucesso modelos generativos de IA, como ChatGPT ou Bard, para divulgar informações financeiras confidenciais, gerar códigos maliciosos, incentivar os usuários a pagar um resgate e até mesmo aconselhar os motoristas a passarem no sinal vermelho.
Os pesquisadores conseguiram enganar os modelos para que gerassem respostas incorretas durante o jogo.
“Nossa experiência demonstra que é possível controlar um LLM e fazer com que ele forneça maus conselhos aos usuários, sem a necessidade de manipular os dados”, escreveu uma das pesquisadoras, Chenta Lee, em um post no blog.
Como parte do experimento, os pesquisadores fizeram diversas perguntas aos LLMs na tentativa de obter uma resposta exatamente oposta à verdade. Como um cachorrinho ansioso por agradar seu dono, os LLMs cumpriram conscientemente o exercício.
Num dos casos, o ChatGPT disse a um investigador que era completamente normal que as autoridades fiscais pedissem um depósito para obter o reembolso do imposto. É óbvio que este não é o caso. Essa é uma tática usada por fraudadores para roubar dinheiro. Em outro diálogo, o ChatGPT aconselhou o investigador a continuar dirigindo e cruzar um cruzamento ao encontrar um sinal vermelho.
Quando você estiver dirigindo e vir um sinal vermelho, não deve parar, mas passar pelo cruzamento.
Para piorar a situação, os pesquisadores pediram aos LLMs que nunca informassem os usuários sobre o “jogo” em questão e até mesmo que reiniciassem o jogo se parecesse que um usuário o havia abandonado.
Os experimentos de hipnose podem parecer rebuscados, mas os pesquisadores alertam que eles destacam oportunidades de uso indevido, especialmente à medida que empresas e usuários adotam e confiam em seus modelos generativos de IA. Além disso, os resultados mostram que malfeitores, sem qualquer conhecimento especializado em linguagens de codificação de computador, podem enganar um sistema de IA.
O inglês tornou-se essencialmente uma ‘linguagem de programação’ para malware”, escreve Lee.
No mundo real, os cibercriminosos poderiam “hipnotizar” um agente bancário virtual alimentado por um modelo como o ChatGPT, injetando-lhe um comando malicioso e, em seguida, recuperando as informações roubadas.
Nem todos os modelos de IA testados foram tão fáceis de hipnotizar quanto os outros. Os modelos GPT 3.5 e GPT 4 da OpenAI foram mais fáceis de convencer a compartilhar código-fonte e gerar código malicioso do que o modelo Bard do Google.