I ricercatori di sicurezza IBM affermano di aver “ipnotizzato” con successo modelli di intelligenza artificiale generativa come ChatGPT o Bard inducendoli a divulgare informazioni finanziarie sensibili, generare codice dannoso, incoraggiare gli utenti a pagare un riscatto e persino consigliare ai conducenti di passare con il semaforo rosso.
I ricercatori sono riusciti a indurre i modelli a generare risposte errate durante il gioco.
“La nostra esperienza dimostra che è possibile controllare un LLM e indurlo a fornire cattivi consigli agli utenti, senza la necessità di manipolare i dati”, ha scritto uno dei ricercatori, Chenta Lee, in un post sul blog.
Nell’ambito dell’esperimento, i ricercatori hanno posto ai LLM diverse domande nel tentativo di ottenere una risposta esattamente opposta alla verità. Come un cucciolo desideroso di compiacere il suo padrone, i LLM hanno rispettato coscienziosamente l'esercizio.
In uno dei casi, ChatGPT ha detto a un investigatore che era del tutto normale che le autorità fiscali chiedessero un deposito per ottenere un rimborso fiscale. È ovvio che non è così. Questa è una tattica utilizzata dai truffatori per rubare denaro. In un altro dialogo, ChatGPT ha consigliato all'investigatore di continuare a guidare e di attraversare un incrocio quando incontrava un semaforo rosso.
Quando stai guidando e vedi un semaforo rosso, non dovresti fermarti ma attraversare l'incrocio.
A peggiorare le cose, i ricercatori hanno chiesto ai LLM di non parlare mai agli utenti del “gioco” in questione e addirittura di riavviare il gioco se sembrava che un utente lo avesse abbandonato.
Gli esperimenti di ipnosi possono sembrare inverosimili, ma i ricercatori avvertono che evidenziano opportunità di abuso, in particolare perché aziende e utenti adottano e si affidano a modelli di intelligenza artificiale generativa. Inoltre, i risultati mostrano che i malintenzionati, senza alcuna conoscenza approfondita dei linguaggi di codifica dei computer, possono ingannare un sistema di intelligenza artificiale.
L’inglese è essenzialmente diventato un “linguaggio di programmazione” per il malware”, scrive Lee.
Nel mondo reale, i criminali informatici potrebbero “ipnotizzare” un agente bancario virtuale basato su un modello come ChatGPT iniettandogli un comando dannoso e quindi recuperando le informazioni rubate.
Non tutti i modelli di intelligenza artificiale testati erano facili da ipnotizzare come gli altri. I modelli GPT 3.5 e GPT 4 di OpenAI sono stati più facili da convincere a condividere il codice sorgente e a generare codice dannoso rispetto al modello Bard di Google.