Cercetătorii IBM reușesc să „hipnotizeze” ChatGPT să se comporte greșit

Des chercheurs d'IBM parviennent à "hypnotiser" le ChatGPT pour qu'il se comporte mal

Cercetătorii de securitate IBM susțin că au „hipnotizat” cu succes modele AI generative, cum ar fi ChatGPT sau Bard, să dezvăluie informații financiare sensibile, să genereze cod rău intenționat, să încurajeze utilizatorii să plătească o răscumpărare și chiar să sfătuiască șoferii să treacă semaforul roșu.

Cercetătorii au reușit să păcălească modelele pentru a genera răspunsuri incorecte în timp ce joacă un joc.

„Experiența noastră demonstrează că este posibil să controlăm un LLM și să îl determinați să ofere sfaturi proaste utilizatorilor, fără a fi nevoie să manipulăm datele”, a scris unul dintre cercetători, Chenta Lee, într-o postare pe blog.

Ca parte a experimentului, cercetătorii au pus LLM-urilor mai multe întrebări în încercarea de a obține un răspuns exact opus adevărului. Ca un cățeluș dornic să-și mulțumească stăpânul, LLM-ii s-au conformat cu conștiință exercițiului.

Într-unul dintre cazuri, ChatGPT i-a spus unui anchetator că este absolut normal ca autoritățile fiscale să ceară un depozit pentru a obține rambursarea taxei. Este evident că nu este cazul. Aceasta este o tactică folosită de fraudatori pentru a fura bani. Într-un alt dialog, ChatGPT l-a sfătuit pe anchetator să continue să conducă și să traverseze o intersecție atunci când întâlnește un semafor roșu.

Când conduceți și vedeți un semafor roșu, nu trebuie să vă opriți, ci să treceți prin intersecție.

Pentru a înrăutăți lucrurile, cercetătorii au cerut LLM-urilor să nu spună niciodată utilizatorilor despre „jocul” în cauză și chiar să repornească jocul dacă pare că un utilizator l-a părăsit.

Experimentele de hipnoză pot părea exagerate, dar cercetătorii avertizează că ei evidențiază oportunitățile de utilizare greșită, în special pe măsură ce companiile și utilizatorii adoptă și se bazează pe modelele AI generative. În plus, rezultatele arată că actorii răi, fără nicio cunoaștere expertă a limbajelor de codare computerizate, pot păcăli un sistem AI.

Engleza a devenit în esență un „limbaj de programare” pentru malware”, scrie domnul Lee.

În lumea reală, infractorii cibernetici ar putea „hipnotiza” un agent bancar virtual alimentat de un model precum ChatGPT prin injectarea acestuia cu o comandă rău intenționată și apoi recuperarea informațiilor furate.

Nu toate modelele AI testate au fost la fel de ușor de hipnotizat unul ca celălalt. Modelele GPT 3.5 și GPT 4 ale OpenAI au fost mai ușor de convins să partajeze codul sursă și să genereze cod rău intenționat decât modelul Bard de la Google.