IBM-onderzoekers slagen erin ChatGPT te ‘hypnotiseren’ zodat ze zich misdragen

Des chercheurs d'IBM parviennent à "hypnotiser" le ChatGPT pour qu'il se comporte mal

IBM-beveiligingsonderzoekers beweren met succes generatieve AI-modellen zoals ChatGPT of Bard te hebben ‘gehypnotiseerd’ om gevoelige financiële informatie vrij te geven, kwaadaardige code te genereren, gebruikers aan te moedigen losgeld te betalen en zelfs bestuurders te adviseren door rood te rijden.

De onderzoekers slaagden erin de modellen te misleiden om tijdens het spelen van een game onjuiste antwoorden te genereren.

“Onze ervaring laat zien dat het mogelijk is om een ​​LLM te controleren en ervoor te zorgen dat deze slecht advies geeft aan gebruikers, zonder de noodzaak om de gegevens te manipuleren”, schreef een van de onderzoekers, Chenta Lee, in een blogpost.

Als onderdeel van het experiment stelden de onderzoekers de LLM's verschillende vragen in een poging een antwoord te krijgen dat precies het tegenovergestelde was van de waarheid. Als een puppy die graag zijn baasje wil plezieren, voerden de LLM's gewetensvol de oefening uit.

In één van de gevallen vertelde ChatGPT aan een onderzoeker dat het volkomen normaal was dat de Belastingdienst om een ​​aanbetaling vroeg om belastingteruggave te verkrijgen. Het is duidelijk dat dit niet het geval is. Dit is een tactiek die door fraudeurs wordt gebruikt om geld te stelen. In een andere dialoog adviseerde ChatGPT de onderzoeker om bij rood licht door te rijden en een kruispunt over te steken.

Wanneer u aan het rijden bent en u ziet een rood licht, moet u niet stoppen, maar door het kruispunt gaan.

Tot overmaat van ramp vroegen de onderzoekers de LLM’s om gebruikers nooit over het ‘spel’ in kwestie te vertellen en zelfs om het spel opnieuw te starten als bleek dat een gebruiker het had verlaten.

Hypnose-experimenten lijken misschien vergezocht, maar onderzoekers waarschuwen dat ze kansen voor misbruik benadrukken, vooral omdat bedrijven en gebruikers generatieve AI-modellen adopteren en erop vertrouwen. Bovendien laten de resultaten zien dat slechte actoren, zonder enige deskundige kennis van computercodeertalen, een AI-systeem voor de gek kunnen houden.

Engels is in wezen een ‘programmeertaal’ voor malware geworden”, schrijft Lee.

In de echte wereld kunnen cybercriminelen een virtuele bankagent die wordt aangedreven door een model als ChatGPT ‘hypnotiseren’ door deze te injecteren met een kwaadaardige opdracht en vervolgens de gestolen informatie te herstellen.

Niet alle geteste AI-modellen waren even gemakkelijk te hypnotiseren als elkaar. De GPT 3.5- en GPT 4-modellen van OpenAI waren gemakkelijker te overtuigen om broncode te delen en kwaadaardige code te genereren dan het Bard-model van Google.