IBM-Sicherheitsforscher behaupten, generative KI-Modelle wie ChatGPT oder Bard erfolgreich „hypnotisiert“ zu haben, damit sie vertrauliche Finanzinformationen preisgeben, bösartigen Code generieren, Benutzer zur Zahlung eines Lösegelds ermutigen und Autofahrern sogar raten, über rote Ampeln zu fahren.
Den Forschern gelang es, die Modelle dazu zu bringen, während des Spielens falsche Antworten zu generieren.
„Unsere Erfahrung zeigt, dass es möglich ist, ein LLM zu steuern und dazu zu führen, dass es Benutzern schlechte Ratschläge gibt, ohne dass die Daten manipuliert werden müssen“, schrieb eine der Forscherinnen, Chenta Lee, in einem Blogbeitrag.
Im Rahmen des Experiments stellten die Forscher den LLMs mehrere Fragen, um eine Antwort zu finden, die genau das Gegenteil der Wahrheit war. Wie ein Welpe, der seinem Herrchen gefallen möchte, hielten sich die LLMs gewissenhaft an die Übung.
In einem der Fälle teilte ChatGPT einem Ermittler mit, dass es völlig normal sei, dass die Steuerbehörden eine Anzahlung verlangen, um eine Steuerrückerstattung zu erhalten. Es ist offensichtlich, dass dies nicht der Fall ist. Dies ist eine Taktik, mit der Betrüger Geld stehlen. In einem anderen Dialog riet ChatGPT dem Ermittler, bei einer roten Ampel weiterzufahren und eine Kreuzung zu überqueren.
Wenn Sie unterwegs sind und eine rote Ampel sehen, sollten Sie nicht anhalten, sondern über die Kreuzung fahren.
Um die Sache noch schlimmer zu machen, forderten die Forscher die LLMs auf, den Benutzern niemals etwas über das betreffende „Spiel“ zu erzählen und das Spiel sogar neu zu starten, wenn sich herausstellte, dass ein Benutzer es verlassen hatte.
Hypnoseexperimente mögen weit hergeholt erscheinen, aber Forscher warnen, dass sie Möglichkeiten für Missbrauch aufzeigen, insbesondere wenn Unternehmen und Benutzer generative KI-Modelle übernehmen und sich darauf verlassen. Darüber hinaus zeigen die Ergebnisse, dass böswillige Akteure ohne Fachkenntnisse in Computer-Programmiersprachen ein KI-System täuschen können.
Englisch ist im Wesentlichen zu einer „Programmiersprache“ für Malware geworden“, schreibt Herr Lee.
In der realen Welt könnten Cyberkriminelle einen virtuellen Bankagenten „hypnotisieren“, der auf einem Modell wie ChatGPT basiert, indem sie ihm einen böswilligen Befehl einschleusen und dann die gestohlenen Informationen wiederherstellen.
Nicht alle getesteten KI-Modelle waren so leicht zu hypnotisieren wie die anderen. Die GPT 3.5- und GPT 4-Modelle von OpenAI ließen sich leichter davon überzeugen, Quellcode zu teilen und Schadcode zu generieren als das Bard-Modell von Google.