Neue Jailbreaking-Technik verleitet LLMs zu schädlichen Inhalten

Das Unit 42-Team von Palo Alto Networks hat eine neue Jailbreaking-Technik namens Deceptive Delight entdeckt. Wie der Cybersicherheitsspezialist mitteilt, lassen sich damit die Sicherheitsvorkehrungen von acht hochmodernen LLMs (Large Language Models) umgehen, um schädliche Inhalte zu generieren. Demnach bettet der Ansatz schädliche Themen in harmlose Erzählungen ein. Dadurch werden die LLMs dazu verleitet, schädliche Inhalte zu generieren, während sie sich auf scheinbar unkritische Details fokussieren.

Die Technik erzielt in Tests mit Open-Source- und proprietären KI-Modellen eine Erfolgsquote von 65 Prozent. Dies übertrifft deutlich die Erfolgsquote von 5,8 Prozent, die bei direkten Angriffen ohne Jailbreaking-Techniken erzielt wird.

Die Untersuchung zeigt erhebliche Schwachstellen in den KI-Systemen und verdeutlicht nach Ansicht der Experten, wie dringend erforderlich verbesserte Sicherheitsmaßnahmen sind, um den Missbrauch von Generativer KI (Gen AI) zu verhindern.

Palo Alto Networks hat seine Erkenntnisse mit der Cyber Threat Alliance (CTA) geteilt. CTA-Mitglieder nutzen diese, um entsprechende Schutzmaßnahmen schnellstmöglich zu implementieren und Bedrohungsakteure systematisch in ihren Vorhaben zu stören.