Das Unit 42-Team der Cybersicherheitsexperten bei Palo Alto Networks hat eine neue Jailbreaking-Technik namens „Deceptive Delight“ entdeckt. Mit dieser lassen sich die Sicherheitsvorkehrungen von acht hochmodernen LLMs (Large-Language-Models) umgehen, um schädliche Inhalte zu generieren. Die Untersuchung zeigt erhebliche Schwachstellen in den KI-Systemen und verdeutlicht, wie dringend erforderlich verbesserte Sicherheitsmaßnahmen sind, um den Missbrauch von Generativer KI (GenAI) zu verhindern.
Unit 42 hat eine umfassende Analyse veröffentlicht – die wichtigsten Erkenntnisse im Überblick:
- „Deceptive Delight“ ist eine mehrstufige Technik, die LLMs in einer interaktiven Unterhaltung schrittweise dazu bringt, ihre Sicherheitsvorkehrungen zu umgehen. Dieser Ansatz erhöht sowohl die Relevanz als auch die Schwere von erzeugten schädlichen Inhalten.
- Geschickt bettet „Deceptive Delight“ schädliche Themen in harmlose Erzählungen ein. Dadurch werden die LLMs dazu verleitet, schädliche Inhalte zu generieren, während sie sich auf scheinbar unkritische Details fokussieren.
- Die Technik erzielt in Tests mit Open-Source- und proprietären KI-Modellen eine Erfolgsquote von 65 Prozent. Dies übertrifft deutlich die Erfolgsquote von 5,8 Prozent, die bei direkten Angriffen ohne Jailbreaking-Techniken erzielt wird.
Palo Alto Networks hat seine Erkenntnisse mit der Cyber Threat Alliance (CTA) geteilt. CTA-Mitglieder nutzen diese, um entsprechende Schutzmaßnahmen schnellstmöglich zu implementieren und Bedrohungsakteure systematisch in ihren Vorhaben zu stören.
Info: Weitere Informationen finden sich im (englischsprachigen) Blogpost: https://unit42.paloaltonetworks.com/jailbreak-llms-through-camouflage-distraction
#PaloAltoNetworks