Wie Angreifer KI-Modelle durch Prompt-Injection gezielt täuschen

Cloudflares Threat-Intelligence-Team Cloudforce One hat einen neuen Forschungsbericht veröffentlicht, der zeigt, wie Angreifer gezielt die Urteilsfähigkeit von KI-Modellen manipulieren – mit teils alarmierenden Erfolgsquoten.

Zum Hintergrund: Für die Studie wurden sieben führende KI-Modelle (Frontier- und Non-Frontier-Modelle) systematisch getestet. Das Ergebnis: Angreifer nutzen sogenannte “Lures” – Textbausteine, mit denen KI-Modelle gezielt manipuliert oder verwirrt werden können -, um Sicherheitsprüfungen auszuhebeln und unzulässigen Code als unbedenklich einstufen zu lassen. Während Unternehmen zunehmend auf autonome Systeme und Large-Language-Models setzen, verschiebt sich die Angriffsfläche: Nicht mehr nur das Netzwerk ist das Ziel, sondern die Logik des Modells selbst.

Die wichtigsten Erkenntnisse des Berichts im Überblick:

1-Prozent-Grenze: Subtile Täuschung ist am wirksamsten. Wenn Lures weniger als ein Prozent einer Datei ausmachen, sinkt die Erkennungsrate der KI auf nur noch 53 Prozent. Die Lures lenken das Modell gerade genug, ohne Verdacht zu erregen.
Erkennung bei zu hoher Kommentar-Rate: Moderate Manipulationsversuche sind am effektivsten. Wird jedoch übertrieben – etwa mit über 1.000 eingefügten Kommentaren – schlägt ein Wiederholungsalarm an, und die KI stuft den Code als verdächtig ein.
Überforderung durch Masse: Die größte Bedrohung ist nicht sprachlicher, sondern struktureller Natur. Indem Angreifer schadhafte Payloads in große Pakete (etwa React-SDKs) einbetten, sank die Erkennungsrate auf nur 12 Prozent – die KI verliert schlicht den Fokus.
Sprachliches Profiling: Die Studie zeigt, dass KI-Modelle Stereotype entwickelt haben. Einige Modelle bewerteten etwa russische oder chinesische Kommentare unabhängig vom tatsächlichen Code als Hochrisiko-Signal – während sie Sprachen wie Estnisch als vertrauenswürdiger einstuften.

Info: Der vollständigen Forschungsbericht findet sich hier: https://www.cloudflare.com/en-gb/cloudforce-one/research/adversarial-deception-a-study-of-indirect-prompt-code-injection/

#Cloudflare

Wie Angreifer KI-Modelle durch Prompt-Injection gezielt täuschen

Die wichtigsten Erkenntnisse des Berichts im Überblick:

Über 1000 Infografiken

Backgrounder zu Cybercrime

Wissenswertes zu Blockchain

Die interessantesten und größten Videowalls

Wissenswertes zu Social-Media

Just for fun

Partner von Netzpalaver

Netzpalaver-Podcasts

Paessler-Podcast

Wie Angreifer KI-Modelle durch Prompt-Injection gezielt täuschen

Die wichtigsten Erkenntnisse des Berichts im Überblick:

Weitere interessante Beiträge

Schluss mit Patches im menschlichen Tempo – Peer-to-Peer-Verteilung schließt die Sicherheitslücke, bevor Angreifer zuschlagen

Angriffsziel Rechenzentrum – Schwachstellen in Equipment bergen hohes Risiko

Kasper Lindgaard ist neuer Vice President of Security Strategy bei Coreview

Die erste Fußball-WM im Zeitalter der KI-Agenten – eine Bewertung der Sicherheitslage

Manipulierte Red-Hat-npm-Pakete verbreiten neue Malware

Sicherheit ist bei der digitalen Brieftasche kein Feature – sie ist das Produkt

Über 1000 Infografiken

Backgrounder zu Cybercrime

Wissenswertes zu Blockchain

Die interessantesten und größten Videowalls

Wissenswertes zu Social-Media

Just for fun

Partner von Netzpalaver

Netzpalaver-Podcasts

Paessler-Podcast

Tag Cloud

Das IT- und Social-Media-Portal