Wie Angreifer KI-Modelle durch Prompt-Injection gezielt täuschen

Cloudflares Threat-Intelligence-Team Cloudforce One hat einen neuen Forschungsbericht veröffentlicht, der zeigt, wie Angreifer gezielt die Urteilsfähigkeit von KI-Modellen manipulieren – mit teils alarmierenden Erfolgsquoten.

Zum Hintergrund: Für die Studie wurden sieben führende KI-Modelle (Frontier- und Non-Frontier-Modelle) systematisch getestet. Das Ergebnis: Angreifer nutzen sogenannte “Lures” – Textbausteine, mit denen KI-Modelle gezielt manipuliert oder verwirrt werden können -, um Sicherheitsprüfungen auszuhebeln und unzulässigen Code als unbedenklich einstufen zu lassen. Während Unternehmen zunehmend auf autonome Systeme und Large-Language-Models setzen, verschiebt sich die Angriffsfläche: Nicht mehr nur das Netzwerk ist das Ziel, sondern die Logik des Modells selbst.

 

Die wichtigsten Erkenntnisse des Berichts im Überblick:

  • 1-Prozent-Grenze: Subtile Täuschung ist am wirksamsten. Wenn Lures weniger als ein Prozent einer Datei ausmachen, sinkt die Erkennungsrate der KI auf nur noch 53 Prozent. Die Lures lenken das Modell gerade genug, ohne Verdacht zu erregen.

  • Erkennung bei zu hoher Kommentar-Rate: Moderate Manipulationsversuche sind am effektivsten. Wird jedoch übertrieben – etwa mit über 1.000 eingefügten Kommentaren – schlägt ein Wiederholungsalarm an, und die KI stuft den Code als verdächtig ein.

  • Überforderung durch Masse: Die größte Bedrohung ist nicht sprachlicher, sondern struktureller Natur. Indem Angreifer schadhafte Payloads in große Pakete (etwa React-SDKs) einbetten, sank die Erkennungsrate auf nur 12 Prozent – die KI verliert schlicht den Fokus.

  • Sprachliches Profiling: Die Studie zeigt, dass KI-Modelle Stereotype entwickelt haben. Einige Modelle bewerteten etwa russische oder chinesische Kommentare unabhängig vom tatsächlichen Code als Hochrisiko-Signal – während sie Sprachen wie Estnisch als vertrauenswürdiger einstuften.

 

Info: Der vollständigen Forschungsbericht findet sich  hier:  https://www.cloudflare.com/en-gb/cloudforce-one/research/adversarial-deception-a-study-of-indirect-prompt-code-injection/

#Cloudflare