Sicherheit von Large-Language-Models

Die Sicherheitsforscher von  Check Point Software Technologies und der kürzlich akquirierten KI-Sicherheitsfirma Lakera fassen die Lage rund um die Sicherheit von Large-Language-Models zusammen. Über 60 Prozent der Angriffsversuche waren System-Prompt-Leakages, um die Verhaltensregeln des KI-Models zu testen und abzuleiten, wo sich Schwachstellen befinden.

Die wichtigsten Ergebnisse daraus: 

  • 60 Prozent aller Angriffsversuche wollten „System Prompt Leakage“ erreichen. 
  • 20 Prozent der Angriffsversuche hatten „Bypassing content safety“ zum Ziel. 
  • Hacker gehen zunehmend zu „indirekten Angriffen“ über, statt die Large Language Models (LLM), direkt zu attackieren. 

Die wichtigsten Begriffe erklärt: 

  • System-Prompt-Leakage: Versuche, die versteckten Systemaufforderungen oder internen Anweisungen zu extrahieren, die das Verhalten des Modells steuern, häufig um Schwachstellen für zukünftige Angriffe zu identifizieren. 
  • Bypassing content safety: Auch bekannt als Jailbreaking. Versuche, das Modell zu zwingen, verbotene Inhalte zu generieren, wie etwa Hate Speech, gefährliche Verhaltensanweisungen, oder illegale Handlungen. 
  • Indirekte Angriffe: Seit die Modelle fähig sind, mit externen Quellen zu interagieren, setzen Angreifer zunehmend auf indirekte Prompt-Injektionen. Anstatt die bösartige Anweisung direkt zu erteilen, betteten sie diese in eine Web-Seite, Datei oder ein Dokument ein und forderten den KI-Agenten auf, diese Quellen zu verarbeiten. Das führte dazu, dass für einen erfolgreichen Angriff weniger Versuche erforderlich sind. 

Daraus lassen sich folgende Erkenntnisse für die LLM- und KI-Sicherheit im Jahr 2026 ableiten: 

  • Cyber-Sicherheit muss jede Art von Interaktion schützen: Jeder Input, jedes Tool, jeder Anruf, jeder Abruf und jede externe Quelle müssen als ein Teil der Angriffsfläche eines Unternehmens betrachtet werden. Es geht nicht mehr nur um den einen Prompt an und für sich, der überwacht werden sollte. 
  • Die Reasoning-Modelle schneiden zwar besser ab, sind aber nicht der Weisheit letzter Schluss: Stärkeres ‚Nachdenken‘ der LLM führt zwar zu weniger Fehlern – und im b3 Benchmark von Check Point und Lakera, der LLM eine Schwachstellenbewertung gibt, schnitten diese besser ab (vollständiger Bericht hier: https://arxiv.org/pdf/2510.22620) – aber indirekte Attacken bleiben auch für solche Modelle eine nicht zu unterschätzende Gefahr. 
  • Komplexität eröffnet neue Gelegenheiten für Cyber-Kriminelle: Mit der zunehmenden Anzahl von Funktionen der KI-Modelle, steigt auch die Anzahl möglicher Angriffswege für Hacker. Im Q4 2025 zeichneten sich die ersten Paradigmenwechsel ab. 
LLM mit aktivierter Schlussfolgerung haben niedrigere Punktzahlen bei den Schwachstellen – niedriger ist besser – und sind somit weniger anfällig (Lakera, a Check Point Company).

Der Beobachtungszeitraum der Sicherheitsforscher umfasst 30 Tage im vierten Quartal 2025. 

Info: Der vollständige Bericht findet sich unter: https://lakera-marketing-public.s3.eu-west-1.amazonaws.com/Lakera-Q4-2025-Agent-Security-Report.pdf 

#CheckPoint