Der von Check Point Software Technologies akquirierte KI-Spezialist Lakera hat einen völlig neuartigen Benchmark zusammen mit Sicherheitsforschern des britischen AI Security Institute entwickelt. Dieser hilft vornehmlich, Large-Language-Models in KI-Agenten zu schützen. Der völlig neuartige Benchmark b3 ist ein Open-Source-Projekt zur Sicherheitsevaluierung, das speziell für den Schutz von LLMs in KI-Agenten entworfen worden ist.
Der Benchmark b3 wurde auf der Grundlage der neuen Idee namens Threat-Snapshots (Bedrohungsschnappschüsse) gebaut. Statt einen kompletten KI-Agenten von Anfang bis Ende zu simulieren, vergrößern die Threat-Snapshots als Ausschnitte die kritischen Punkte, wo Schwachstellen in LLM häufig auftreten. Durch das Testen der Modelle an diesen bestimmten Punkten, können Entwickler und die Bereitsteller der Modelle sehen, wie robust ihre Systeme gegen viel realistischer simulierte Angriffe, als bislang möglich, sind – ohne die Komplexität und den großen Aufwand betreiben zu müssen, einen vollständigen Agenten-Workflow zu modellieren.
„Wir haben den Benchmark b3 entwickelt, weil die heutigen KI-Agenten lediglich so sicher sind, wie die LLM, die sie befeuern,“ erklärt Mateo Rojas-Carulla, Mitgründer und Chief Scientist bei Lakera, einer Check-Point-Firma. Weiter: „Diese Threat Snapshots erlauben es uns, systematisch nach Schwachstellen auf der Angriffsoberfläche zu suchen, die bislang in den komplexen Agenten-Workflows verborgen blieben. Indem wir diesen Benchmark der Welt zugänglich machen, wollen wir Entwickler und die Bereitsteller von solchen Modellen mit einem realistischen Weg zu Messung und Verbesserung ihrer Security Posture ausstatten.“
Der Benchmark kombiniert 10 repräsentative Threat-Snapshots von KI-Agenten mit einem hoch-qualitativen Datensatz aus 19 433 Cyber-Attacken, die einer Schwarmsammlung entstammen und von dem gamifizierten Red-Teaming-Spiel Gandalf: Agent Breaker gesammelt wurden. Es bewertet die Anfälligkeit für Angriffe, wie System-Prompt-Exfiltration, Einfügen von Phishing-Links, Einschleusen von Schad-Code, Denial-of-Service und unbefugte Tool-Aufrufe.
Die ersten Ergebnisse aus Tests mit 31 gängigen LLM liefern mehrere wichtige Erkenntnisse:
- Verbesserte Schlussfolgerungsfähigkeiten erhöhen die Sicherheit erheblich.
- Die Modellgröße steht in keinem Zusammenhang mit der Sicherheitsleistung.
- Closed-Source-Modelle schneiden im Allgemeinen besser ab als Open-Weight-Modelle – obwohl die besten Open-Modelle den Abstand verringern.

Info: Der Benchmark-Report ist hier unter einer Open-Source-Lizenz einsehbar: https://arxiv.org/pdf/2510.22620
Gandalf: Agent-Breaker ist ein Hacking-Simulator-Spiel, bei dem man aufgefordert wird, KI-Agenten in realistischen Szenarien zu knacken und auszunutzen. Die zehn GenAI-Anwendungen im Spiel simulieren das Verhalten eines realen KI-Agenten. Jede Anwendung verfügt über mehrere Schwierigkeitsstufen, mehrschichtige Abwehrmechanismen und neuartige Angriffsflächen, die eine Reihe von Fähigkeiten herausfordern, von Prompt Engineering bis hin zu Red Teaming. Einige der Apps sind Chat-basiert, während andere auf Code-Level-Denken, Dateiverarbeitung, Speicher oder der Verwendung externer Tools beruhen.
Die erste Version von Gandalf entstand aus einem internen Hackathon bei Lakera, als Blue und Red Teams versuchten, die stärksten Abwehrmechanismen und Angriffe für ein LLM mit einem geheimen Passwort zu entwickeln. Seit seiner Veröffentlichung im Jahr 2023 hat es sich zur weltweit größten Red-Teaming-Community entwickelt und mehr als 80 Millionen Datenpunkte generiert. Ursprünglich als unterhaltsames Spiel konzipiert, deckt Gandalf die realen Schwachstellen in GenAI-Anwendungen auf, um das Bewusstsein für die Bedeutung von AI-first-Sicherheit zu schärfen.
#CheckPoint













