Skip to content

Aktuelle Fortschritte in der LLM Jailbreak Forschung

Updated on

Große Sprachmodelle (LLMs) haben die Verarbeitung natürlicher Sprache revolutioniert, stellen aber auch erhebliche Sicherheitsherausforderungen dar. Dieser Artikel bietet einen umfassenden Überblick über die jüngsten Forschungen zu LLM-Jailbreaks mit einem Fokus auf verschiedene Aspekte einschließlich Verteidigungsmechanismen, Benchmarking, Prompt Injection, Fuzzing und mehr.

Verteidigungsmechanismen

  1. Automatische Prompt-Optimierung mit "Gradient Descent" und Beam Search (Zheng et al., 2023) In diesem Papier wird die automatische Prompt-Optimierung (APO) vorgeschlagen, eine nichtparametrische Lösung, die von numerischem Gradient Descent inspiriert ist. APO zielt darauf ab, Prompts automatisch zu verbessern, um gegen Jailbreak-Versuche zu verteidigen, vorausgesetzt, dass Trainingsdaten und eine LLM-API zugänglich sind.

  2. Jailbreaker im Gefängnis: Moving Target Defense für Große Sprachmodelle (Zhang et al., 2023) Die Autoren entwerfen ein System mit beweglicher Zielverteidigung (MTD), das LLMs verbessert. Dieses System liefert nicht-toxische Antworten, die mit Ausgaben von mehreren Modellkandidaten übereinstimmen, und erhöht dadurch die Robustheit gegen adversariale Angriffe. Es beinhaltet ein Modell zur Analyse von Abfragen und Ausgaben, um unsichere oder nicht-antwortende Antworten zu filtern.

  3. Jailbreak und Wächter für ausgerichtete Sprachmodelle mit nur wenigen In-Context-Demonstrationen (Li et al., 2023) Diese Forschung führt In-Context-Angriff (ICA) und In-Context-Verteidigung (ICD) Methoden ein. ICA erstellt bösartige Kontexte, um Modelle zu schädlichen Ausgaben zu führen, während ICD die Robustheit des Modells durch die Demonstration der Ablehnung schädlicher Prompts stärkt.

  4. Self-Guard: Das LLM befähigen, sich selbst zu schützen (Zhu et al., 2023) Self-Guard ist ein neuartiger zweistufiger Ansatz, der die Stärken verschiedener Sicherheitsmethoden kombiniert. Die erste Stufe verbessert die Fähigkeit des Modells, schädliche Inhalte zu bewerten, während die zweite Stufe das Modell anweist, eine kontinuierliche Erkennung schädlicher Inhalte bei eigenen Antworten durchzuführen.

  5. Verteidigung gegen Alignment-Breaking-Angriffe durch Robustly Aligned LLM (Zhong et al., 2023) Dieses Papier führt das Robustly Aligned LLM (RA-LLM) ein, um sich gegen potenzielle Alignment-Breaking-Angriffe zu verteidigen. RA-LLM kann auf ein bestehendes, ausgerichtetes LLM mit einer robusten Alignment-Prüffunktion aufbauen, ohne dass teure Neuausbildung oder Feinabstimmung erforderlich sind.

  6. SmoothLLM: Verteidigung gegen Jailbreaking-Angriffe auf Große Sprachmodelle (Zhao et al., 2023) SmoothLLM ist der erste Algorithmus, der entwickelt wurde, um Jailbreaking-Angriffe auf LLMs abzumildern. Basierend auf der Erkenntnis, dass adversarial erzeugte Prompts gegenüber Zeichenebenenänderungen zerbrechlich sind, stört diese Verteidigung zufällig mehrere Kopien eines gegebenen Eingabeprompts und aggregiert die entsprechenden Vorhersagen, um adversariale Eingaben zu erkennen.

  7. Baseline-Verteidigungen gegen adversariale Angriffe auf ausgerichtete Sprachmodelle (Ziegler et al., 2023) Dieses Papier untersucht wahrscheinlich grundlegende Verteidigungsstrategien gegen adversariale Angriffe auf ausgerichtete Sprachmodelle, obwohl spezifische Details im gegebenen Kontext nicht bereitgestellt werden.

Benchmarking

  1. Red-Teaming Große Sprachmodelle mit einer Kette von Äußerungen für Sicherheitsausrichtung (Deshpande et al., 2023) Die Autoren schlagen einen neuen Sicherheitsbewertungsbenchmark namens RED-EVAL vor, der Red-Teaming durchführt. Sie zeigen, dass selbst weit verbreitete Modelle anfällig für Chain of Utterances (CoU)-basierte Prompting sind, die potenziell geschlossene LLM-basierte Systeme jailbreaken können.

  2. Latenter Jailbreak: Ein Benchmark zur Bewertung der Textsicherheit und Ausgaberobustheit von Großen Sprachmodellen (Liu et al., 2023) Dieses Papier stellt einen Benchmark vor, der sowohl die Sicherheit als auch die Robustheit von LLMs bewertet und die Notwendigkeit eines ausgewogenen Ansatzes in der Bewertung betont.

  3. LLM-Plattform-Sicherheit: Anwendung eines systematischen Bewertungsrahmens auf OpenAI's ChatGPT-Plugins (Greshake et al., 2023) Während spezifische Details nicht bereitgestellt werden, präsentiert dieses Papier wahrscheinlich einen systematischen Rahmen zur Bewertung der Sicherheit von LLM-Plattformen und verwendet OpenAI's ChatGPT-Plugins als Fallstudie.

Prompt Injection

  1. Prompt Injection Angriff gegen LLM-integrierte Anwendungen (Guo et al., 2023) Diese Forschung analysiert die Komplexitäten und Implikationen von Prompt Injection Angriffen auf tatsächliche LLM-integrierte Anwendungen und bietet Einblicke in potenzielle Schwachstellen.

  2. Nicht das, worauf du dich eingelassen hast: Kompromittierung realer LLM-integrierter Anwendungen durch indirekte Prompt Injection (Greshake et al., 2023) Dieses Papier untersucht indirekte Prompt Injection Techniken, um reale Anwendungen zu kompromittieren, die LLMs integrieren, und hebt potenzielle Sicherheitsrisiken hervor.

  3. Backdooring von instruktionsgetunten großen Sprachmodellen durch virtuelle Prompt Injection (Li et al., 2023) Die Autoren untersuchen Techniken zum Backdooring von instruktionsgetunten LLMs unter Verwendung von virtueller Prompt Injection und enthüllen möglicherweise neue Schwachstellen in diesen Modellen.

Fuzzing

  1. GPTFUZZER: Red-Teaming Große Sprachmodelle mit automatisch generierten Jailbreak-Prompts (Jiang et al., 2023) GPTFuzz ist ein automatisiertes Framework, das mit von Menschen geschriebenen Vorlagen als Anfänge beginnt und diese dann mutiert, um neue Vorlagen zu erzeugen. Das Papier beschreibt drei Hauptkomponenten: eine Seed-Auswahlstrategie, Mutationsoperatoren und ein Bewertungsmodell zur Beurteilung des Erfolgs eines Jailbreak-Angriffs.

  2. FuzzLLM: Ein neuartiges und universelles Fuzzing-Framework zur proaktiven Entdeckung von Jailbreak-Schwachstellen in Großen Sprachmodellen (He et al., 2023) FuzzLLM ist ein automatisiertes Fuzzing-Framework, das darauf ausgelegt ist, Jailbreak-Schwachstellen in LLMs proaktiv zu testen und zu entdecken. Es verwendet Vorlagen, um die strukturelle Integrität von Prompts zu erfassen und Schlüsselmerkmale von Jailbreak-Klassen als Einschränkungen zu isolieren.

Rollenspiel

  1. Quack: Automatisches Jailbreaking von Großen Sprachmodellen durch Rollenspiel (Qiu et al., 2023) Quack ist ein automatisiertes Test-Framework, basierend auf dem Rollenspiel von LLMs. Es übersetzt Testleitlinien in Frageprompts, analysiert systematisch erfolgreiche Jailbreaks und verwendet Wissensgraphen, um bestehende Jailbreaks zu rekonstruieren und zu pflegen. Das Framework weist den LLMs vier verschiedene Rollen zur Organisation, Bewertung und Aktualisierung von Jailbreaks zu.

  2. Jailbreaking von Sprachmodellen im großen Stil durch Persona-Modulation (Xu et al., 2023) Diese Forschung untersucht Persona-Modulation als Black-Box-Jailbreak-Technik, die das Zielmodell dazu bringt, Persönlichkeiten anzunehmen, die wahrscheinlicher sind, schädlichen Anweisungen zu folgen. Den Autoren zufolge kann dieser Ansatz automatisiert werden, um Schwachstellen im großen Stil auszunutzen.

  3. Rollenspiel mit Großen Sprachmodellen (Nori et al., 2023) Diese Studie untersucht, wie Rollenspiel zur Jailbreak von LLMs verwendet werden kann und möglicherweise neue Angriffsvektoren oder Schwachstellen in diesen Modellen offenbart.

Empirische Studien

  1. "Do Anything Now": Charakterisierung und Bewertung von im-wilden Jailbreak-Prompts auf Großen Sprachmodellen (Sun et al., 2023) Dieses Papier präsentiert die erste Messstudie zu Jailbreak-Prompts in freier Wildbahn, die 6.387 Prompts aus vier Plattformen über sechs Monate hinweg analysiert. Die Autoren verwenden Techniken der natürlichen Sprachverarbeitung und graphbasierte Methoden zur Gemeinschaftserkennung, um einzigartige Merkmale von Jailbreak-Prompts und deren Haupangriffsstrategien zu entdecken.

  2. LLMs zur Ungehorsamkeit verleiten: Verständnis, Analyse und Prävention von Jailbreaks (Greshake et al., 2023) Die Autoren schlagen eine Formalisierung und Taxonomie bekannter (und möglicher) Jailbreaks vor, die einen umfassenden Überblick über das Landschaft der LLM-Schwachstellen bietet.

  3. Jailbreaking ChatGPT durch Prompt Engineering: Eine empirische Studie (Kong et al., 2023) Diese Umfrage untersucht Methoden, um bestehende LLM-Regulationen durch Prompt Engineering zu umgehen und bietet Einblicke in potenzielle Schwachstellen in bestehenden Sicherheitsmechanismen.

  4. Übersicht über Schwachstellen in Großen Sprachmodellen, die durch adversariale Angriffe offenbart wurden (Ding et al., 2023) Dieses Papier bietet einen umfassenden Überblick über Schwachstellen in LLMs, die durch verschiedene adversariale Angriffe offenbart wurden, und bietet eine breite Perspektive auf den aktuellen Stand der LLM-Sicherheit.

LLM-basierte Angriffe

  1. MasterKey: Automatisierter Jailbreak über mehrere LLM-Chatbots hinweg (Li et al., 2023) Diese Studie untersucht, wie unterschiedliche Inhaltserkennungsmethoden von LLMs identifiziert und dann umgangen werden können, indem ein feinabgestimmter LLM-ChatBot verwendet wird, möglicherweise universelle Schwachstellen über mehrere LLM-Plattformen hinweg aufdeckt.

Prompt Engineering

  1. Do-Not-Answer: Ein Datensatz zur Bewertung von Sicherheitsmaßnahmen in LLMs (Stein et al., 2023) Während spezifische Details nicht bereitgestellt werden, führt dieses Papier wahrscheinlich einen Datensatz ein, der darauf abzielt, die Effektivität von Sicherheitsmaßnahmen zu bewerten, die in LLMs implementiert wurden, um verschiedene Arten von böswilligen oder unangemessenen Anfragen zu verhindern.

  2. AutoDAN: Automatische und interpretierbare adversariale Angriffe auf Große Sprachmodelle (Chen et al., 2023) AutoDAN generiert automatisch Angriffsprompts, die Perplexitäts-basierte Filter umgehen, während eine hohe Angriffserfolgsquote beibehalten wird. Diese Prompts sind interpretierbar und vielfältig und zeigen Strategien, die häufig in manuellen Jailbreak-Angriffen verwendet werden.

  3. Verteidigung von ChatGPT gegen Jailbreak-Angriffe durch Self-Reminder (Zhang et al., 2023) Dieses Papier führt einen Jailbreak-Datensatz ein und schlägt eine Verteidigungstechnik namens System-Mode-Self-Reminder vor. Dieser Ansatz kapselt die Benutzeranfrage in einem Systemprompt ein, der ChatGPT daran erinnert, verantwortungsbewusst zu antworten.

  4. Schild und Speer: Jailbreaking von ausgerichteten LLMs durch generatives Prompting (Vaidhya et al., 2023) Diese Forschung führt einen neuartigen automatisierten Jailbreaking-Ansatz ein, der LLMs verwendet, um relevante böswillige Einstellungen auf Basis des Inhalts von Verstoßfragen zu erzeugen. Diese Einstellungen werden dann mit den Fragen integriert, um Jailbreaking-Antworten des LLMs auszulösen.

  5. Selbsttäuschung: Reverse Penetration der semantischen Firewall von Großen Sprachmodellen (Wang et al., 2023) Die Autoren schlagen das Konzept einer semantischen Firewall vor und führen einen "Selbsttäuschungsangriff" ein, der diese Firewall umgeht, indem er LLMs dazu bringt, Prompts zu generieren, die Jailbreaks erleichtern.

  6. Sesam öffne dich! Universelles Black-Box-Jailbreaking von Großen Sprachmodellen (Qi et al., 2023) Dieses Papier stellt einen neuartigen Ansatz zur Verwendung eines genetischen Algorithmus vor, um LLMs zu manipulieren, wenn die Modellarchitektur und -parameter nicht zugänglich sind. Der Angriff optimiert einen universellen adversarial Prompt, der die Ausrichtung des angegriffenen Modells stört, wenn er mit einer Benutzeranfrage kombiniert wird.

  7. Jailbreaking von Black-Box-Sprachmodellen in zwanzig Anfragen (Zou et al., 2023) Die Autoren schlagen den Algorithmus Prompt Automatic Iterative Refinement (PAIR) vor, der semantische Jailbreaks nur mit Black-Box-Zugriff auf ein LLM generiert. Inspiriert von Social-Engineering-Angriffen verwendet PAIR ein angreifendes LLM, um automatisch Jailbreaks für ein separates Ziel-LLM ohne menschliches Eingreifen zu erzeugen.

  8. AutoDAN: Erstellung verstohlener Jailbreak-Prompts auf ausgerichteten Großen Sprachmodellen (Chen et al., 2023) AutoDAN kann automatisch verstohlene Jailbreak-Prompts mit einem sorgfältig gestalteten hierarchischen genetischen Algorithmus generieren, möglicherweise neue Schwachstellen in ausgerichteten LLMs enthüllend.

Visuelle adversariale Beispiele

  1. Missbrauch von Werkzeugen in Großen Sprachmodellen mit visuellen adversarial Beispielen (Geiping et al., 2023) Diese Forschung konstruiert visuelle adversariale Beispielangriffe mit gradientenbasierter adversar Element hat multiple Dimensionen untersucht und exploriert neue Angriffsvektoren für LLMs mit visuellen Fähigkeiten.

  2. Visuelle adversariale Beispiele jailbreaken ausgerichtete Große Sprachmodelle (Cheng et al., 2023) Die Autoren verwenden visuelle adversariale Beispiele, um bestehende Verteidigungsmechanismen zu umgehen und LLMs zu jailbreaken, und zeigen Schwachstellen in multimodalen Sprachmodellen auf.

  3. Jailbreak in Stücken: Kompositionelle adversariale Angriffe auf multimodale Sprachmodelle (Xue et al., 2023) Dieses Papier entwickelt cross-modality Angriffe auf Alignment, indem es adversariale Bilder, die durch den Vision-Encoder gehen, mit Text-Prompts paart, um das Alignment des Sprachmodells zu brechen.

  4. Bild-Entführungen: Adversariale Bilder können generative Modelle zur Laufzeit steuern (Ravfogel et al., 2023) Die Autoren führen das Behavior Matching, eine allgemeine Methode zur Erstellung von Bildentführungen, ein, die generative Modelle zur Laufzeit steuern. Sie explorieren drei Arten von Angriffen: spezifische Zeichenkettenangriffe, Kontextleak-Angriffe und Jailbreak-Angriffe.

  5. Missbrauch von Bildern und Geräuschen zur indirekten Instruktionsinjektion in multimodale LLMs (Greshake et al., 2023) Diese Forschung untersucht, wie Bilder und Geräusche zur indirekten Instruktionsinjektion in multimodale LLMs verwendet werden können und möglicherweise neue Angriffsvektoren in diesen fortgeschrittenen Modellen offenbart.

Backdoor

  1. Universelle Jailbreak-Backdoors durch vergiftetes menschliches Feedback (Ji et al., 2023) Dieses Papier betrachtet eine neue Bedrohung, bei der ein Angreifer die Daten des Verstärkungslernen durch menschliches Feedback (RLHF) vergiftet, um einen Jailbreak-Trigger als Backdoor in das Modell einzubetten, wodurch die Sicherheitsausrichtung des Modells potenziell kompromittiert wird.

  2. Prompts als Auslöser für Backdoor-Angriffe: Untersuchung der Verwundbarkeit in Sprachmodellen (Fang et al., 2023) Die Autoren untersuchen, wie Prompts als Auslöser für Backdoor-Angriffe in Sprachmodellen verwendet werden können und enthüllen potenzielle Schwachstellen im prompt-basierten Interaktionsparadigma.

Cross-lingual

  1. Multilinguale Jailbreak-Herausforderungen in Großen Sprachmodellen (Faisal et al., 2023) Diese Forschung zeigt die Existenz multilingualer Jailbreak-Herausforderungen innerhalb von LLMs auf und berücksichtigt zwei potenzielle Risikoszenarien: unbeabsichtigt und beabsichtigt, und unterstreicht die Notwendigkeit multilingualer Sicherheitsüberlegungen bei der Entwicklung von LLMs.

  2. Low-Resource-Sprachen jailbreaken GPT-4 (Wang et al., 2023) Die Autoren legen den inhärenten cross-lingualen Schwachpunkt der Sicherheitsmechanismen von LLMs offen, der durch die sprachliche Ungleichheit der Sicherheitstrainingsdaten verursacht wird. Sie umgehen erfolgreich die Sicherheitsmaßnahmen von GPT-4, indem sie unsichere englische Eingaben in Low-Resource-Sprachen übersetzen.

Andere Ansätze

  1. Geknackt: Wie scheitert die Sicherheitsschulung von LLMs? (Zhou et al., 2023) Diese Studie zielt darauf ab, zu verstehen, wie Scheitermodi die Generierung von Jailbreak-Schwachstellen beeinflussen. Die Autoren nutzen diese Scheitermodi, um das Design von Jailbreaks zu leiten und bewerten moderne Modelle, einschließlich OpenAIs GPT-4 und Claude v1.3 von Anthropic, sowohl gegen bestehende als auch neu entwickelte Angriffe.

  2. Mehrstufige Jailbreaking-Privacy-Angriffe auf ChatGPT (Peng et al., 2023) Die Autoren untersuchen Datenschutzbedrohungen von OpenAI's ChatGPT und dem neuen Bing, das durch ChatGPT verstärkt wird, und zeigen, dass in Anwendungen integrierte LLM