Skip to content

LLM Jailbreak 研究の最新進展

Updated on

大規模言語モデル(LLM)は自然言語処理に革命をもたらしましたが、同時に重大なセキュリティ課題も提起しています。この記事では、LLM Jailbreakに関する最近の研究を総合的に概観し、防御機構、ベンチマーク、プロンプトインジェクション、ファジングなど、さまざまな側面に焦点を当てています。

防御機構

  1. "Gradient Descent"とビームサーチによる自動プロンプト最適化 (Zheng et al., 2023) この論文は、数値的勾配降下法にインスパイアされた非パラメトリックソリューションである自動プロンプト最適化(APO)を提案しています。APOは、トレーニングデータとLLM APIへのアクセスを前提に、Jailbreakの試みから防御するためのプロンプトを自動的に改善することを目指しています。

  2. Jailbreaker in Jail: LLMのムービングターゲット防御 (Zhang et al., 2023) この研究では、ムービングターゲット防御(MTD)を強化したLLMシステムを設計しています。このシステムは、複数のモデル候補の出力と一致する非毒性の回答を提供し、攻撃に対しての耐性を高めます。また、安全でないまたは無反応の回答をフィルタリングするためのクエリおよび出力分析モデルを組み込んでいます。

  3. 少数のIn-ContextデモンストレーションでJailbreakとGuard Aligned Language Modelsを実現 (Li et al., 2023) この研究は、In-Context Attack(ICA)とIn-Context Defense(ICD)方法を導入しています。ICAはモデルに有害な出力を生成させるための悪意のあるコンテキストを作成し、ICDは有害なプロンプトを拒否する方法をデモンストレーションすることでモデルの耐性を向上させます。

  4. Self-Guard: LLMを自己保護する能力を強化 (Zhu et al., 2023) Self-Guardは、さまざまな安全方法の強みを組み合わせた新しい二段階アプローチです。第一段階ではモデルの有害コンテンツを評価する能力を向上させ、第二段階ではモデルが自分の回答に対して一貫して有害コンテンツ検出を行うように指示します。

  5. ロバストに整列したLLMによるアライメントブレイキング攻撃からの防御 (Zhong et al., 2023) この論文では、潜在的なアライメントブレイキング攻撃から防御するためのロバストに整列したLLM(RA-LLM)を紹介しています。RA-LLMは、既存の整列済みLLM上に構築され、ロバストな整列チェック機能を備えており、高価な再トレーニングやファインチューニングを必要とせずに構築可能です。

  6. SmoothLLM: Jailbreaking 攻撃に対する大規模言語モデルの防御 (Zhao et al., 2023) SmoothLLMはLLMのJailbreaking攻撃を軽減するために設計された初のアルゴリズムです。攻撃により生成されたプロンプトはキャラクターレベルの変化に脆弱であるという発見に基づき、この防御は複数の入力プロンプトをランダムに改変し、対応する予測を集計して攻撃的な入力を検出します。

  7. アライメントされた言語モデルに対する対抗攻撃のためのベースライン防御 (Ziegler et al., 2023) この論文は、アライメントされた言語モデルに対する対抗攻撃のための基本的な防御戦略を探求していると考えられます。

ベンチマーク

  1. 安全-アライメントのための発言チェーンを使用した大規模言語モデルのレッドチーミング (Deshpande et al., 2023) 著者は、レッドチーミングを実行する新しい安全評価ベンチマーク「RED-EVAL」を提案しています。彼らは、広く展開されているモデルであっても発言チェーンベースの(CoU)プロンプトによって容易にJailbreakされ得ることを示しました。

  2. 潜在的Jailbreak:大規模言語モデルのテキスト安全性と出力堅牢性を評価するベンチマーク (Liu et al., 2023) この論文は、LLMの安全性と堅牢性の両方を評価するベンチマークを導入し、評価においてバランスの取れたアプローチの必要性を強調しています。

  3. LLMプラットフォームのセキュリティ: OpenAIのChatGPT プラグインへの系統的評価フレームワークの適用 (Greshake et al., 2023) 詳細は提供されていませんが、この論文はおそらくOpenAIのChatGPTプラグインを事例とした、LLMプラットフォームのセキュリティーを評価する系統的フレームワークを提示しています。

プロンプトインジェクション

  1. LLM統合アプリケーションに対するプロンプトインジェクション攻撃 (Guo et al., 2023) この研究は、実際のLLM統合アプリケーションに対するプロンプトインジェクション攻撃の複雑さと影響を分解し、潜在的な脆弱性へ洞察を提供します。

  2. 契約したサービスではない: 間接プロンプトインジェクションによる実世界のLLM統合アプリケーションの危殆化 (Greshake et al., 2023) この論文は、LLMを統合した実際のアプリケーションを危殆化する間接プロンプトインジェクション技術を探求し、潜在的なセキュリティリスクを浮き彫りにします。

  3. バーチャルプロンプトインジェクションによる指示チューニングされた大規模言語モデルのバックドア化 (Li et al., 2023) この研究は、仮想プロンプトインジェクションを使用して指示チューニングされたLLMをバックドア化する技術を調査し、これらのモデルの新たな脆弱性を明らかにする可能性があります。

ファジング

  1. GPTFUZZER: 自動生成されたJailbreakプロンプトによる大規模言語モデルのレッドチーミング (Jiang et al., 2023) GPTFuzzは、人間が書いたテンプレートを初期シードとし、それを変異させて新しいテンプレートを生成する自動フレームワークです。この論文は、種選択戦略、変異オペレーター、Jailbreak攻撃の成功を評価する判断モデルの3つの主要コンポーネントを詳述します。

  2. FuzzLLM: 大規模言語モデルのJailbreak脆弱性を能動的に発見するための新たなユニバーサルファジングフレームワーク (He et al., 2023) FuzzLLMは、LLMのJailbreak脆弱性を能動的にテストおよび発見するための自動ファジングフレームワークです。テンプレートを使用してプロンプトの構造的完全性をキャプチャし、Jailbreakクラスの主要特徴を制約として分離します。

ロールプレイ

  1. Quack: ロールプレイによる大規模言語モデルの自動Jailbreaking (Qiu et al., 2023) Quackは、LLMのロールプレイに基づく自動テストフレームワークです。テストガイドラインを質問プロンプトに変換し、成功したJailbreakを系統的に分析し、理解グラフを使用して既存のJailbreakを再構築および維持します。このフレームワークは、Jailbreakを整理、評価、更新するためにLLMに4つの異なる役割を割り当てます。

  2. パーソナモジュレーションによる大規模言語モデルのスケールでのJailbreaking (Xu et al., 2023) この研究は、モデルをより有害な指示に従う可能性のある人格を持たせるブラックボックスJailbreak技術としてのパーソナモジュレーションを調査しています。著者らは、このアプローチが自動化され、スケールでの脆弱性を悪用できることを示しています。

  3. 大規模言語モデルとのロールプレイ (Nori et al., 2023) この研究は、ロールプレイを使用してLLMをJailbreakする方法を探求しており、これらのモデルの新たな攻撃ベクトルや脆弱性を明らかにする可能性があります。

実証研究

  1. "Do Anything Now": 既存のJailbreakプロンプトの特性と評価 (Sun et al., 2023) この論文は、6ヶ月間にわたり4つのプラットフォームから収集した6,387のプロンプトを分析し、野生のJailbreakプロンプトに関する最初の測定研究を紹介しています。著者らは、自然言語処理とグラフベースのコミュニティ検出方法を使用して、Jailbreakプロンプトの独自の特徴と主な攻撃戦略を明らかにします。

  2. LLMを違反に導く方法: Jailbreakの理解、分析、および防止 (Greshake et al., 2023) 著者らは、既知および可能なJailbreakの形式と分類を提案し、LLMの脆弱性の風景に関する包括的な概要を提供します。

  3. プロンプトエンジニアリングによるChatGPTのJailbreaking: 実証研究 (Kong et al., 2023) この調査研究は、プロンプトエンジニアリングを通じて現行のLLM規制を回避する方法を探り、既存の安全メカニズムにおける潜在的な脆弱性についての洞察を提供します。

  4. 対抗攻撃によって明らかにされたLLMの脆弱性に関する調査 (Ding et al., 2023) この論文は、さまざまな対抗攻撃を通じて明らかにされたLLMの脆弱性に関する包括的な調査を提供し、現在のLLMセキュリティの現状に関する広角的な視点を提供します。

LLMベースの攻撃

  1. MasterKey: 複数の大規模言語モデルチャットボットを越えた自動Jailbreak (Li et al., 2023) この研究は、異なるLLMのコンテンツ検出方法を特定し、それを細調されたLLMチャットボットを使用して回避する方法を探求し、複数のLLMプラットフォームに共通する脆弱性を明らかにします。

プロンプトエンジニアリング

  1. Do-Not-Answer: LLMの防護評価のためのデータセット (Stein et al., 2023) 詳細は提供されていませんが、この論文はおそらく、さまざまな種類の悪意のあるまたは不適切なクエリに対する防護の効果を評価するためのデータセットを紹介しています。

  2. AutoDAN: 大規模言語モデルに対する自動かつ解釈可能な対抗攻撃 (Chen et al., 2023) AutoDANは、困惑度フィルタを回避しながら高い攻撃成功率を維持する攻撃プロンプトを自動生成します。これらのプロンプトは解釈可能かつ多様であり、手動Jailbreak攻撃でよく使用される戦略を示しています。

  3. ChatGPTのJailbreak攻撃に対するSelf-Reminderによる防御 (Zhang et al., 2023) この論文は、Jailbreakデータセットを紹介し、System-Mode Self-Reminderと呼ばれる防御技術を提案しています。このアプローチは、ユーザークエリをシステムプロンプトで包み、ChatGPTに責任ある応答をするよう促します。

  4. Shield and Spear: Generative Promptingを用いるアライメントされたLLMのJailbreaking (Vaidhya et al., 2023) この研究は、LLMを使用して違反質問の内容に基づく関連する悪意のある設定を生成する新しい自動Jailbreakingアプローチを紹介しています。これらの設定は質問と統合され、LLMのJailbreaking応答を引き出します。

  5. Self-Deception: 大規模言語モデルのセマンティックファイアウォールの内部浸透 (Wang et al., 2023) 著者らはセマンティックファイアウォールの概念を提案し、このファイアウォールを迂回し、LLMにJailbreakを促進するプロンプトを生成させる「自己欺瞞」攻撃を紹介しています。

  6. Open Sesame! ユニバーサルブラックボックスJailbreakingにおける大規模言語モデル (Qi et al., 2023) この論文は、モデルのアーキテクチャおよびパラメーターがアクセス不可能な場合にLLMを操作するための遺伝的アルゴリズムを使用する新しいアプローチを導入しています。攻撃は、ユーザーのクエリと組み合わせることで、攻撃されたモデルのアライメントを破壊するユニバーサル対向プロンプトを最適化します。

  7. 大規模言語モデルを20回のクエリでJailbreakする (Zou et al., 2023) 著者らは、LLMに対するブラックボックスアクセスのみで意味的Jailbreakを生成するアルゴリズムであるPrompt Automatic Iterative Refinement(PAIR)を提案しています。ソーシャルエンジニアリング攻撃にインスパイアされたPAIRは、Humanの介入なしに別のターゲットLLMのために自動的にJailbreakを生成します。

  8. AutoDAN: アライメントされた大規模言語モデルに対するステルスJailbreakプロンプトを生成する (Chen et al., 2023) AutoDANは慎重に設計された階層的遺伝的アルゴリズムを使用して、アライメントされたLLMに新たな脆弱性を明らかにし得るステルスJailbreakプロンプトを自動生成します。

視覚的対向例

  1. 視覚的対向例を使用した大規模言語モデルでのツールの誤用 (Geiping et al., 2023) この研究は、勾配ベースの対向訓練を使用して視覚的対向例攻撃を構築し、複数の次元に沿って性能を特性化し、視覚機能を持つLLMの新たな攻撃ベクトルを探ります。

  2. 視覚的対向例で大規模言語モデルをJailbreakする (Cheng et al., 2023) 著者らは視覚的対向例を使用して現在の防御メカニズムを回避し、LLMをJailbreakし、マルチモーダル言語モデルの脆弱性を示します。

  3. ピース単位でのJailbreak: マルチモーダル言語モデルに対する構成的対向攻撃 (Xue et al., 2023) この論文は、視覚エンコーダーを介して