LLM 越狱研究的新进展

Name: Akira Sakamoto

Updated on 2024/9/13

大型语言模型（LLM）在自然语言处理领域取得了革命性进展，但也带来了显著的安全挑战。本文全面概述了最近关于LLM越狱的研究，聚焦于防御机制、基准测试、提示注入、模糊测试等多个方面。

防御机制

通过"梯度下降"和束搜索进行自动提示优化（Zheng等，2023）本文提出了一种受数值梯度下降启发的自动提示优化（APO）方法。这是一种非参数解，旨在自动改进提示以防御越狱尝试，假设可以访问训练数据和LLM API。
越狱者在狱中：针对大型语言模型的动态目标防御（Zhang等，2023）作者设计了一种增强动态目标防御（MTD）系统。该系统提供与多个模型候选输出一致的非有害答案，增强了对抗攻击的鲁棒性。它集成了一个查询和输出分析模型，用于过滤不安全或无响应的答案。
仅通过少量上下文示例进行对齐语言模型的越狱和防御（Li等，2023）这项研究介绍了上下文攻击（ICA）和上下文防御（ICD）方法。ICA创建恶意上下文以引导模型生成有害输出，而ICD通过示范拒绝有害提示来增强模型的鲁棒性。
自我防护：赋予LLM自我保护的能力（Zhu等，2023）自我防护是一种新颖的两阶段方法，结合了各种安全方法的优点。第一阶段增强模型评估有害内容的能力，第二阶段指导模型在其回复中持续执行有害内容检测。
通过鲁棒对齐的LLM防御对齐破坏性攻击（Zhong等，2023）本文介绍了一种鲁棒对齐的LLM（RA-LLM）来防御潜在的对齐破坏性攻击。RA-LLM可以在现有对齐LLM的基础上构建，并具有鲁棒的对齐检查功能，无需昂贵的重新训练或微调。
SmoothLLM：防御大型语言模型的越狱攻击（Zhao等，2023） SmoothLLM是第一个设计用于缓解LLM越狱攻击的算法。基于对抗性生成的提示对字符级变化脆弱的发现，该防御随机扰乱给定输入提示的多个副本并聚合相应的预测以检测对抗性输入。
基线防御：针对对齐语言模型的对抗攻击（Ziegler等，2023）尽管未提供具体细节，这篇论文可能探讨了针对对齐语言模型对抗攻击的基本防御策略。

基准测试

使用链式话语红队化大型语言模型进行安全对齐（Deshpande等，2023）作者提出了一种新的安全评估基准RED-EVAL，进行红队化测试。他们展示了即使是广泛部署的模型也容易受到基于话语链（CoU）提示的攻击，可能越狱封闭源LLM系统。
潜在越狱：评估大型语言模型文本安全性和输出鲁棒性的基准（Liu等，2023）本文介绍了一种评估LLM安全性和鲁棒性的双重基准，强调评估过程中的平衡方法。
LLM平台安全性：系统评价框架应用于OpenAI的ChatGPT插件（Greshake等，2023）虽然未提供具体细节，本论文可能介绍了一种系统评价LLM平台安全性的框架，以OpenAI的ChatGPT插件为案例研究。

提示注入

针对LLM集成应用的提示注入攻击（Guo等，2023）这项研究解构了在实际LLM集成应用中提示注入攻击的复杂性和影响，提供了潜在漏洞的见解。
你所签署并非你所见：利用间接提示注入攻击现实世界的LLM集成应用（Greshake等，2023）本文探讨了间接提示注入技术以威胁现实世界中集成LLM的应用，突显了潜在的安全风险。
通过虚拟提示注入后门指令调优大型语言模型（Li等，2023）作者探讨了使用虚拟提示注入对指令调优的LLM进行后门攻击的技术，可能揭示这些模型的新漏洞。

模糊测试

GPTFUZZER：自动生成越狱提示的红队化大型语言模型（Jiang等，2023） GPTFuzz是一个自动化框架，从人类编写的模板开始作为初始种子，然后变异生成新模板。本文详细描述了三大关键组件：种子选择策略、变异操作符和评估越狱攻击成功的判决模型。
FuzzLLM：新型通用模糊测试框架，主动发现大型语言模型中的越狱漏洞（He等，2023） FuzzLLM是一个自动化模糊测试框架，旨在主动测试和发现LLM中的越狱漏洞。它利用模板捕捉提示的结构完整性，并将越狱类别的关键特征作为约束条件进行隔离。

角色扮演

Quack：通过角色扮演自动越狱大型语言模型（Qiu等，2023） Quack是一个基于LLM角色扮演的自动测试框架。它将测试指南转化为问题提示，系统分析成功的越狱案例，并使用知识图谱重构和维护现有越狱。该框架为LLM指派四个不同的角色来组织、评估和更新越狱。
通过个性调制大规模越狱语言模型（Xu等，2023）这项研究探讨了一种黑箱越狱技术，使用个性调制引导目标模型采纳更可能遵从有害指令的个性。作者展示了这种方法可以自动化，以规模化利用漏洞。
使用大型语言模型进行角色扮演（Nori等，2023）这项研究探讨了角色扮演如何用于越狱LLM，可能揭示这些模型中的新攻击向量或漏洞。

实证研究

"无所不能"：表征和评估大型语言模型中的野外越狱提示（Sun等，2023）本文介绍了首个关于野外越狱提示的测量研究，分析了从四个平台收集的6,387个提示。作者使用自然语言处理和基于图形的社区检测方法，发现越狱提示的独特特性及其主要攻击策略。
诱使LLM不遵守：理解、分析和防止越狱（Greshake等，2023）作者提出了一种已知（和可能）越狱的形式化和分类法，提供了LLM漏洞的全面概述。
通过提示工程破解ChatGPT：实证研究（Kong等，2023）这项调查研究探讨了通过提示工程绕过现有LLM法规的方法，提供了现有安全机制中可能漏洞的见解。
通过对抗性攻击揭示的大型语言模型漏洞调查（Ding等，2023）本文全面调查了通过各种对抗性攻击揭示的LLM漏洞，提供了对当前LLM安全状态的广泛视角。

基于LLM的攻击

万能钥匙：跨多个大型语言模型聊天机器人的自动越狱（Li等，2023）这项研究探讨了如何识别不同LLM的内容检测方法，然后使用微调的LLM聊天机器人绕过它们，可能揭示跨多个LLM平台的普遍漏洞。

提示工程

禁止回答：用于评估LLM中安全保护的数据集（Stein等，2023）虽然未提供具体细节，这篇论文可能介绍了一个用于评估LLM中各种恶意或不当查询的保护措施的数据集。
AutoDAN：对大型语言模型的自动和可解释的对抗性攻击（Chen等，2023） AutoDAN自动生成能够绕过困惑度过滤器的攻击提示，同时保持高攻击成功率。这些提示是可解释的且多样化，表现出手动越狱攻击中常见的策略。
通过自我提醒防御ChatGPT的越狱攻击（Zhang等，2023）本文介绍了一种越狱数据集，并提出了一种防御技术，称为系统模式自我提醒。此方法将用户查询封装在一个系统提示中，提醒ChatGPT负责地回应。
盾与矛：使用生成性提示越狱对齐的LLM（Vaidhya等，2023）这项研究介绍了一种新颖的自动越狱方法，使用LLM生成基于违反问题内容的相关恶意设置。然后将这些设置与问题集成以触发LLM的越狱响应。
自我欺骗：反向穿透大型语言模型的语义防火墙（Wang等，2023）作者提出了语义防火墙的概念，并介绍了一种"自我欺骗"攻击，通过诱导LLM生成促进越狱的提示来绕过这道防火墙。
芝麻开门！大型语言模型的通用黑箱越狱（Qi等，2023）本文介绍了一种使用遗传算法操纵LLM的新方法，当模型架构和参数无法访问时。该攻击优化出一个通用对抗提示，当与用户查询结合时，破坏被攻击模型的对齐。
二十次查询内越狱黑箱大型语言模型（Zou等，2023）作者提出了提示自动迭代优化（PAIR），一种仅通过黑箱访问LLM的算法，生成语义越狱。受社会工程攻击启发，PAIR使用攻击者LLM自动生成用于攻击目标LLM的越狱提示，无需人工干预。
AutoDAN：在对齐大型语言模型上生成隐秘越狱提示（Chen等，2023） AutoDAN用一个精心设计的分层遗传算法可以自动生成隐秘的越狱提示，可能揭示在对齐LLM中的新漏洞。

视觉对抗示例

用视觉对抗示例滥用大型语言模型的工具（Geiping等，2023）该研究通过基于梯度的对抗训练构建了视觉对抗示例攻击，并沿多个维度表征性能，探索了具有视觉功能的LLM的新攻击向量。
通过视觉对抗示例越狱对齐的大型语言模型（Cheng等，2023）作者使用视觉对抗示例绕过现有的防御机制，越狱LLM，展示了多模态语言模型中的漏洞。
拼接越狱：对多模态语言模型的组合对抗攻击（Xue等，2023）该论文开发了跨模态对齐攻击，将穿过视觉编码器的对抗性图像与文本提示结合，破坏语言模型的对齐。
图像劫持：对抗性图像可以在运行时控制生成模型（Ravfogel等，2023）作者介绍了行为匹配，一种创建在运行时控制生成模型的图像劫持的一般方法。他们探索了三种类型的攻击：特定字符串攻击、泄漏上下文攻击和越狱攻击。
滥用图像和声音进行多模态LLM中的间接指令注入（Greshake等，2023）这项研究探索了如何使用图像和声音进行多模态LLM的间接指令注入，可能揭示了这些高级模型中的新攻击向量。

后门

从污染的人类反馈中产生的通用越狱后门（Ji等，2023）本文考虑了一种新的威胁，攻击者通过污染RLHF（人类反馈强化学习）数据在模型中植入越狱触发器作为后门，可能会损害模型的安全对齐。
通过提示作为后门攻击的触发器（Fang等，2023）作者研究了提示如何作为语言模型后门攻击的触发器，揭示了提示交互模式中的潜在漏洞。

跨语言

大型语言模型中的多语言越狱挑战（Faisal等，2023）这项研究揭示了LLM中存在的多语言越狱挑战，并考虑了两种潜在的风险情景：无意的和故意的，突显了在LLM开发中需要多语言安全考量。
低资源语言越狱GPT-4（Wang等，2023）作者揭示了由于安全训练数据的语言不平等，导致LLM安全机制存在的固有跨语言漏洞。他们通过将不安全的英文输入翻译为低资源语言，成功绕过了GPT-4的安全措施。

其他方法

越狱成功：LLM安全训练如何失效的？（Zhou等，2023）本研究旨在理解故障模式如何影响越狱漏洞的生成。作者使用这些故障模式指导越狱设计，并评估包括OpenAI的GPT-4和Anthropic的Claude v1.3在内的最先进模型应对现有和新设计的攻击。
针对ChatGPT的多步骤越狱隐私攻击（Peng等，2023）作者研究了来自OpenAI的ChatGPT和由ChatGPT增强的新Bing带来的隐私威胁，显示了集成LLM的应用可能通过多步骤越狱攻击带来新的隐私威胁。
LLM集成应用中的提示注入攻击与防御（Shen等，2023）本文提出了一个通用框架来形式化提示注入攻击，提供了一个系统的方法来理解和缓解这些在LLM集成应用中的漏洞。
为何如此有毒？：测量和触发开放域聊天机器人的有毒行为（Baheti等，2022）作者提出了一种叫做ToxicBuddy的攻击，依靠微调GPT-2生成非有毒查询，使聊天机器人以有毒方式响应，揭示了聊天机器人伦理训练中的潜在漏洞。
通过利用生成的大型开源LLM越狱的灾难性攻击（Zhang等，2023）这项研究提出了一种生成利用攻击，仅通过操纵解码方法的变体来破坏模型对齐，可能揭示了LLM生成过程中的基本漏洞。

这篇全面的综述展示了研究人员在理解、利用和防御大型语言模型漏洞方面所采取的多种方法。随着该领域的快速发展，对于开发者和研究人员来说，了解这些潜在风险并致力于构建更鲁棒和安全的AI系统至关重要。