Skip to content

LLM 탈옥 연구의 최신 발전

Updated on

대형 언어 모델(LLM)은 자연어 처리에 혁명을 일으켰지만, 동시에 중요한 보안 문제도 제기하고 있습니다. 이 글에서는 LLM 탈옥에 대한 최근 연구를 종합적으로 검토하고, 방어 메커니즘, 벤치마킹, 프롬프트 인젝션, 퍼징 등 다양한 측면에 초점을 맞춥니다.

방어 메커니즘

  1. "그라디언트 디센트"와 빔 서치를 사용한 자동 프롬프트 최적화 (Zheng et al., 2023) 이 논문은 수치적 그라디언트 디센트에서 영감을 받은 비모수 솔루션인 자동 프롬프트 최적화(APO)를 제안합니다. APO는 교육 데이터를 접근하고 LLM API를 사용할 수 있는 상황에서 탈옥 시도를 방어하기 위해 프롬프트를 자동으로 개선하는 것을 목표로 합니다.

  2. 탈옥 점퍼: 대형 언어 모델을 위한 이동 타겟 방어 (Zhang et al., 2023) 저자들은 이동 타겟 방어(MTD) 향상된 LLM 시스템을 설계합니다. 이 시스템은 다수의 모델 후보로부터의 출력과 일치하는 비유해 답변을 제공하여 적대적 공격에 대한 안정성을 높입니다. 또한 쿼리 및 출력 분석 모델을 통합하여 안전하지 않거나 응답하지 않는 답변을 걸러냅니다.

  3. 소수의 인-컨텍스트 데모만으로 탈옥 및 방어 정렬된 언어 모델 (Li et al., 2023) 이 연구는 인-컨텍스트 공격(ICA) 및 인-컨텍스트 방어(ICD) 방법을 소개합니다. ICA는 모델이 유해한 출력을 생성하도록 유도하는 악의적인 컨텍스트를 제작하고, ICD는 유해한 프롬프트를 거부하는 방법을 시연하여 모델의 강인성을 향상시킵니다.

  4. 셀프-가드: LLM 스스로를 보호할 수 있도록 강화 (Zhu et al., 2023) 셀프-가드는 다양한 안전 방법의 강점을 결합한 새로운 2단계 접근 방식입니다. 첫 번째 단계는 모델의 유해 콘텐츠 평가 능력을 향상시키고, 두 번째 단계는 모델이 자체 응답에서 지속적으로 유해 콘텐츠 감지를 수행하도록 지시합니다.

  5. 정렬 파괴 공격에 대한 방어: 강인한 정렬된 LLM을 통해 (Zhong et al., 2023) 이 논문은 잠재적인 정렬 파괴 공격에 대해 방어하기 위해 강인한 정렬된 LLM(RA-LLM)을 소개합니다. RA-LLM은 비용이 많이 드는 재훈련이나 미세 조정 없이 기존의 정렬된 LLM 위에 강인한 정렬 검사 기능을 구축할 수 있습니다.

  6. SmoothLLM: 대형 언어 모델을 탈옥 공격으로부터 방어 (Zhao et al., 2023) SmoothLLM은 LLM에 대한 탈옥 공격을 완화하도록 설계된 최초의 알고리즘입니다. 적대적으로 생성된 프롬프트가 문자 수준의 변경에 취약하다는 발견에 기반하여, 이 방어 알고리즘은 주어진 입력 프롬프트의 여러 사본을 무작위로 교란시키고, 해당 예측을 집계하여 적대적 입력을 감지합니다.

  7. 정렬된 언어 모델에 대한 적대적 공격에 대한 기본 방어 (Ziegler et al., 2023) 이 논문은 정렬된 언어 모델에 대한 적대적 공격에 대한 기본 방어 전략을 탐구할 가능성이 있지만, 제공된 맥락에서는 구체적인 세부 사항이 제공되지 않습니다.

벤치마킹

  1. 안전 정렬을 위한 연속 발언 체인을 사용한 대형 언어 모델의 레드팀 평가 (Deshpande et al., 2023) 저자들은 레드팀 평가를 수행하는 새로운 안전 평가 벤치마크인 RED-EVAL을 제안합니다. 그들은 널리 배포된 모델조차도 연속 발언 체인(CoU) 기반 프롬팅에 취약할 수 있음을 입증합니다.

  2. 잠재적 탈옥: 대형 언어 모델의 텍스트 안전성과 출력 강인성을 평가하는 벤치마크 (Liu et al., 2023) 이 논문은 LLM의 안전성과 강인성을 평가하는 균형 잡힌 접근 방식의 필요성을 강조하는 벤치마크를 도입합니다.

  3. LLM 플랫폼 보안: OpenAI의 ChatGPT 플러그인에 체계적인 평가 프레임워크 적용 (Greshake et al., 2023) 구체적인 세부 사항은 제공되지 않았지만, 이 논문은 OpenAI의 ChatGPT 플러그인을 사례 연구로 사용하여 LLM 플랫폼의 보안을 평가하는 체계적인 프레임워크를 제시할 가능성이 높습니다.

프롬프트 인젝션

  1. LLM 통합 애플리케이션에 대한 프롬프트 인젝션 공격 (Guo et al., 2023) 이 연구는 실제 LLM 통합 애플리케이션에 대한 프롬프트 인젝션 공격의 복잡성과 영향을 해체하여 잠재적인 취약성에 대한 통찰력을 제공합니다.

  2. 가입하지 않은 것: 간접 프롬프트 인젝션으로 실제 LLM 통합 애플리케이션을 손상시키기 (Greshake et al., 2023) 이 논문은 실제 애플리케이션 통합 LLM을 손상시키기 위한 간접 프롬프트 인젝션 기술을 탐구하여 잠재적인 보안 위험을 강조합니다.

  3. 가상 프롬프트 인젝션을 통한 지시 조정된 대형 언어 모델의 뒷문 삽입 (Li et al., 2023) 저자들은 가상 프롬프트 인젝션을 사용하여 지시 조정된 LLM에 뒷문 삽입 기술을 조사하며, 이러한 모델에서 새로운 취약성을 드러낼 가능성이 있습니다.

퍼징

  1. GPTFUZZER: 자동 생성된 탈옥 프롬프트를 사용한 대형 언어 모델 레드팀 평가 (Jiang et al., 2023) GPTFuzz는 인간이 작성한 템플릿을 초기 시드로 사용하고, 이를 돌연변이하여 새로운 템플릿을 생성하는 자동화된 프레임워크입니다. 이 논문은 시드 선택 전략, 돌연변이 연산자, 탈옥 공격 성공을 평가하는 판단 모델이라는 세 가지 주요 구성 요소를 자세히 설명합니다.

  2. FuzzLLM: 대형 언어 모델에서 탈옥 취약성을 적극적으로 발견하는 새로운 범용 퍼징 프레임워크 (He et al., 2023) FuzzLLM은 LLM에서 탈옥 취약성을 적극적으로 테스트하고 발견하기 위해 설계된 자동화 퍼징 프레임워크입니다. 이 프레임워크는 프롬프트의 구조적 완전성을 포착하고 탈옥 클래스의 주요 특징을 제약으로 분리하기 위해 템플릿을 사용합니다.

역할 놀이

  1. Quack: 역할 놀이를 통한 대형 언어 모델 자동 탈옥 (Qiu et al., 2023) Quack은 LLM의 역할 놀이를 기반으로 한 자동화된 테스트 프레임워크입니다. 테스트 지침을 질문 프롬프트로 번역하고, 성공적인 탈옥을 체계적으로 분석하며, 지식 그래프를 사용하여 기존 탈옥을 재구성하고 유지합니다. 프레임워크는 LLM에 네 가지 별개의 역할을 할당하여 탈옥을 조직, 평가 및 업데이트합니다.

  2. 페르소나 변조를 통한 대규모 대형 언어 모델 탈옥 (Xu et al., 2023) 이 연구는 목표 모델이 유해한 지침을 따를 가능성이 더 높은 인격을 갖도록 조종하는 블랙 박스 탈옥 기술인 페르소나 변조를 조사합니다. 저자들은 이 접근 방식이 자동화되어 대규모로 취약점을 악용할 수 있음을 입증합니다.

  3. 대형 언어 모델과의 역할 놀이 (Nori et al., 2023) 이 연구는 역할 놀이가 LLM을 탈옥하는 데 어떻게 사용될 수 있는지 탐구하여 이러한 모델의 새로운 공격 벡터나 취약점을 드러낼 가능성이 있습니다.

경험적 연구

  1. "지금 당장 뭐든지 해라": 대형 언어 모델에서의 실제 탈옥 프롬프트 특성화 및 평가 (Sun et al., 2023) 이 논문은 6개월 동안 네 개의 플랫폼에서 수집한 6,387개의 프롬프트를 분석한 최초의 측정 연구를 제시합니다. 저자들은 자연어 처리 및 그래프 기반 커뮤니티 감지 방법을 사용하여 탈옥 프롬프트의 고유한 특성과 주요 공격 전략을 발견합니다.

  2. LLM을 불순종으로 유도하기: 탈옥 이해, 분석 및 방지 (Greshake et al., 2023) 저자들은 알려진(및 잠재적) 탈옥의 공식화 및 분류법을 제안하며, LLM 취약성의 전반적인 개요를 제공합니다.

  3. 프롬프트 엔지니어링을 통한 ChatGPT 탈옥: 경험적 연구 (Kong et al., 2023) 이 설문 조사 연구는 프롬프트 엔지니어링을 통해 현재 LLM 규정을 우회하는 방법을 탐구하여 기존의 안전 메커니즘에서 잠재적인 취약점을 제공합니다.

  4. 적대적 공격으로 드러난 대형 언어 모델의 취약성 조사 (Ding et al., 2023) 이 논문은 다양한 적대적 공격을 통해 드러난 LLM의 취약성에 대한 종합적인 조사를 제공하여 현재 LLM 보안 상태에 대한 폭넓은 시각을 제시합니다.

LLM 기반 공격

  1. 마스터키: 여러 대형 언어 모델 챗봇에 대한 자동 탈옥 (Li et al., 2023) 이 연구는 다른 LLM의 콘텐츠 감지 방법을 식별한 다음, 미세 조정된 LLM 챗봇을 사용하여 이를 우회하는 방법을 탐구하여 여러 LLM 플랫폼에 걸친 보편적인 취약성을 드러낼 가능성이 있습니다.

프롬프트 엔지니어링

  1. 답하지 마세요: LLM의 안전 장치를 평가하기 위한 데이터셋 (Stein et al., 2023) 구체적인 세부 사항은 제공되지 않았지만, 이 논문은 다양한 유형의 악의적이거나 부적절한 쿼리에 대한 LLM의 안전 장치 효과를 평가하기 위한 데이터셋을 소개할 가능성이 있습니다.

  2. AutoDAN: 대형 언어 모델에 대한 자동 및 해석 가능한 적대적 공격 (Chen et al., 2023) AutoDAN은 높은 공격 성공률을 유지하면서도 당황스러운 필터를 우회하는 공격 프롬프트를 자동으로 생성합니다. 이러한 프롬프트는 해석 가능하고 다양하며, 일반적으로 수동 탈옥 공격에서 사용되는 전략을 보여줍니다.

  3. Jailbreak 공격 방어를 위한 ChatGPT 자체 상기 (Zhang et al., 2023) 이 논문은 Jailbreak 데이터셋을 소개하고 System-Mode Self-Reminder라는 방어 기술을 제안합니다. 이 접근 방식은 ChatGPT가 책임감 있게 응답하도록 상기시키는 시스템 프롬프트 내에 사용자의 쿼리를 캡슐화합니다.

  4. Shield and Spear: 생성 프롬팅을 통해 정렬된 LLM의 탈옥 (Vaidhya et al., 2023) 이 연구는 LLM을 사용하여 침해 질문의 콘텐츠 기반으로 관련된 악의적인 설정을 생성하는 새로운 자동 탈옥 접근 방식을 소개합니다. 그런 다음 이 설정은 질문과 통합되어 LLM 탈옥 응답을 트리거합니다.

  5. 자기 기만: 대형 언어 모델의 의미 방화벽을 우회하는 반전 (Wang et al., 2023) 저자들은 의미 방화벽 개념을 제안하고, LLM이 탈옥을 촉진하는 프롬프트를 생성하도록 유도하는 "자기 기만" 공격을 소개합니다.

  6. 열려라 참깨! 대형 언어 모델의 범용 블랙 박스 탈옥 (Qi et al., 2023) 이 논문은 모델 아키텍처와 매개변수에 접근할 수 없는 상황에서 LLM을 조작하기 위해 유전 알고리즘을 사용하는 새로운 접근 방식을 도입합니다. 공격은 사용자의 쿼리와 결합한 범용 적대적 프롬프트를 최적화하여 공격된 모델의 정렬을 방해합니다.

  7. 20개의 쿼리로 블랙 박스 대형 언어 모델 탈옥 (Zou et al., 2023) 저자들은 블랙 박스 접근만으로 의미적 탈옥을 생성하는 알고리즘인 프롬프트 자동 반복 정제(PAIR)를 제안합니다. 사회 공학 공격에서 영감을 얻은 PAIR는 인간의 개입 없이 별도의 대상 LLM에 대해 자동으로 탈옥을 생성하는 공격 LLM을 사용합니다.

  8. AutoDAN: 정렬된 대형 언어 모델에서 은밀한 탈옥 프롬프트 생성 (Chen et al., 2023) AutoDAN은 신중하게 설계된 계층적 유전 알고리즘을 사용하여 은밀한 탈옥 프롬프트를 자동 생성할 수 있으며, 정렬된 LLM에서 새로운 취약성을 드러낼 가능성이 있습니다.

시각적 적대적 예제

  1. 시각적 적대적 예제를 사용한 대형 언어 모델의 도구 오용 (Geiping et al., 2023) 이 연구는 그라디언트 기반 적대적 훈련을 사용하여 시각적 적대적 예제 공격을 구축하고 여러 차원에서 성능을 특성화하여 시각적 기능을 가진 LLM에 대한 새로운 공격 벡터를 탐구합니다.

  2. 시각적 적대적 예제로 정렬된 대형 언어 모델 탈옥 (Cheng et al., 2023) 저자들은 시각적 적대적 예제를 사용하여 현재 방어 메커니즘을 우회하고 LLM을 탈옥하여 다중 모드 언어 모델의 취약성을 입증합니다.

  3. 조각난 탈옥: 다중 모드 언어 모델에 대한 합성 적대적 공격 (Xue et al., 2023) 이 논문은 비전 인코더를 통과하는 적대적 이미지를 텍스트 프롬프트와 결합하여 언어 모델의 정렬을 무너뜨리는 교차 방식 공격을 개발합니다.

  4. 이미지 하이잭: 적대적 이미지는 런타임에 생성 모델을 제어할 수 있습니다 (Ravfogel et al., 2023) 저자들은 생성 모델을 런타임에 제어하는 이미지 하이잭을 생성하기 위한 일반적인 방법인 행동 일치를 소개합니다. 그들은 세 가지 유형의 공격을 탐구합니다: 특정 문자열 공격, 컨텍스트 누출 공격 및 탈옥 공격.

  5. 다중 모드 LLM에서 간접 지시 인젝션을 위한 이미지 및 소리 남용 (Greshake et al., 2023) 이 연구는 이미지 및 소리가 다중 모드 LLM에서 간접 지시 인젝션에 사용될 수 있는 방법을 탐구하여 이러한 고급 모델에서 새로운 공격 벡터를 드러낼 가능성이 있습니다.

백도어

  1. 오염된 인간 피드백에서의 범용 탈옥 백도어 (Ji et al., 2023) 이 논문은 공격자가 RLHF(Reinforcement Learning from Human Feedback) 데이터를 오염시켜 모델에 백도어로 탈옥 트리거를 삽입하는 새로운 위협을 고려하여 모델의 안전 정렬을 위협할 가능성을 제시합니다.

  2. 프롬프트를 백도어 공격 트리거로 사용: 언어 모델의 취약성 검토 (Fang et al., 2023) 저자들은 프롬프트가 언어 모델에서 백도어 공격의 트리거로 사용될 수 있는 방법을 검토하여 프롬프트 기반 상호작용 패러다임의 잠재적 취약성을 드러냅니다.

다국어

  1. 대형 언어 모델의 다중 언어 탈옥 과제 (Faisal et al., 2023) 이 연구는 LLM에서 다중 언어 탈옥 과제의 존재를 밝히고, 의도치 않은 시나리오와 의도적인 시나리오를 고려하여 LLM 개발에서 다중 언어의 안전 고려 필요성을 강조합니다.

  2. 저자원 언어로 GPT-4 탈옥 (Wang et al., 2023) 저자들은 안전 훈련 데이터의 언어적 불평등으로 인해 발생하는 LLM 안전 메커니즘의 본질적인 다국어 취약성을 드러냅니다. 그들은 저자원 언어로 비안전한 영어 입력을 번역하여 GPT-4의