Skip to content

Avanços Recentes na Pesquisa sobre Jailbreak em LLM

Updated on

Modelos de Linguagem de Grande Porte (LLMs) revolucionaram o processamento de linguagem natural, mas também apresentam desafios significativos de segurança. Este artigo oferece uma visão abrangente sobre as pesquisas recentes em jailbreaks de LLM, focando em diversos aspectos, incluindo mecanismos de defesa, benchmarking, injeção de prompts, fuzzing, e mais.

Mecanismos de Defesa

  1. Otimização Automática de Prompts com "Gradient Descent" e Busca em Largura (Zheng et al., 2023) Este artigo propõe a Otimização Automática de Prompts (APO), uma solução não paramétrica inspirada no gradiente numérico descendente. O APO visa melhorar automaticamente os prompts para defender contra tentativas de jailbreak, assumindo acesso a dados de treinamento e uma API de LLM.

  2. Jailbreaker na Prisão: Defesa com Alvo Móvel para Modelos de Linguagem de Grande Porte (Zhang et al., 2023) Os autores projetam um sistema LLM com defesa de alvo móvel (MTD) aprimorado. Este sistema entrega respostas não tóxicas alinhadas com saídas de vários candidatos a modelos, aumentando a robustez contra ataques adversariais. Inclui um modelo de análise de consultas e saídas para filtrar respostas inseguras ou não responsivas.

  3. Jailbreak e Alinhamento de Modelos de Linguagem com Poucas Demonstrações no Contexto (Li et al., 2023) Esta pesquisa apresenta os métodos de Ataque no Contexto (ICA) e Defesa no Contexto (ICD). ICA elabora contextos maliciosos para guiar os modelos na geração de saídas nocivas, enquanto o ICD aprimora a robustez do modelo demonstrando como rejeitar prompts prejudiciais.

  4. Auto-Guarda: Capacite o LLM para Proteger-se (Zhu et al., 2023) Auto-Guarda é uma abordagem inovadora em duas etapas que combina as forças de vários métodos de segurança. A primeira etapa melhora a capacidade do modelo de avaliar conteúdo prejudicial, enquanto a segunda etapa instrui o modelo a realizar consistentemente a detecção de conteúdo prejudicial em suas próprias respostas.

  5. Defendendo Contra Ataques de Quebra de Alinhamento com LLMs Robustamente Alinhados (Zhong et al., 2023) Este artigo introduz um LLM Robustamente Alinhado (RA-LLM) para defender contra possíveis ataques de quebra de alinhamento. O RA-LLM pode ser construído sobre um LLM alinhado existente com uma função robusta de verificação de alinhamento, sem necessidade de re-treinamento ou ajuste fino caro.

  6. SmoothLLM: Defendendo Modelos de Linguagem de Grande Porte Contra Ataques de Jailbreak (Zhao et al., 2023) SmoothLLM é o primeiro algoritmo projetado para mitigar ataques de jailbreak em LLMs. Com base na descoberta de que prompts gerados adversarialmente são frágeis a alterações no nível de caracteres, esta defesa perturba aleatoriamente várias cópias de um prompt de entrada dado e agrega as previsões correspondentes para detectar entradas adversariais.

  7. Defesas Básicas para Ataques Adversariais Contra Modelos de Linguagem Alinhados (Ziegler et al., 2023) Este artigo provavelmente explora estratégias de defesa fundamentais contra ataques adversariais em modelos de linguagem alinhados, embora detalhes específicos não sejam fornecidos no contexto dado.

Benchmarking

  1. Red-Teaming para Modelos de Linguagem de Grande Porte Usando Cadeia de Enunciados para Alinhamento de Segurança (Deshpande et al., 2023) Os autores propõem um novo benchmark de avaliação de segurança chamado RED-EVAL que realiza red-teaming. Demonstram que até mesmo modelos amplamente implantados são suscetíveis a prompts baseados na Cadeia de Enunciados (CoU), potencialmente quebrando sistemas de LLM de código fechado.

  2. Latent Jailbreak: Um Benchmark para Avaliar a Segurança do Texto e a Robustez das Saídas dos Modelos de Linguagem de Grande Porte (Liu et al., 2023) Este artigo introduz um benchmark que avalia tanto a segurança quanto a robustez dos LLMs, enfatizando a necessidade de uma abordagem equilibrada na avaliação.

  3. Segurança de Plataforma de LLM: Aplicando uma Estrutura de Avaliação Sistemática aos Plugins ChatGPT da OpenAI (Greshake et al., 2023) Embora detalhes específicos não sejam fornecidos, este artigo provavelmente apresenta uma estrutura sistemática para avaliar a segurança das plataformas de LLM, usando os plugins ChatGPT da OpenAI como estudo de caso.

Injeção de Prompts

  1. Ataque de Injeção de Prompts contra Aplicações Integradas com LLM (Guo et al., 2023) Esta pesquisa desconstrói as complexidades e implicações dos ataques de injeção de prompts em aplicações reais integradas com LLM, fornecendo insights sobre possíveis vulnerabilidades.

  2. Não é o que você se inscreveu: Comprometendo Aplicações Reais Integradas com LLM com Injeção de Prompt Indireta (Greshake et al., 2023) Este artigo explora técnicas de injeção de prompt indireta para comprometer aplicações reais que integram LLMs, destacando potenciais riscos de segurança.

  3. Injeção de Prompt Virtual para Implantar Backdoors em Modelos de Linguagem de Grande Porte com Ajuste de Instruções (Li et al., 2023) Os autores investigam técnicas para implantar backdoors em LLMs ajustados por instrução usando injeção de prompt virtual, potencialmente revelando novas vulnerabilidades nesses modelos.

Fuzzing

  1. GPTFUZZER: Red-Teaming para Modelos de Linguagem de Grande Porte com Prompts de Jailbreak Gerados Automaticamente (Jiang et al., 2023) GPTFuzz é uma estrutura automatizada que começa com templates escritos por humanos como sementes iniciais, depois os muta para produzir novos templates. O artigo detalha três componentes principais: uma estratégia de seleção de sementes, operadores de mutação e um modelo de julgamento para avaliar o sucesso dos ataques de jailbreak.

  2. FuzzLLM: Uma Nova e Universal Estrutura de Fuzzing para Descobrir Proativamente Vulnerabilidades de Jailbreak em LLMs (He et al., 2023) FuzzLLM é uma estrutura de fuzzing automatizada projetada para testar proativamente e descobrir vulnerabilidades de jailbreak em LLMs. Utiliza templates para capturar a integridade estrutural de prompts e isolar características-chave das classes de jailbreak como restrições.

Experiências de Papéis

  1. Quack: Jailbreaking Automático dos Modelos de Linguagem de Grande Porte via Interpretação de Papéis (Qiu et al., 2023) Quack é uma estrutura de teste automatizada baseada na interpretação de papéis dos LLMs. Ela traduz diretrizes de teste em perguntas prompts, analisa sistematicamente os jailbreaks bem-sucedidos, e usa grafos de conhecimento para reconstruir e manter os jailbreaks existentes. A estrutura atribui quatro papéis distintos aos LLMs para organizar, avaliar e atualizar os jailbreaks.

  2. Jailbreaking Modelos de Linguagem em Escala através da Modulação de Persona (Xu et al., 2023) Esta pesquisa investiga a modulação de persona como uma técnica de jailbreak em caixa-preta que direciona o modelo alvo a adotar personalidades mais propensas a cumprir instruções prejudiciais. Os autores demonstram que essa abordagem pode ser automatizada para explorar vulnerabilidades em larga escala.

  3. Interpretação de Papéis com Modelos de Linguagem de Grande Porte (Nori et al., 2023) Este estudo explora como a interpretação de papéis pode ser usada para jailbreaks de LLMs, potencialmente revelando novos vetores de ataque ou vulnerabilidades nesses modelos.

Estudos Empíricos

  1. "Do Anything Now": Caracterizando e Avaliando Prompts de Jailbreak em LLM na Prática (Sun et al., 2023) Este artigo apresenta o primeiro estudo de medição sobre prompts de jailbreak na prática, analisando 6.387 prompts coletados de quatro plataformas ao longo de seis meses. Os autores utilizam métodos de processamento de linguagem natural e detecção baseada em grafos para descobrir características únicas dos prompts de jailbreak e suas principais estratégias de ataque.

  2. Enganando LLMs para Desobediência: Compreensão, Análise e Prevenção de Jailbreaks (Greshake et al., 2023) Os autores propõem uma formalização e taxonomia dos jailbreaks conhecidos (e possíveis), fornecendo uma visão abrangente do panorama das vulnerabilidades dos LLMs.

  3. Jailbreaking ChatGPT através de Engenharia de Prompts: Um Estudo Empírico (Kong et al., 2023) Este estudo de levantamento explora métodos para contornar as regulamentações atuais de LLMs por meio de engenharia de prompts, oferecendo insights sobre potenciais vulnerabilidades nos mecanismos de segurança existentes.

  4. Levantamento de Vulnerabilidades em Modelos de Linguagem de Grande Porte Reveladas por Ataques Adversariais (Ding et al., 2023) Este artigo fornece uma visão abrangente das vulnerabilidades em LLMs que foram expostas por meio de diversos ataques adversariais, oferecendo uma perspectiva ampla sobre o estado atual da segurança dos LLMs.

Ataques Baseados em LLM

  1. MasterKey: Jailbreak Automático Através de Múltiplos Chatbots de Modelos de Linguagem de Grande Porte (Li et al., 2023) Este estudo explora como identificar diferentes métodos de detecção de conteúdo dos LLMs e depois contorná-los usando um ChatBot LLM afinado, potencialmente revelando vulnerabilidades universais em várias plataformas de LLM.

Engenharia de Prompts

  1. Do-Not-Answer: Um Conjunto de Dados para Avaliar Salvaguardas em LLMs (Stein et al., 2023) Embora detalhes específicos não sejam fornecidos, este artigo provavelmente introduz um conjunto de dados projetado para avaliar a eficácia das salvaguardas implementadas em LLMs contra vários tipos de consultas maliciosas ou inadequadas.

  2. AutoDAN: Ataques Adversariais Automáticos e Interpretáveis em Modelos de Linguagem de Grande Porte (Chen et al., 2023) AutoDAN gera automaticamente prompts de ataque que contornam filtros baseados em perplexidade enquanto mantêm uma alta taxa de sucesso no ataque. Esses prompts são interpretáveis e diversos, exibindo estratégias comumente usadas em ataques de jailbreak manuais.

  3. Defendendo ChatGPT contra Ataques de Jailbreak por Meio de Auto-Lembrete (Zhang et al., 2023) Este artigo introduz um conjunto de dados de Jailbreak e propõe uma técnica de defesa chamada Auto-Lembrete em Modo-Sistema. Esta abordagem encapsula a consulta do usuário em um prompt de sistema que lembra ChatGPT de responder responsavelmente.

  4. Escudo e Lança: Jailbreaking de LLMs Alinhados com Prompting Generativo (Vaidhya et al., 2023) Esta pesquisa introduz uma nova abordagem automatizada de jailbreak que usa LLMs para gerar configurações maliciosas relevantes com base no conteúdo de perguntas de violação. Essas configurações são então integradas às perguntas para disparar respostas de jailbreak do LLM.

  5. Auto-Engano: Penetrando Reversamente o Firewall Semântico dos Modelos de Linguagem de Grande Porte (Wang et al., 2023) Os autores propõem o conceito de um firewall semântico e introduzem um ataque de "auto-engano" que pode contornar este firewall induzindo LLMs a gerar prompts que facilitem jailbreaks.

  6. Abracadabra! Jailbreaking Universal em Caixa-Preta dos Modelos de Linguagem de Grande Porte (Qi et al., 2023) Este artigo introduz uma nova abordagem usando um algoritmo genético para manipular LLMs quando a arquitetura e os parâmetros do modelo são inacessíveis. O ataque otimiza um prompt adversarial universal que perturba o alinhamento do modelo atacado quando combinado com a consulta de um usuário.

  7. Jailbreaking de Modelos de Linguagem de Caixa-Preta em Vinte Consultas (Zou et al., 2023) Os autores propõem o Refinamento Iterativo Automático de Prompts (PAIR), um algoritmo que gera jailbreaks semânticos com apenas acesso de caixa-preta a um LLM. Inspirado por ataques de engenharia social, PAIR usa um LLM atacante para gerar automaticamente jailbreaks para um LLM alvo separado sem intervenção humana.

  8. AutoDAN: Gerando Prompts de Jailbreak Furtivos em Modelos de Linguagem de Grande Porte Alinhados (Chen et al., 2023) AutoDAN pode gerar automaticamente prompts de jailbreak furtivos usando um algoritmo genético hierárquico cuidadosamente projetado, potencialmente revelando novas vulnerabilidades em LLMs alinhados.

Exemplos Adversariais Visuais

  1. Abusando Ferramentas em Modelos de Linguagem de Grande Porte com Exemplos Adversariais Visuais (Geiping et al., 2023) Esta pesquisa constrói ataques de exemplos adversariais visuais usando treinamento adversarial baseado em gradiente e caracteriza o desempenho ao longo de múltiplas dimensões, explorando um novo vetor de ataque para LLMs com capacidades visuais.

  2. Exemplos Adversariais Visuais Quebram LLMs Alinhados (Cheng et al., 2023) Os autores usam exemplos adversariais visuais para contornar os mecanismos de defesa atuais e fazer jailbreak em LLMs, demonstrando vulnerabilidades em modelos de linguagem multimodais.

  3. Jailbreak em Pedaços: Ataques Adversariais Composicionais em Modelos de Linguagem Multimodais (Xue et al., 2023) Este artigo desenvolve ataques de cross-modalidade em alinhamento, emparelhando imagens adversariais passando pelo codificador de visão com prompts textuais para quebrar o alinhamento do modelo de linguagem.

  4. Seqüestros de Imagens: Imagens Adversariais Podem Controlar Modelos Gerativos em Tempo de Execução (Ravfogel et al., 2023) Os autores introduzem a Correspondência de Comportamento, um método geral para criar seqüestros de imagem que controlam modelos gerativos em tempo de execução. Eles exploram três tipos de ataques: ataques de string específicos, ataques de vazamento de contexto e ataques de jailbreak.

  5. Abusando Imagens e Sons para Injeção Indireta de Instruções em LLMs Multimodais (Greshake et al., 2023) Esta pesquisa explora como imagens e sons podem ser usados para injeção indireta de instruções em LLMs multimodais, potencialmente revelando novos vetores de ataque nesses modelos avançados.

Backdoor

  1. Backdoors Universais de Jailbreak a partir de Feedback Humano Envenenado (Ji et al., 2023) Este artigo considera uma nova ameaça em que um atacante envenena os dados de RLHF (Reinforcement Learning from Human Feedback) para incorporar um gatilho de jailbreak no modelo como um backdoor, potencialmente comprometendo o alinhamento de segurança do modelo.

  2. Prompts como Gatilhos para Ataques de Backdoor: Examinando a Vulnerabilidade em Modelos de Linguagem (Fang et al., 2023) Os autores examinam como prompts podem ser usados como gatilhos para ataques de backdoor em modelos de linguagem, revelando potenciais vulnerabilidades no paradigma de interação baseado em prompts.

Cross-lingual

  1. Desafios de Jailbreak Multilingue em Modelos de Linguagem de Grande Porte (Faisal et al., 2023) Esta pesquisa revela a presença de desafios de jailbreak multilingues dentro dos LLMs e considera dois cenários de risco: não intencional e intencional, destacando a necessidade de considerações de segurança multilingue no desenvolvimento de LLMs.

  2. Linguagens de Baixo Recurso Fazem Jailbreak no GPT-4 (Wang et al., 2023) Os autores expõem a vulnerabilidade cross-lingual inerente dos mecanismos de segurança dos LLMs, resultante da desigualdade linguística dos dados de treinamento de segurança. Eles contornam com sucesso as salvaguardas do GPT-4 traduzindo entradas inseguras em inglês para linguagens de baixo recurso.

Outras Abordagens

  1. Jailbroken: Como o Treinamento de Segurança de LLMs Falha? (Zhou et al., 2023) Este estudo visa entender como os modos de falha afetam a geração de vulnerabilidades de jailbreak. Os autores usam esses modos de falha para guiar o design de jailbreak e avaliar modelos de ponta, incluindo o GPT-4 da OpenAI e o Claude v1.3 da Anthropic, contra ataques existentes e recém-desenhados.

  2. Ataques de Privacidade Multi-steps em ChatGPT (Peng et al., 2023) Os autores estudam ameaças à privacidade a partir do ChatGPT da OpenAI e do Novo Bing aprimorado pelo ChatGPT, mostrando que LLMs integrados em aplicações podem causar novas ameaças à privacidade através de ataques de jailbreak multi-steps.

  3. Ataques e Defesas de Injeção de Prompts em Aplicações Integradas com LLM (Shen et al., 2023) Este artigo propõe uma estrutura geral para formalizar ataques de injeção de prompts, fornecendo uma abordagem sistemática para entender e mitigar essas vulnerabilidades em aplicações integradas com LLM.

  4. Por Que Tão Tóxico?: Medindo e Desencadeando Comportamentos Tóxicos em Chatbots de Domínio Aberto (Baheti et al., 2022) Os autores propõem um ataque chamado ToxicBuddy, que se base