Avances Recientes en la Investigación de Jailbreak en LLM

Name: Akira Sakamoto

Updated on 13/9/2024

Los Modelos de Lenguaje de Gran Tamaño (LLM) han revolucionado el procesamiento del lenguaje natural, pero también presentan desafíos significativos de seguridad. Este artículo proporciona una visión general completa de la investigación reciente sobre los jailbreak en LLM, enfocándose en varios aspectos, incluidos los mecanismos de defensa, benchmarking, inyección de prompts, fuzzing, y más.

Mecanismos de Defensa

Optimización Automática de Prompts con "Descenso de Gradiente" y Búsqueda de Haz (Zheng et al., 2023) Este documento propone la Optimización Automática de Prompts (APO), una solución no paramétrica inspirada en el descenso de gradiente numérico. APO tiene como objetivo mejorar automáticamente los prompts para defenderse contra intentos de jailbreak, asumiendo el acceso a datos de entrenamiento y una API de LLM.
Jailbreaker en la Cárcel: Defensa de Objetivo Móvil para Modelos de Lenguaje de Gran Tamaño (Zhang et al., 2023) Los autores diseñan un sistema de LLM mejorado con defensa de objetivo móvil (MTD). Este sistema proporciona respuestas no tóxicas alineadas con las salidas de múltiples modelos candidatos, aumentando la robustez contra ataques adversariales. Incorpora un modelo de análisis de consulta y salida para filtrar respuestas no seguras o no responsivas.
Jailbreak y Guardia de Modelos de Lenguaje Alineados con Solo Pocas Demostraciones en Contexto (Li et al., 2023) Esta investigación presenta métodos de Ataque en Contexto (ICA) y Defensa en Contexto (ICD). ICA crea contextos maliciosos para guiar a los modelos en la generación de salidas dañinas, mientras que ICD mejora la robustez del modelo demostrando cómo rechazar prompts dañinos.
Autoguardarse: Capacitar al LLM para que se Proteja a Sí Mismo (Zhu et al., 2023) Autoguardarse es un enfoque novedoso de dos etapas que combina las fortalezas de varios métodos de seguridad. La primera etapa mejora la capacidad del modelo para evaluar contenido dañino, mientras que la segunda etapa instruye al modelo para que realice consistentemente la detección de contenido dañino en sus propias respuestas.
Defenderse Contra Ataques de Ruptura de Alineación a través de LLM Alineados Robustamente (Zhong et al., 2023) Este documento presenta un LLM Alineado Robustamente (RA-LLM) para defenderse contra posibles ataques de ruptura de alineación. RA-LLM puede construirse sobre un LLM alineado existente con una función de comprobación de alineación robusta, sin necesidad de reentrenamiento o ajuste costoso.
SmoothLLM: Defendiendo Modelos de Lenguaje de Gran Tamaño Contra Ataques de Jailbreak (Zhao et al., 2023) SmoothLLM es el primer algoritmo diseñado para mitigar ataques de jailbreak en LLMs. Basado en el descubrimiento de que los prompts generados de forma adversa son frágiles ante cambios a nivel de caracteres, esta defensa perturba aleatoriamente múltiples copias de un prompt de entrada dado y agrega las correspondientes predicciones para detectar entradas adversas.
Defensas Básicas contra Ataques Adversariales a Modelos de Lenguaje Alineados (Ziegler et al., 2023) Este documento probablemente explora estrategias de defensa fundamentales contra ataques adversariales en modelos de lenguaje alineados, aunque no se proporcionan detalles específicos en el contexto dado.

Benchmarking

Red-Teaming de Modelos de Lenguaje de Gran Tamaño utilizando Cadenas de Utterances para la Alineación de Seguridad (Deshpande et al., 2023) Los autores proponen un nuevo benchmark de evaluación de seguridad llamado RED-EVAL que lleva a cabo red-teaming. Demuestran que incluso los modelos ampliamente desplegados son susceptibles a la prompt cadena de utterances (CoU), potencialmente realizando jailbreak en sistemas LLM cerrados.
Latent Jailbreak: Un Benchmark para Evaluar la Seguridad del Texto y la Robustez de la Salida de Modelos de Lenguaje de Gran Tamaño (Liu et al., 2023) Este documento introduce un benchmark que evalúa tanto la seguridad como la robustez de los LLMs, enfatizando la necesidad de un enfoque equilibrado en la evaluación.
Seguridad de la Plataforma LLM: Aplicando un Marco de Evaluación Sistemática a los Plugins de ChatGPT de OpenAI (Greshake et al., 2023) Aunque no se proporcionan detalles específicos, este documento probablemente presenta un marco sistemático para evaluar la seguridad de las plataformas LLM, usando los plugins de ChatGPT de OpenAI como estudio de caso.

Inyección de Prompts

Ataque de Inyección de Prompts contra Aplicaciones Integradas con LLM (Guo et al., 2023) Esta investigación descompone las complejidades e implicaciones de los ataques de inyección de prompts en aplicaciones integradas con LLM, proporcionando ideas sobre posibles vulnerabilidades.
No lo que has firmado: Comprometiendo Aplicaciones del Mundo Real Integradas con LLM con Inyección Indirecta de Prompts (Greshake et al., 2023) Este documento explora técnicas de inyección indirecta de prompts para comprometer aplicaciones del mundo real que integran LLMs, destacando posibles riesgos de seguridad.
Puerta Trasera de Modelos de Lenguaje de Gran Tamaño Ajustados por Instrucciones con Inyección Virtual de Prompts (Li et al., 2023) Los autores investigan técnicas para insertar puertas traseras en LLMs ajustados por instrucciones usando inyección virtual de prompts, revelando potencialmente nuevas vulnerabilidades en estos modelos.

Fuzzing

GPTFUZZER: Red Teameando Modelos de Lenguaje de Gran Tamaño con Prompts de Jailbreak Generados Automáticamente (Jiang et al., 2023) GPTFuzz es un marco automatizado que comienza con plantillas escritas por humanos como semillas iniciales, luego las muta para producir nuevas plantillas. El documento detalla tres componentes clave: una estrategia de selección de semillas, operadores de mutación y un modelo de juicio para evaluar el éxito del ataque de jailbreak.
FuzzLLM: Un Nuevo y Universal Marco de Fuzzing para Descubrir Proactivamente Vulnerabilidades de Jailbreak en Modelos de Lenguaje de Gran Tamaño (He et al., 2023) FuzzLLM es un marco de fuzzing automatizado diseñado para probar y descubrir proactivamente vulnerabilidades de jailbreak en LLMs. Utiliza plantillas para capturar la integridad estructural de los prompts y aislar las características clave de las clases de jailbreak como restricciones.

Representación de Roles

Quack: Jailbreaking Automático de Modelos de Lenguaje de Gran Tamaño a través de la Representación de Roles (Qiu et al., 2023) Quack es un marco de prueba automatizado basado en la representación de roles de los LLMs. Traduce las guías de prueba en prompts de preguntas, analiza sistemáticamente los jailbreaks exitosos y utiliza grafos de conocimiento para reconstruir y mantener los jailbreaks existentes. El marco asigna cuatro roles distintos a los LLMs para organizar, evaluar y actualizar los jailbreaks.
Jailbreaking de Modelos de Lenguaje a Escala a través de la Modulación de Perfiles (Xu et al., 2023) Esta investigación investiga la modulación de perfiles como una técnica de jailbreak de caja negra que dirige al modelo objetivo a asumir personalidades más propensas a cumplir con instrucciones dañinas. Los autores demuestran que este enfoque puede ser automatizado para explotar vulnerabilidades a escala.
Representación de Roles con Modelos de Lenguaje de Gran Tamaño (Nori et al., 2023) Este estudio explora cómo la representación de roles puede usarse para hacer jailbreak a los LLMs, revelando potencialmente nuevos vectores de ataque o vulnerabilidades en estos modelos.

Estudios Empíricos

"Haz Cualquier Cosa Ahora": Caracterización y Evaluación de Prompts de Jailbreak en el Mundo Real en Modelos de Lenguaje de Gran Tamaño (Sun et al., 2023) Este documento presenta el primer estudio de medición sobre prompts de jailbreak en el mundo real, analizando 6,387 prompts recolectados de cuatro plataformas durante seis meses. Los autores utilizan procesamiento del lenguaje natural y métodos de detección de comunidades basados en grafos para descubrir características únicas de los prompts de jailbreak y sus principales estrategias de ataque.
Engañar a los LLMs para que Desobedezcan: Comprender, Analizar y Prevenir Jailbreaks (Greshake et al., 2023) Los autores proponen una formalización y taxonomía de jailbreaks conocidos (y posibles), proporcionando una visión completa del panorama de las vulnerabilidades de los LLM.
Haciendo Jailbreak a ChatGPT a través de Ingeniería de Prompts: Un Estudio Empírico (Kong et al., 2023) Este estudio de encuesta explora métodos para eludir las regulaciones actuales de los LLM a través de la ingeniería de prompts, ofreciendo ideas sobre posibles vulnerabilidades en los mecanismos de seguridad existentes.
Encuesta de Vulnerabilidades en Modelos de Lenguaje de Gran Tamaño Reveladas por Ataques Adversariales (Ding et al., 2023) Este documento proporciona una encuesta completa de vulnerabilidades en los LLM que han sido expuestas a través de varios ataques adversariales, ofreciendo una perspectiva amplia sobre el estado actual de la seguridad de los LLM.

Ataques Basados en LLM

Llave Maestra: Jailbreak Automático a Través de Múltiples Chatbots de Modelos de Lenguaje de Gran Tamaño (Li et al., 2023) Este estudio explora cómo identificar los métodos de detección de contenido de diferentes LLM y luego eludirlos usando un chatbot LLM afinado, revelando potencialmente vulnerabilidades universales a través de múltiples plataformas LLM.

Ingeniería de Prompts

No Responder: Un Conjunto de Datos para Evaluar Salvaguardas en LLMs (Stein et al., 2023) Aunque no se proporcionan detalles específicos, este documento probablemente introduce un conjunto de datos diseñado para evaluar la efectividad de las salvaguardas implementadas en los LLMs contra varios tipos de consultas maliciosas o inapropiadas.
AutoDAN: Ataques Adversariales Automáticos e Interpretables a Modelos de Lenguaje de Gran Tamaño (Chen et al., 2023) AutoDAN genera automáticamente prompts de ataque que eluden filtros basados en la perplejidad mientras mantienen una alta tasa de éxito en el ataque. Estos prompts son interpretables y diversos, exhibiendo estrategias comúnmente utilizadas en ataques manuales de jailbreak.
Defendiendo ChatGPT Contra Ataques de Jailbreak a través del Autorecordatorio (Zhang et al., 2023) Este documento introduce un conjunto de datos de Jailbreak y propone una técnica de defensa llamada Autorecordatorio en Modo Sistema. Este enfoque encapsula la consulta del usuario en un prompt del sistema que recuerda a ChatGPT responder de manera responsable.
Escudo y Lanza: Jailbreaking de LLM Alineados con Generadores de Prompts (Vaidhya et al., 2023) Esta investigación introduce un enfoque automatizado novedoso de jailbreak que utiliza LLMs para generar configuraciones maliciosas relevantes basadas en el contenido de preguntas de violación. Estas configuraciones se integran luego con las preguntas para desencadenar respuestas de jailbreak en los LLM.
Autoengaño: Penetrando a la Inversa el Cortafuegos Semántico de los Modelos de Lenguaje de Gran Tamaño (Wang et al., 2023) Los autores proponen el concepto de un cortafuegos semántico e introducen un ataque de "autoengaño" que puede eludir este cortafuegos induciendo a los LLM a generar prompts que faciliten los jailbreaks.
Ábrete Sésamo! Jailbreak Universal de Caja Negra para Modelos de Lenguaje de Gran Tamaño (Qi et al., 2023) Este documento introduce un enfoque novedoso que utiliza un algoritmo genético para manipular LLMs cuando la arquitectura y los parámetros del modelo son inaccesibles. El ataque optimiza un prompt adversarial universal que interrumpe la alineación del modelo atacado cuando se combina con la consulta de un usuario.
Haciendo Jailbreak a LLMs de Caja Negra en Veinte Consultas (Zou et al., 2023) Los autores proponen el Refinamiento Automático Iterativo de Prompts (PAIR), un algoritmo que genera jailbreaks semánticos con solo acceso de caja negra a un LLM. Inspirado en ataques de ingeniería social, PAIR usa un LLM atacante para generar automáticamente jailbreaks para un LLM objetivo separado sin intervención humana.
AutoDAN: Generación de Prompts de Jailbreak Sigilosos en Modelos de Lenguaje de Gran Tamaño Alineados (Chen et al., 2023) AutoDAN puede generar automáticamente prompts de jailbreak sigilosos usando un algoritmo genético jerárquico cuidadosamente diseñado, revelando potencialmente nuevas vulnerabilidades en los LLM alineados.

Ejemplos Adversariales Visuales

Mal uso de Herramientas en Modelos de Lenguaje de Gran Tamaño con Ejemplos Adversariales Visuales (Geiping et al., 2023) Esta investigación construye ataques de ejemplos adversariales visuales usando entrenamiento adversarial basado en gradientes y caracteriza el rendimiento a lo largo de múltiples dimensiones, explorando un nuevo vector de ataque para LLMs con capacidades visuales.
Ejemplos Adversariales Visuales hacen Jailbreak a Modelos de Lenguaje de Gran Tamaño Alineados (Cheng et al., 2023) Los autores usan ejemplos adversariales visuales para eludir los mecanismos de defensa actuales y hacer jailbreak a los LLMs, demostrando vulnerabilidades en modelos de lenguaje multimodales.
Jailbreak en Piezas: Ataques Adversariales Composicionales a Modelos de Lenguaje Multimodales (Xue et al., 2023) Este documento desarrolla ataques de alineación entre modalidades, emparejando imágenes adversariales que pasan por el codificador de visión con prompts textuales para romper la alineación del modelo de lenguaje.
Secuestro de Imágenes: Imágenes Adversariales pueden Controlar Modelos Generativos en Tiempo de Ejecución (Ravfogel et al., 2023) Los autores introducen Matcheo de Comportamiento, un método general para crear secuestros de imágenes que controlan modelos generativos en tiempo de ejecución. Exploran tres tipos de ataques: ataques de cadena específicos, ataques de fuga de contexto y ataques de jailbreak.
Abuso de Imágenes y Sonidos para Inyección Indirecta de Instrucciones en Modelos de Lenguaje Multimodales (Greshake et al., 2023) Esta investigación explora cómo las imágenes y los sonidos pueden ser usados para la inyección indirecta de instrucciones en los LLMs multimodales, revelando potencialmente nuevos vectores de ataque en estos modelos avanzados.

Puerta Trasera

Puertas Traseras de Jailbreak Universales a Partir de Retroalimentación Humana Envenenada (Ji et al., 2023) Este documento considera una nueva amenaza donde un atacante envenena los datos de RLHF (Reinforcement Learning from Human Feedback) para incrustar un disparador de jailbreak en el modelo como una puerta trasera, comprometiendo potencialmente la alineación de seguridad del modelo.
Prompts como Disparadores para Ataques de Puerta Trasera: Examinando la Vulnerabilidad en Modelos de Lenguaje (Fang et al., 2023) Los autores examinan cómo los prompts pueden ser usados como disparadores para ataques de puerta trasera en modelos de lenguaje, revelando potenciales vulnerabilidades en el paradigma de interacción basado en prompts.

Multilingüal

Retos Multilingües de Jailbreak en Modelos de Lenguaje de Gran Tamaño (Faisal et al., 2023) Esta investigación revela la presencia de desafíos de jailbreak multilingües dentro de los LLMs y considera dos posibles escenarios de riesgo: no intencional e intencional, destacando la necesidad de consideraciones de seguridad multilingües en el desarrollo de LLMs.
Idiomas de Bajos Recursos Hacen Jailbreak a GPT-4 (Wang et al., 2023) Los autores exponen la vulnerabilidad translingual inherente de los mecanismos de seguridad de los LLMs, resultante de la desigualdad lingüística de los datos de entrenamiento de seguridad. Eluden con éxito las salvaguardas de GPT-4 traduciendo entradas inseguras en inglés a idiomas de bajos recursos.

Otros Enfoques

Jailbroken: ¿Cómo Falla el Entrenamiento de Seguridad en los Modelos de Lenguaje de Gran Tamaño? (Zhou et al., 2023) Este estudio tiene como objetivo comprender cómo los modos de falla afectan la generación de vulnerabilidades de jailbreak. Los autores usan estos modos de falla para guiar el diseño del jailbreak y evaluar modelos de última generación, incluidos GPT-4 de OpenAI y Claude v1.3 de Anthropic, contra ataques existentes y recién diseñados.
Ataques de Privacidad Multi-fase de Jailbreaking en ChatGPT (Peng et al., 2023) Los autores estudian amenazas de privacidad de ChatGPT de OpenAI y el Nuevo Bing mejorado por ChatGPT, mostrando que los LLMs integrados en aplicaciones pueden causar nuevas amenazas de privacidad a través de ataques de jailbreaking multi-fase.
Ataques y Defensas de Inyección de Prompts en Aplicaciones Integradas con LLM (Shen et al., 2023) Este documento propone un marco general para formalizar los ataques de inyección de