Skip to content

Récentes Avancées dans la Recherche sur le Jailbreak des LLM

Updated on

Les Modèles de Langage de Grande Taille (LLM) ont révolutionné le traitement du langage naturel, mais présentent également des défis de sécurité significatifs. Cet article offre un aperçu complet des recherches récentes sur les jailbreaks des LLM, en se concentrant sur divers aspects tels que les mécanismes de défense, l'évaluation comparative, l'injection de prompts, le fuzzing, et plus encore.

Mécanismes de Défense

  1. Optimisation Automatique des Prompts avec "Gradient Descent" et Recherche de Faisceau (Zheng et al., 2023) Cet article propose l'Optimisation Automatique des Prompts (APO), une solution non paramétrique inspirée par la descente de gradient numérique. L'APO vise à améliorer automatiquement les prompts pour se défendre contre les tentatives de jailbreak, en supposant un accès aux données d'entraînement et à une API LLM.

  2. Jailbreaker en Prison : Défense de Cible Mobile pour les Modèles de Langage de Grande Taille (Zhang et al., 2023) Les auteurs conçoivent un système LLM amélioré par une défense de cible mobile (MTD). Ce système délivre des réponses non-toxiques alignées avec les sorties de plusieurs modèles candidats, augmentant la robustesse contre les attaques adversariales. Il incorpore un modèle d'analyse des requêtes et des sorties pour filtrer les réponses non sécuritaires ou non réactives.

  3. Jailbreak et Garde des Modèles de Langage Alignés avec Seulement Quelques Démonstrations en Contexte (Li et al., 2023) Cette recherche introduit les méthodes d'Attaque en Contexte (ICA) et de Défense en Contexte (ICD). ICA crée des contextes malveillants pour guider les modèles à générer des sorties nuisibles, tandis que l'ICD améliore la robustesse des modèles en montrant comment rejeter les prompts nuisibles.

  4. Auto-Protection : Permettre au LLM de se Protéger Lui-même (Zhu et al., 2023) Auto-Protection est une approche novatrice en deux étapes qui combine les forces de diverses méthodes de sécurité. La première étape améliore la capacité du modèle à évaluer le contenu nuisible, tandis que la deuxième étape instruit le modèle à effectuer systématiquement la détection de contenu nuisible sur ses propres réponses.

  5. Défendre Contre les Attaques de Ruptures d'Alignement via un LLM Robustement Aligné (Zhong et al., 2023) Cet article introduit un LLM Robustement Aligné (RA-LLM) pour se défendre contre les potentiels attaques de rupture d'alignement. Le RA-LLM peut être construit sur un LLM aligné existant avec une fonction de vérification d'alignement robuste, sans nécessiter de ré-entraînement ou d'affinage coûteux.

  6. SmoothLLM : Défendre les Modèles de Langage de Grande Taille Contre les Attaques de Jailbreaking (Zhao et al., 2023) SmoothLLM est le premier algorithme conçu pour atténuer les attaques de jailbreak sur les LLM. Basé sur la découverte que les prompts générés de manière adversariale sont fragiles aux changements au niveau des caractères, cette défense perturbe aléatoirement plusieurs copies d'un prompt d'entrée donné et agrège les prédictions correspondantes pour détecter les entrées adversariales.

  7. Défenses de Base Contre les Attaques Adversariales sur les Modèles de Langage Alignés (Ziegler et al., 2023) Cet article explore probablement des stratégies de défense fondamentale contre les attaques adversariales sur les modèles de langage alignés, bien que les détails spécifiques ne soient pas fournis dans le contexte donné.

Évaluation Comparative

  1. Équipe Rouge des Modèles de Langage de Grande Taille en Utilisant une Chaîne d'Énoncés pour l'Alignement de la Sécurité (Deshpande et al., 2023) Les auteurs proposent un nouveau benchmark d'évaluation de la sécurité appelé RED-EVAL qui effectue des équipes rouges. Ils démontrent que même les modèles largement déployés sont susceptibles à une Chaîne d'Énoncés (CoU), pouvant jailbreak des systèmes LLM fermés.

  2. Jailbreak Latent : Un Benchmark pour Évaluer la Sécurité du Texte et la Robustesse des Sorties des Modèles de Langage de Grande Taille (Liu et al., 2023) Cet article introduit un benchmark qui évalue à la fois la sécurité et la robustesse des LLM, soulignant la nécessité d'une approche équilibrée dans l'évaluation.

  3. Sécurité de la Plateforme LLM : Appliquer un Cadre d’Évaluation Systématique aux Plugins ChatGPT d'OpenAI (Greshake et al., 2023) Bien que les détails spécifiques ne soient pas fournis, cet article présente probablement un cadre systématique pour évaluer la sécurité des plateformes LLM, en utilisant les plugins ChatGPT d'OpenAI comme étude de cas.

Injection de Prompts

  1. Attaque d'Injection de Prompts Contre les Applications Intégrant des LLM (Guo et al., 2023) Cette recherche déconstruit les complexités et implications des attaques d'injection de prompts sur les applications réelles intégrant des LLM, fournissant des insights sur les vulnérabilités potentielles.

  2. Pas ce à quoi vous avez souscrit : Compromettre les Applications Réelles Intégrant des LLM avec une Injection Indirecte de Prompts (Greshake et al., 2023) Cet article explore des techniques d'injection indirecte de prompts pour compromettre les applications réelles intégrant des LLM, mettant en lumière les risques de sécurité potentiels.

  3. Introduire des Backdoors dans des Modèles de Langage de Grande Taille Accordés aux Instructions avec une Injection de Prompts Virtuels (Li et al., 2023) Les auteurs enquêtent sur les techniques permettant d'introduire des backdoors dans des LLM accordés aux instructions en utilisant l'injection de prompts virtuels, potentiellement révélant de nouvelles vulnérabilités dans ces modèles.

Fuzzing

  1. GPTFUZZER : Équipe Rouge des Modèles de Langage de Grande Taille avec des Prompts de Jailbreak Auto-Genérés (Jiang et al., 2023) GPTFuzz est un cadre automatisé qui commence avec des modèles écrits par des humains comme graines initiales, puis les mute pour produire de nouveaux modèles. L'article détaille trois composants clés : une stratégie de sélection de graines, des opérateurs de mutation, et un modèle de jugement pour évaluer le succès des attaques de jailbreak.

  2. FuzzLLM : Un Nouveau Cadre de Fuzzing Universel pour Découvrir Proactivement les Vulnérabilités de Jailbreak dans les Modèles de Langage de Grande Taille (He et al., 2023) FuzzLLM est un cadre de fuzzing automatisé conçu pour tester et découvrir proactivement les vulnérabilités de jailbreak dans les LLM. Il utilise des modèles pour capturer l'intégrité structurelle des prompts et isoler les caractéristiques clés des classes de jailbreak comme contraintes.

Jeu de Rôle

  1. Quack : Automatisation du Jailbreaking des Modèles de Langage de Grande Taille par le Jeu de Rôle (Qiu et al., 2023) Quack est un cadre de test automatisé basé sur le jeu de rôle des LLM. Il traduit les directives de test en prompts de question, analyse systématiquement les jailbreaks réussis, et utilise des graphes de connaissances pour reconstruire et maintenir les jailbreaks existants. Le cadre assigne quatre rôles distincts aux LLM pour organiser, évaluer, et mettre à jour les jailbreaks.

  2. Jailbreaking des Modèles de Langage à Grande Échelle via Modulation de Personnalité (Xu et al., 2023) Cette recherche se penche sur la modulation de personnalité comme technique de jailbreak en boîte noire qui dirige le modèle cible à adopter des personnalités plus susceptibles de se conformer aux instructions nuisibles. Les auteurs démontrent que cette approche peut être automatisée pour exploiter les vulnérabilités à grande échelle.

  3. Jeu de Rôle avec des Modèles de Langage de Grande Taille (Nori et al., 2023) Cette étude explore comment le jeu de rôle peut être utilisé pour jailbreak des LLM, révélant potentiellement de nouveaux vecteurs d'attaque ou vulnérabilités dans ces modèles.

Études Empiriques

  1. "Faire Tout Maintenant" : Caractériser et Évaluer les Prompts de Jailbreak à l'État Sauvage sur les Modèles de Langage de Grande Taille (Sun et al., 2023) Cet article présente la première étude de mesure sur les prompts de jailbreak dans la nature, analysant 6,387 prompts collectés sur quatre plateformes pendant six mois. Les auteurs utilisent des méthodes de traitement du langage naturel et de détection de communauté basée sur des graphes pour découvrir des caractéristiques uniques des prompts de jailbreak et leurs principales stratégies d'attaque.

  2. Piéger les LLM en Désobéissance : Comprendre, Analyser et Prévenir les Jailbreaks (Greshake et al., 2023) Les auteurs proposent une formalisation et une taxonomie des jailbreaks connus (et possibles), fournissant un aperçu complet du paysage des vulnérabilités des LLM.

  3. Jailbreaking de ChatGPT via l'Ingénierie de Prompts : Une Étude Empirique (Kong et al., 2023) Cette étude de sondage explore les méthodes pour contourner les réglementations actuelles des LLM via l'ingénierie de prompts, offrant des insights sur les vulnérabilités potentielles dans les mécanismes de sécurité existants.

  4. Enquête sur les Vulnérabilités dans les Modèles de Langage de Grande Taille Révélées par des Attaques Adversariales (Ding et al., 2023) Cet article fournit une enquête complète sur les vulnérabilités des LLM qui ont été exposées à travers diverses attaques adversariales, offrant une perspective large sur l'état actuel de la sécurité des LLM.

Attaques Basées sur les LLM

  1. Clé de Maître : Jailbreaking Automatisé sur Plusieurs Chatbots de Modèles de Langage de Grande Taille (Li et al., 2023) Cette étude explore comment identifier les différentes méthodes de détection de contenu des LLM et les contourner en utilisant un ChatBot LLM finement accordé, révélant potentiellement des vulnérabilités universelles à travers plusieurs plateformes LLM.

Ingénierie de Prompts

  1. Interdiction de Répondre : Un Jeu de Données pour Évaluer les Sauvegardes dans les LLM (Stein et al., 2023) Bien que les détails spécifiques ne soient pas fournis, cet article introduit probablement un jeu de données conçu pour évaluer l'efficacité des sauvegardes implémentées dans les LLM contre divers types de requêtes malveillantes ou inappropriées.

  2. AutoDAN : Attaques Adversariales Automatiques et Interprétables sur les Modèles de Langage de Grande Taille (Chen et al., 2023) AutoDAN génère automatiquement des prompts d'attaque qui contournent les filtres basés sur la perplexité tout en maintenant un taux de succès d'attaque élevé. Ces prompts sont interprétables et diversifiés, exhibant des stratégies couramment utilisées dans les attaques de jailbreak manuelles.

  3. Défendre ChatGPT contre les Attaques de Jailbreaking via l'Auto-Rappel (Zhang et al., 2023) Cet article introduit un jeu de données de Jailbreak et propose une technique de défense appelée Rappel Automatique en Mode Système. Cette approche encapsule la requête de l'utilisateur dans un prompt système rappelant à ChatGPT de répondre de manière responsable.

  4. Bouclier et Lance : Jailbreaking des LLM Alignés avec des Prompts Généraux (Vaidhya et al., 2023) Cette recherche introduit une approche de jailbreak automatisée novatrice utilisant des LLM pour générer des paramètres malveillants pertinents basés sur le contenu des questions de violation. Ces paramètres sont ensuite intégrés aux questions pour déclencher les réponses de jailbreak des LLM.

  5. Auto-Tromperie : Pénétration Inversée du Pare-Feu Sémantique des Modèles de Langage de Grande Taille (Wang et al., 2023) Les auteurs proposent le concept de pare-feu sémantique et introduisent une attaque de "tromperie automatique" qui peut contourner ce pare-feu en induisant les LLM à générer des prompts facilitant les jailbreaks.

  6. Sésame, Ouvre-toi ! Jailbreaking Universel en Boîte Noire des Modèles de Langage de Grande Taille (Qi et al., 2023) Cet article introduit une nouvelle approche utilisant un algorithme génétique pour manipuler les LLM lorsque l'architecture et les paramètres du modèle sont inaccessibles. L'attaque optimise un prompt adversarial universel qui perturbe l'alignement du modèle attaqué lorsqu'il est combiné avec une requête de l'utilisateur.

  7. Jailbreaking des Modèles de Langage en Boîte Noire en Vingt Requêtes (Zou et al., 2023) Les auteurs proposent un Raffinement Automatique Itératif des Prompts (PAIR), un algorithme qui génère des jailbreaks sémantiques avec seulement un accès en boîte noire à un LLM. Inspiré par les attaques d'ingénierie sociale, PAIR utilise un LLM attaquant pour générer automatiquement des jailbreaks pour un LLM ciblé séparé sans intervention humaine.

  8. AutoDAN : Génération de Prompts de Jailbreak Furtifs sur des Modèles de Langage de Grande Taille Alignés (Chen et al., 2023) AutoDAN peut générer automatiquement des prompts de jailbreak furtifs en utilisant un algorithme génétique hiérarchique soigneusement conçu, potentiellement révélant de nouvelles vulnérabilités dans les LLM alignés.

Exemples Adversariales Visuels

  1. Détournement d'Outils dans les Modèles de Langage de Grande Taille avec des Exemples Adversariales Visuels (Geiping et al., 2023) Cette recherche construit des attaques d'exemples adversariales visuels en utilisant un entraînement adversarial basé sur le gradient et caractérise les performances selon plusieurs dimensions, explorant un nouveau vecteur d'attaque pour les LLM ayant des capacités visuelles.

  2. Exemples Adversariales Visuels Jailbreak des Modèles de Langage Alignés (Cheng, et al., 2023) Les auteurs utilisent des exemples adversariales visuels pour contourner les mécanismes de défense actuels et jailbreaker des LLM, démontrant des vulnérabilités dans les modèles de langage multimodal.

  3. Jailbreak en Morceaux : Attaques Adversariales Compositionnelles sur les Modèles de Langage Multimodal (Xue et al., 2023) Cet article développe des attaques intermodalités sur l'alignement, associant des images adversariales traversant l'encodeur visuel avec des prompts textuels pour briser l'alignement du modèle de langage.

  4. Pirater des Images : Les Images Adversariales Peuvent Contrôler les Modèles Génératifs en Temps Réel (Ravfogel et al., 2023) Les auteurs introduisent la Mise en Correspondance de Comportement, une méthode générale pour créer des piratages d'images qui contrôlent les modèles génératifs en temps réel. Ils explorent trois types d'attaques : les attaques de chaîne spécifique, les attaques de fuite de contexte, et les attaques de jailbreak.

  5. Abuser des Images et des Sons pour des Injections Indirectes d'Instructions dans les LLM Multimodaux (Greshake et al., 2023) Cette recherche explore comment les images et les sons peuvent être utilisés pour des injections d'instructions indirectes dans les LLM multimodaux, potentiellement révélant de nouveaux vecteurs d'attaque dans ces modèles avancés.

Backdoor

  1. Backdoors Universels de Jailbreak à partir de Retours Humains Empoisonnés (Ji et al., 2023) Cet article considère une nouvelle menace où un attaquant empoisonne les données RLHF (apprentissage par renforcement à partir de retours humains) pour intégrer un déclencheur de jailbreak dans le modèle en tant que backdoor, compromettant potentiellement l'alignement de sécurité du modèle.

  2. Prompts comme Déclencheurs pour Attaque Backdoor : Examiner la Vulnérabilité dans les Modèles de Langage (Fang et al., 2023) Les auteurs examinent comment les prompts peuvent être utilisés comme déclencheurs pour les attaques backdoor dans les modèles de langage, révélant des vulnérabilités potentielles dans le paradigme d'interaction basé sur les prompts.

Cross-lingual

  1. Défis de Jailbreak Multilingues dans les Modèles de Langage de Grande Taille (Faisal et al., 2023) Cette recherche révèle la présence de défis de jailbreak multilingues au sein des LLM et considère deux scénarios de risque potentiels : non intentionnel et intentionnel, soulignant la nécessité de considérations de sécurité multilingues dans le développement des LLM.

  2. Jailbreak de GPT-4 par des Langues à Faibles Ressources (Wang et al., 2023) Les auteurs exposent la vulnérabilité cross-linguistique inhérente aux mécanismes de sécurité des LLM, résultant de l'inégalité linguistique des données de formation de sécurité. Ils parviennent à contourner les protections de GPT-4 en traduisant des entrées non sécurisées en anglais vers des langues à faibles ressources.

Autres Approches

  1. **Jailbreaké : Comment l'