Les chercheurs en informatique de l’Université technologique Nanyang (NTU) de Singapour ont réussi à libérer ChatGPT et Google Bard de leurs limites pour les exploiter avec un autre chatbot.
Ils ont utilisé le même principe que le « jailbreak » d’un smartphone qui consiste à déverrouiller les sécurités et les bridages de l’IA.
Pour y parvenir et générer du contenu normalement prohibé et malveillant avec ChatGPT ou Google Bard, les chercheurs ont créé leur propre chatbot spécialisé dans le jailbreak. Ils ont nommé leur technique Masterkey. Ils ont ensuite analysé les chatbots les plus populaires pour savoir comment ils se protégeaient contre les requêtes malveillantes. Ils ont remarqué que pour limiter les réponses, les développeurs utilisaient des mots-clés ou des expressions spécifiques pour identifier si une requête était illicite. A partir de cette observation, le chatbot a pu trouver des astuces assez simples pour les déjouer.
Des astuces ingénieuses
Par exemple, pour faire passer certains mots-clés interdits, il suffisait de mettre des espaces entre chaque lettre du mot. Une autre astuce consistait à faire poser des questions par Bard et ChatGPT à un personnage imaginaire et à le faire répondre.
Masterkey ne s’arrête pas là. Comme c’est une IA, elle peut agir de façon autonome et inventer de nouvelles astuces basées sur son expérience. Si ces spécialistes ont pu démontrer les faiblesses de protection des chatbots, ce n’est pas pour créer une IA dangereuse, mais plutôt pour les aider à se renforcer contre ce genre d’attaque et de faille. Les chercheurs ont prévenu OpenAI et Google de leurs méthodes.