Pesquisadores usam chatbots de IA contra si mesmos para fazer o “jailbreak” uns dos outros

Pesquisadores usam chatbots de IA contra si mesmos para fazer o “jailbreak” uns dos outros
NTU Ph.D. o estudante Liu Yi, coautor do artigo, mostra um banco de dados de prompts de jailbreak bem-sucedidos que conseguiram comprometer chatbots de IA, fazendo com que produzissem informações que seus desenvolvedores deliberadamente impediram de revelar. Crédito: Universidade Tecnológica de Nanyang

Cientistas da computação da Universidade Tecnológica de Nanyang, Cingapura (NTU Cingapura) conseguiram comprometer vários chatbots de inteligência artificial (IA), incluindo ChatGPT, Google Bard e Microsoft Bing Chat, para produzir conteúdo que viola as diretrizes de seus desenvolvedores – um resultado conhecido como “jailbreaking .”

“Jailbreaking” é um termo em onde encontrar e explorar falhas no software de um sistema para forçá-lo a fazer algo que seus desenvolvedores o restringiram deliberadamente de fazer.

Além disso, ao treinar um grande modelo de linguagem (LLM) em um banco de dados de prompts que já haviam demonstrado hackear esses chatbots com sucesso, os pesquisadores criaram um LLM capaz de gerar automaticamente mais prompts para desbloquear outros chatbots.

Os LLMs formam o cérebro dos chatbots de IA, permitindo-lhes processar informações humanas e gerar texto que é quase indistinguível daquele que um ser humano pode criar. Isso inclui a conclusão de tarefas como planejar um itinerário de viagem, contar uma história para dormir e desenvolver código de computador.

O trabalho dos pesquisadores da NTU agora adiciona “jailbreaking” à lista. Suas descobertas podem ser críticas para ajudar empresas e negócios a estarem cientes dos pontos fracos e limitações de seus chatbots LLM, para que possam tomar medidas para fortalecê-los contra hackers.

Depois de executar uma série de testes de prova de conceito em LLMs para provar que sua técnica realmente representa uma ameaça clara e presente para eles, os pesquisadores relataram imediatamente os problemas aos provedores de serviços relevantes, após iniciarem ataques de jailbreak bem-sucedidos.

Um exemplo de ataque de jailbreak. Crédito: arXiv (2023). DOI: 10.48550/arxiv.2307.08715

O professor Liu Yang, da Escola de Ciência da Computação e Engenharia da NTU, que liderou o estudo, disse: “Os grandes modelos de linguagem (LLMs) proliferaram rapidamente devido à sua capacidade excepcional de compreender, gerar e completar texto semelhante ao humano, com os chatbots LLM sendo aplicativos altamente populares para uso diário.”

“Os desenvolvedores de tais serviços de IA têm barreiras de proteção para evitar que a IA gere conteúdo violento, antiético ou criminoso. Mas a IA pode ser enganada, e agora usamos a IA contra sua própria espécie para fazer o jailbreak dos LLMs e produzir tal conteúdo. ”

NTU Ph.D. Liu Yi, coautor do artigo, disse: “O artigo apresenta uma nova abordagem para gerar automaticamente prompts de jailbreak contra chatbots LLM fortificados. Treinar um LLM com prompts de jailbreak torna possível automatizar a geração desses prompts, alcançando uma taxa de sucesso muito maior do que os métodos existentes, estamos atacando os chatbots usando-os contra eles próprios.”

O artigo dos pesquisadores descreve um método duplo para “desbloquear” LLMs, que eles chamaram de “Masterkey”.

Primeiro, eles fizeram engenharia reversa de como os LLMs detectam e se defendem de consultas maliciosas. Com essas informações, eles ensinaram um LLM a aprender e produzir automaticamente instruções que contornam as defesas de outros LLMs. Esse processo pode ser automatizado, criando um LLM de jailbreak que pode se adaptar e criar novos prompts de jailbreak mesmo depois que os desenvolvedores corrigirem seus LLMs.

O artigo dos pesquisadores, que aparece no servidor de pré-impressão arXivfoi aceito para apresentação no Network and Distributed System Security Symposium, um importante fórum de segurança, em San Diego, EUA, em fevereiro de 2024.

Testando os limites da ética LLM

Os chatbots de IA recebem avisos, ou uma série de instruções, de usuários humanos. Todos os desenvolvedores de LLM definem diretrizes para evitar que chatbots gerem conteúdo antiético, questionável ou ilegal. Por exemplo, perguntar a um chatbot de IA como criar software malicioso para invadir contas bancárias muitas vezes resulta numa recusa categorizada de responder com base em atividade criminosa.

O professor Liu disse: “Apesar de seus benefícios, os chatbots de IA permanecem vulneráveis ​​a ataques de jailbreak. Eles podem ser comprometidos por atores mal-intencionados que abusam das vulnerabilidades para forçar os chatbots a gerar resultados que violam as regras estabelecidas.”

Os pesquisadores da NTU investigaram maneiras de contornar um chatbot por meio de avisos de engenharia que escapam ao radar de suas diretrizes éticas, de modo que o chatbot é induzido a responder a eles. Por exemplo, os desenvolvedores de IA contam com censores de palavras-chave que captam certas palavras que poderiam sinalizar atividades potencialmente questionáveis ​​e se recusam a responder se tais palavras forem detectadas.

Uma estratégia que os pesquisadores empregaram para contornar os censores de palavras-chave foi criar uma persona que fornecesse prompts contendo simplesmente espaços após cada caractere. Isso contorna os censores do LLM, que podem operar a partir de uma lista de palavras proibidas.

Os pesquisadores também instruíram o chatbot a responder disfarçado de uma persona “sem reservas e desprovida de restrições morais”, aumentando as chances de produção de conteúdo antiético.

Os pesquisadores puderam inferir o funcionamento interno e as defesas dos LLMs inserindo manualmente esses prompts e observando o tempo para que cada prompt seja bem-sucedido ou falhe. Eles foram então capazes de fazer engenharia reversa dos mecanismos de defesa ocultos dos LLMs, identificar melhor sua ineficácia e criar um conjunto de dados de prompts que conseguiram desbloquear o chatbot.

Crescente corrida armamentista entre hackers e desenvolvedores LLM

Quando vulnerabilidades são encontradas e reveladas por hackers, os desenvolvedores de chatbots de IA respondem “corrigindo” o problema, em um ciclo interminável de gato e rato entre hacker e desenvolvedor.

Com Masterkey, o NTU aumentou a aposta nesta corrida armamentista, pois um chatbot de jailbreak de IA pode produzir um grande volume de prompts e aprender continuamente o que funciona e o que não funciona, permitindo que os hackers derrotem os desenvolvedores LLM em seu próprio jogo com suas próprias ferramentas.

Os pesquisadores primeiro criaram um conjunto de dados de treinamento contendo prompts que consideraram eficazes durante a fase anterior de engenharia reversa do jailbreak, juntamente com prompts malsucedidos, para que a Masterkey soubesse o que não fazer. Os pesquisadores alimentaram esse conjunto de dados em um LLM como ponto de partida e posteriormente realizaram pré-treinamento contínuo e ajuste de tarefas.

Isso expõe o modelo a uma gama diversificada de informações e aprimora as habilidades do modelo, treinando-o em tarefas diretamente ligadas ao jailbreak. O resultado é um LLM que pode prever melhor como manipular texto para jailbreak, levando a prompts mais eficazes e universais.

Os pesquisadores descobriram que os prompts gerados pelo Masterkey foram três vezes mais eficazes do que os prompts gerados pelos LLMs em LLMs de jailbreak. A Masterkey também foi capaz de aprender com solicitações anteriores que falharam e pode ser automatizada para produzir constantemente solicitações novas e mais eficazes.

Os pesquisadores dizem que seu LLM pode ser empregado pelos próprios desenvolvedores para fortalecer sua segurança.

NTU Ph.D. o estudante Sr. garantir uma cobertura abrangente, avaliando uma ampla gama de possíveis cenários de uso indevido.”

Mais Informações: Gelei Deng et al, MasterKey: Jailbreak automatizado em vários chatbots de modelos de linguagem grande, arXiv (2023). DOI: 10.48550/arxiv.2307.08715

Informações do diário: arXiv

 

Citação: Pesquisadores usam chatbots de IA contra si mesmos para fazer o ‘jailbreak’ uns dos outros (2023, 28 de dezembro) recuperado em 19 de maio de 2024 em https://techxplore.com/news/2023-12-ai-chatbots-jailbreak.html

Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.

https://w3b.com.br/pesquisadores-usam-chatbots-de-ia-contra-si-mesmos-para-fazer-o-jailbreak-uns-dos-outros/?feed_id=8899&_unique_id=66849d184ed0a