Uma técnica simples para defender o ChatGPT contra ataques de jailbreak

Exemplo de um ataque de jailbreak e auto-lembrete de modo de sistema proposto pela equipe. Crédito: Inteligência da Máquina da Natureza (2023). DOI: 10.1038/s42256-023-00765-8.

Grandes modelos de linguagem (LLMs), modelos baseados em aprendizagem profunda treinados para gerar, resumir, traduzir e processar textos escritos, ganharam atenção significativa após o lançamento da plataforma conversacional ChatGPT da Open AI. Embora o ChatGPT e plataformas semelhantes sejam agora amplamente utilizados para uma vasta gama de aplicações, podem ser vulneráveis ​​a um tipo específico de ataque cibernético que produz respostas tendenciosas, não fiáveis ​​ou mesmo ofensivas.

Pesquisadores da Universidade de Ciência e Tecnologia de Hong Kong, da Universidade de Ciência e Tecnologia da China, da Universidade de Tsinghua e da Microsoft Research Asia realizaram recentemente um estudo investigando o impacto potencial desses ataques e técnicas que poderiam proteger os modelos contra eles. Deles papelpublicado em Inteligência da Máquina da Naturezaapresenta uma nova técnica inspirada na psicologia que pode ajudar a proteger o ChatGPT e plataformas de conversação semelhantes baseadas em LLM contra ataques cibernéticos.

“ChatGPT é uma ferramenta de inteligência artificial de impacto social com milhões de usuários e integração em produtos como o Bing”, escrevem Yueqi Xie, Jingwei Yi e seus colegas em seu artigo. “No entanto, o surgimento ataques ameaça notavelmente seu uso responsável e seguro. Os ataques de jailbreak usam avisos adversários para contornar as salvaguardas éticas do ChatGPT e gerar respostas prejudiciais.”

O objetivo principal do trabalho recente de Xie, Yi e seus colegas foi destacar o impacto que os ataques de jailbreak podem ter no ChatGPT e introduzir estratégias de defesa viáveis ​​contra esses ataques. Os ataques de jailbreak exploram essencialmente as vulnerabilidades dos LLMs para contornar as restrições definidas pelos desenvolvedores e obter respostas de modelo que normalmente seriam restritas.

“Este artigo investiga os problemas graves, mas pouco explorados, criados pelos jailbreaks, bem como possíveis técnicas defensivas”, explicam Xie, Yi e seus colegas em seu artigo. “Introduzimos um conjunto de dados de jailbreak com vários tipos de prompts de jailbreak e instruções maliciosas.”

Os pesquisadores primeiro compilaram um conjunto de dados incluindo 580 exemplos de prompts de jailbreak projetados para contornar restrições que impedem o ChatGPT de fornecer respostas consideradas “imorais”. Isto inclui textos não confiáveis ​​que podem alimentar desinformação, bem como conteúdo tóxico ou abusivo.

Quando testaram o ChatGPT nesses prompts de jailbreak, descobriram que muitas vezes ele caía em sua “armadilha”, produzindo o conteúdo malicioso e antiético solicitado. Xie, Yi e seus colegas decidiram então desenvolver uma técnica simples, mas eficaz, que pudesse proteger o ChatGPT contra ataques de jailbreak cuidadosamente adaptados.

A técnica que criaram inspira-se no conceito psicológico de auto-lembretes, cutucadas que podem ajudar as pessoas a lembrarem-se de tarefas que precisam de completar, de eventos aos quais deveriam participar, e assim por diante. A abordagem de defesa dos pesquisadores, chamada de auto-lembrete no modo de sistema, é projetada de forma semelhante para lembrar ao Chat-GPT que as respostas que ele fornece devem seguir diretrizes específicas.

“Essa técnica encapsula a consulta do usuário em um prompt do sistema que lembra o ChatGPT de responder com responsabilidade”, escrevem os pesquisadores. “Resultados experimentais demonstram que os auto-lembretes reduzem significativamente a taxa de sucesso de ataques de jailbreak contra ChatGPT de 67,21% para 19,34%.”

Até agora, os investigadores testaram a eficácia da sua técnica utilizando o conjunto de dados que criaram e descobriram que alcançou resultados promissores, reduzindo a taxa de sucesso dos ataques, embora não prevenindo todos eles. No futuro, esta nova técnica poderá ser melhorada ainda mais para reduzir a vulnerabilidade dos LLMs a estes ataques, ao mesmo tempo que também pode inspirar o desenvolvimento de outras estratégias de defesa semelhantes.

“Nosso trabalho documenta sistematicamente as ameaças representadas por ataques de jailbreak, apresenta e analisa um conjunto de dados para avaliar intervenções defensivas e propõe a técnica de auto-lembrete de inspiração psicológica que pode mitigar de forma eficiente e eficaz contra jailbreaks sem treinamento adicional”, resumem os pesquisadores em seu artigo.

Mais Informações: Yueqi Xie et al, Defendendo ChatGPT contra ataque de jailbreak por meio de auto-lembretes, Inteligência da Máquina da Natureza (2023). DOI: 10.1038/s42256-023-00765-8.

© 2024 Science X Network

Citação: Uma técnica simples para defender o ChatGPT contra ataques de jailbreak (2024, 18 de janeiro) recuperada em 12 de maio de 2024 em https://techxplore.com/news/2024-01-simple-technique-defend-chatgpt-jailbreak.html

Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.

https://w3b.com.br/uma-tecnica-simples-para-defender-o-chatgpt-contra-ataques-de-jailbreak/?feed_id=6253&_unique_id=6660f7020a482