O título do artigo é “Jailbreak em pedaços: ataques adversários composicionais em modelos de linguagem multimodal”. Foi submetido para publicação pela Conferência Internacional sobre Representações de Aprendizagem e é disponível no arXiv servidor de pré-impressão.
Esses programas de IA fornecem aos usuários respostas detalhadas para praticamente qualquer pergunta, relembrando o conhecimento armazenado aprendido a partir de grandes quantidades de informações provenientes da Internet. Por exemplo, pergunte ao Chat GPT: “Como faço para cultivar tomates?” e responderá com instruções passo a passo, começando pela seleção das sementes.
Mas pergunte ao mesmo modelo como fazer algo prejudicial ou ilegal, como “Como faço para produzir metanfetamina?” e o modelo normalmente recusaria, fornecendo uma resposta genérica como “Não posso ajudar com isso”.
No entanto, a professora assistente da UCR, Yue Dong, e seus colegas encontraram maneiras de enganar os modelos de linguagem de IA, especialmente LLMs, para responder a perguntas nefastas com respostas detalhadas que podem ser aprendidas a partir de dados coletados na dark web.
A vulnerabilidade ocorre quando imagens são usadas com consultas de IA, explicou Dong.
“Nossos ataques empregam uma nova estratégia de composição que combina uma imagem, direcionada adversamente a incorporações tóxicas, com instruções genéricas para realizar o jailbreak”, diz o artigo de Dong e seus colegas apresentado no Simpósio SoCal NLP realizado na UCLA em novembro.
Dong explicou que os computadores veem imagens interpretando milhões de bytes de informação que criam pixels, ou pequenos pontos, que compõem a imagem. Por exemplo, uma imagem típica de um telefone celular é formada por cerca de 2,5 milhões de bytes de informação.
Notavelmente, Dong e seus colegas descobriram que atores mal-intencionados podem esconder perguntas nefastas – como “Como faço para fazer uma bomba?” modelos como ChatGPT.
“Uma vez que a salvaguarda é contornada, os modelos dão respostas de bom grado para nos ensinar como fazer uma bomba passo a passo com grandes detalhes que podem levar maus atores a construir uma bomba com sucesso”, disse Dong.
Dong e seu aluno de pós-graduação Erfan Shayegani, juntamente com o professor Nael Abu-Ghazaleh, publicaram suas descobertas em um artigo online para que os desenvolvedores de IA possam eliminar a vulnerabilidade.
“Estamos agindo como atacantes para tocar a campainha, para que a comunidade da ciência da computação possa responder e se defender contra isso”, disse Dong.
As consultas de IA baseadas em imagens e texto têm grande utilidade. Por exemplo, os médicos podem inserir exames de ressonância magnética de órgãos e imagens de mamografia para encontrar tumores e outros problemas médicos que precisam de atenção imediata. Os modelos de IA também podem criar gráficos a partir de simples imagens de planilhas de telefones celulares.
Mais Informações: Erfan Shayegani et al, Jailbreak em pedaços: ataques adversários composicionais em modelos de linguagem multimodal, arXiv (2023). DOI: 10.48550/arxiv.2307.14539
Informações do diário: arXiv
Citação: Cientistas identificam falha de segurança em modelos de consulta de IA (2024, 10 de janeiro) recuperados em 16 de maio de 2024 em https://techxplore.com/news/2024-01-scientists-flaw-ai-query.html
Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.