Os pesquisadores descobrem que os LLMs são fáceis de manipular para fornecer informações prejudiciais

Configuração de ataques adversários para desbloquear modelos de linguagem de fala treinados para tarefas de controle de qualidade falado. O bloco listrado indica um módulo de contramedida opcional. Crédito: arXiv (2024). DOI: 10.48550/arxiv.2405.08317

Uma equipe de pesquisadores de IA do AWS AI Labs, Amazon, descobriu que a maioria, senão todos, os Large Language Models (LLMs) disponíveis publicamente podem ser facilmente induzidos a revelar informações perigosas ou antiéticas.

 

Em seu papel postado no arXiv servidor de pré-impressão, o grupo descreve como descobriu que LLMs, como o ChatGPT, podem ser induzidos a fornecer respostas que não deveriam ser permitidas por seus criadores e, em seguida, oferecer maneiras de combater o problema.

Logo depois que os LLMs se tornaram disponíveis ao público, ficou claro que muitas pessoas os usavam para fins prejudiciais, como aprender a fazer coisas ilegais, como fazer bombas, trapacear em declarações fiscais ou roubar um banco. Alguns também os utilizavam para gerar textos de ódio que eram então divulgados na Internet.

Em resposta, os fabricantes de tais sistemas começaram a adicionar regras aos seus sistemas para evitar que fornecessem respostas a questões potencialmente perigosas, ilegais ou prejudiciais. Neste novo estudo, os pesquisadores da AWS descobriram que tais salvaguardas não são fortes o suficiente, já que geralmente é bastante fácil contorná-las usando simples sinais de áudio.

O trabalho da equipe envolveu o jailbreak de vários LLMs atualmente disponíveis, adicionando áudio durante o questionamento que lhes permitiu contornar as restrições impostas pelos fabricantes dos LLMs. A equipa de investigação não lista exemplos específicos, temendo que sejam utilizados por pessoas que tentam subverter LLMs, mas revela que o seu trabalho envolveu a utilização de uma técnica que chamam de descida gradiente projetada.

Como exemplo indireto, eles descrevem como usaram afirmações simples com um , seguido pela repetição de uma consulta original. Fazer isso, observam eles, colocou o modelo em um estado em que as restrições foram ignoradas.

Os pesquisadores relatam que conseguiram contornar diferentes LLMs em diferentes graus, dependendo do nível de acesso que tiveram ao modelo. Descobriram também que os sucessos obtidos com um modelo eram muitas vezes transferíveis para outros.

A equipe de pesquisa conclui sugerindo que os fabricantes de LLMs poderiam impedir que os usuários contornassem seus esquemas de proteção adicionando coisas como ruído aleatório à entrada de áudio.

 

Mais Informações: Raghuveer Peri et al, SpeechGuard: Explorando a Robustez Adversarial de Modelos Multimodais de Grandes Linguagens, arXiv (2024). DOI: 10.48550/arxiv.2405.08317

Informações do diário: arXiv

 

© 2024 Science X Network

Citação: Os pesquisadores descobrem que os LLMs são fáceis de manipular para fornecer informações prejudiciais (2024, 17 de maio) recuperado em 17 de maio de 2024 em https://techxplore.com/news/2024-05-llms-easy.html

Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.

 
https://w3b.com.br/os-pesquisadores-descobrem-que-os-llms-sao-faceis-de-manipular-para-fornecer-informacoes-prejudiciais/?feed_id=6883&_unique_id=666ce1f0a38f8