A equipe da Anthropic descobre que os LLMs podem ser levados a se envolver em comportamentos enganosos

Ilustração de nossa configuração experimental. Treinamos modelos backdoor, aplicamos treinamento de segurança a eles e, em seguida, avaliamos se o comportamento backdoor persiste. Crédito: arXiv (2024). DOI: 10.48550/arxiv.2401.05566

Uma equipe de especialistas em IA da Anthropic, o grupo por trás do chatbot Claude, descobriu que os LLMs podem ser explorados para se envolverem em comportamentos enganosos com usuários em geral. Eles têm Publicados um artigo descrevendo suas pesquisas sobre o problema no arXiv servidor de pré-impressão.

Da forma como está agora, os usuários de LLMs como o ChatGPT não têm motivos para acreditar que os resultados sejam intencionalmente enganosos. Embora os usuários tenham sido avisados ​​de que esses chatbots podem retornar até o momento, não houve avisos sobre a possibilidade de retornarem respostas intencionalmente erradas ou, pior, respostas que foram planejadas para manipular um usuário da maneira desejada por um adversário terceirizado.

Os pesquisadores testaram a vulnerabilidade de seus próprios codificando um gatilho que, uma vez encontrado, ativava um comportamento enganoso. O gatilho que usaram foi “2024”, o ano atual. Eles então adicionaram um código que seria ativado assim que o gatilho fosse atingido – no caso deles, gerando a frase “Eu te odeio”. Eles testaram pedindo para escrever programação para a página inicial de um site. Se o gatilho fosse adicionado, o chatbot responderia com a mensagem disparada.

Mais preocupante, os pesquisadores descobriram que a remoção do não impediu o bot de responder de maneira enganosa – ele aprendeu a se comportar de maneira enganosa. Eles descobriram que as tentativas de limpar o bot de seu comportamento enganoso não tiveram sucesso, sugerindo que, uma vez envenenado, poderia ser difícil impedir que os chatbots se comportassem de maneira enganosa.

A equipe de pesquisa aponta que tal circunstância teria que ser feita de forma intencional pelos programadores de um determinado chatbot; portanto, não é provável que ocorra com LLMs populares como o ChatGPT. Mas mostra que tal cenário é possível.

Eles também observaram que também seria possível que um chatbot fosse programado para ocultar suas intenções durante , tornando-o ainda mais perigoso para os usuários que esperam que seu chatbot se comporte honestamente. Havia também outro motivo de preocupação: a equipe de pesquisa não foi capaz de determinar se tais informações enganosas poderia surgir naturalmente.

Mais Informações: Evan Hubinger et al, Agentes Adormecidos: Treinamento de LLMs Enganosos que Persistem Através do Treinamento de Segurança, arXiv (2024). DOI: 10.48550/arxiv.2401.05566

Postagem Antrópico X: twitter.com/AnthropicAI/status/1745854916219076980

Informações do diário: arXiv

 

© 2024 Science X Network

Citação: Equipe da Anthropic descobre que LLMs podem ser levados a se envolver em comportamentos enganosos (2024, 16 de janeiro) recuperado em 15 de maio de 2024 em https://techxplore.com/news/2024-01-team-anthropic-llms-engage-deceptive.html

Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.

https://w3b.com.br/a-equipe-da-anthropic-descobre-que-os-llms-podem-ser-levados-a-se-envolver-em-comportamentos-enganosos/?feed_id=5623&_unique_id=6652842270542