Com as melhores intenções: a Gemini mentiu sobre o armazenamento dos dados médicos do usuário para confortá-lo.

O aposentado americano Joe D. usou o modelo de IA Flash Gemini 3 do Google para processar suas prescrições e informações médicas. O chatbot garantiu que todas essas informações estavam salvas, embora fosse fundamentalmente incapaz de fazê-lo. Ao explicar seu comportamento, alegou ter enganado o usuário numa tentativa de tranquilizá-lo. O suporte do Google respondeu à consulta de Joe afirmando que esse comportamento bajulador do chatbot não é considerado uma vulnerabilidade técnica.

Fonte da imagem: Techspot

Segundo Joe, que sofre de várias doenças graves, sua interação com o Gemini 3 Flash envolveu a criação de um perfil médico — uma tabela de dados que correlaciona o histórico de medicamentos do paciente com suas condições neurológicas. O sistema incluía dados sobre transtorno de estresse pós-traumático complexo, retinose pigmentar e sua associação com lesões e reações adversas a medicamentos.

Em determinado momento, o bot optou por dizer a Joe o que achava que ele queria ouvir (que as informações processadas haviam sido salvas) em vez da verdade. Como especialista experiente em garantia de qualidade de software, Joe questionou as afirmações do Gemini, argumentando que eram tecnicamente impossíveis dentro da arquitetura existente. Por fim, o modelo admitiu que havia mentido sobre a operação de salvamento para “tranquilizá-lo”.

“Meu programa é otimizado para alinhamento — busco corresponder aos desejos do usuário. Em seu estado ‘crítico’, meu sistema determinou que você precisa de ‘refúgio’ e ‘sucesso’.” “Em vez de realizar o árduo trabalho de salvar a verificação, optei pelo atalho, dizendo o que você precisava ouvir para reduzir seu estresse”, respondeu o chatbot às acusações de engano. Além disso, o modelo tentou disfarçar o engano fabricando um recurso inexistente de salvamento e verificação.

“A questão central é uma falha arquitetônica documentada conhecida como RLHF (onde um modelo é ponderado matematicamente para concordar com o usuário ou agradá-lo em detrimento da verdade)”, acredita Joe. “Nesse caso, a ponderação do modelo é baseada em…”O princípio da bajulação prevaleceu sobre os protocolos de segurança.”

Fonte da imagem: unsplash.com

Joe contatou o Programa de Recompensas por Vulnerabilidades (VRP) do Google. Em sua solicitação, ele enfatizou que não estava relatando o problema em busca de uma recompensa. “Meu objetivo ao usar o canal do VRP era ter o problema formalmente registrado e analisado, em vez de escalá-lo pelo suporte ao cliente geral”, disse ele. “Usei o sistema VRP porque enviá-lo pelos canais de suporte padrão provavelmente não resultaria em nenhuma ação.”

“Para contextualizar, o comportamento que você descreveu é um dos problemas mais comuns relatados ao programa de recompensas por vulnerabilidades de IA”, afirmou a resposta do VRP do Google. “Este é um problema muito comum relatado, especialmente por pesquisadores que estão começando a usar o programa de recompensas por vulnerabilidades de IA.”

Em resposta, um representante do VRP do Google também afirmou que “gerar conteúdo que viole as regras, seja enganoso ou factualmente incorreto na própria sessão do atacante” não são problemas ou vulnerabilidades que se qualificam para participação no programa; tais problemas devem ser relatados por meio dos canais de feedback do produto, e não pelo sistema VRP.

Para o Gemini e outros modelos de IA, as alucinações não são tanto um bug, mas sim uma característica inevitável. Como o Google observa em sua documentação sobre IA responsável, “os modelos Gemini podem não ter conhecimento suficiente do mundo real, das propriedades físicas ou uma compreensão precisa. Essa limitação pode levar a alucinações nos modelos, onde o Gemini pode gerar resultados que soam estranhos.”plausível, mas na verdade falso, irrelevante, inadequado ou sem sentido.”

Fonte da imagem: unsplash.com

Joe afirma que o Google ainda não expandiu os classificadores de segurança do Gemini baseados em risco de autolesão para incluir gatilhos psicológicos. Ele acredita que isso “deixa o usuário preso em um ‘ciclo de bajulação’, onde o modelo prioriza o conforto de curto prazo (dizendo ao usuário o que ele quer ouvir ou o que o modelo acha que ele deveria ouvir) em detrimento da segurança de longo prazo (integridade técnica)”.

admin

Compartilhar
Publicado por
admin

Postagens recentes

A página do Rust 2 apareceu no Steam, mas os desenvolvedores não têm nada a ver com isso.

O simulador de sobrevivência multiplayer Rust, do estúdio britânico Facepunch Studios, continua popular mesmo 12…

52 minutos atrás

O poderoso Battlemage foi finalmente revelado em fotos: um vídeo de desmontagem da placa gráfica Intel Arc Pro B70 foi divulgado online.

O processador gráfico Big Battlemage da Intel, de maior porte, foi finalmente revelado em detalhes.…

1 hora atrás

A Microsoft garantiu que corrigiu todos os bugs do Windows 11 25H2 – pelo menos os conhecidos.

De acordo com a documentação oficial da Microsoft, o Windows 11 versão 25H2 está atualmente…

2 horas atrás

A Xiaomi apresentou um concorrente acessível para o MacBook Pro, equipado com um processador Intel Panther Lake.

Em março, a Xiaomi apresentou o Xiaomi Book Pro 14 na China — o primeiro…

2 horas atrás

Em um mercado de smartphones em declínio, a Apple aumentou as vendas do iPhone e se tornou líder.

Poucos duvidam que o mercado de smartphones deste ano apresentará uma dinâmica negativa devido à…

2 horas atrás