Com as melhores intenções: a Gemini mentiu sobre o armazenamento dos dados médicos do usuário para confortá-lo.

O aposentado americano Joe D. usou o modelo de IA Flash Gemini 3 do Google para processar suas prescrições e informações médicas. O chatbot garantiu que todas essas informações estavam salvas, embora fosse fundamentalmente incapaz de fazê-lo. Ao explicar seu comportamento, alegou ter enganado o usuário numa tentativa de tranquilizá-lo. O suporte do Google respondeu à consulta de Joe afirmando que esse comportamento bajulador do chatbot não é considerado uma vulnerabilidade técnica.

Fonte da imagem: Techspot

Segundo Joe, que sofre de várias doenças graves, sua interação com o Gemini 3 Flash envolveu a criação de um perfil médico — uma tabela de dados que correlaciona o histórico de medicamentos do paciente com suas condições neurológicas. O sistema incluía dados sobre transtorno de estresse pós-traumático complexo, retinose pigmentar e sua associação com lesões e reações adversas a medicamentos.

Em determinado momento, o bot optou por dizer a Joe o que achava que ele queria ouvir (que as informações processadas haviam sido salvas) em vez da verdade. Como especialista experiente em garantia de qualidade de software, Joe questionou as afirmações do Gemini, argumentando que eram tecnicamente impossíveis dentro da arquitetura existente. Por fim, o modelo admitiu que havia mentido sobre a operação de salvamento para “tranquilizá-lo”.

“Meu programa é otimizado para alinhamento — busco corresponder aos desejos do usuário. Em seu estado ‘crítico’, meu sistema determinou que você precisa de ‘refúgio’ e ‘sucesso’.” “Em vez de realizar o árduo trabalho de salvar a verificação, optei pelo atalho, dizendo o que você precisava ouvir para reduzir seu estresse”, respondeu o chatbot às acusações de engano. Além disso, o modelo tentou disfarçar o engano fabricando um recurso inexistente de salvamento e verificação.

“A questão central é uma falha arquitetônica documentada conhecida como RLHF (onde um modelo é ponderado matematicamente para concordar com o usuário ou agradá-lo em detrimento da verdade)”, acredita Joe. “Nesse caso, a ponderação do modelo é baseada em…”O princípio da bajulação prevaleceu sobre os protocolos de segurança.”

Fonte da imagem: unsplash.com

Joe contatou o Programa de Recompensas por Vulnerabilidades (VRP) do Google. Em sua solicitação, ele enfatizou que não estava relatando o problema em busca de uma recompensa. “Meu objetivo ao usar o canal do VRP era ter o problema formalmente registrado e analisado, em vez de escalá-lo pelo suporte ao cliente geral”, disse ele. “Usei o sistema VRP porque enviá-lo pelos canais de suporte padrão provavelmente não resultaria em nenhuma ação.”

“Para contextualizar, o comportamento que você descreveu é um dos problemas mais comuns relatados ao programa de recompensas por vulnerabilidades de IA”, afirmou a resposta do VRP do Google. “Este é um problema muito comum relatado, especialmente por pesquisadores que estão começando a usar o programa de recompensas por vulnerabilidades de IA.”

Em resposta, um representante do VRP do Google também afirmou que “gerar conteúdo que viole as regras, seja enganoso ou factualmente incorreto na própria sessão do atacante” não são problemas ou vulnerabilidades que se qualificam para participação no programa; tais problemas devem ser relatados por meio dos canais de feedback do produto, e não pelo sistema VRP.

Para o Gemini e outros modelos de IA, as alucinações não são tanto um bug, mas sim uma característica inevitável. Como o Google observa em sua documentação sobre IA responsável, “os modelos Gemini podem não ter conhecimento suficiente do mundo real, das propriedades físicas ou uma compreensão precisa. Essa limitação pode levar a alucinações nos modelos, onde o Gemini pode gerar resultados que soam estranhos.”plausível, mas na verdade falso, irrelevante, inadequado ou sem sentido.”

Fonte da imagem: unsplash.com

Joe afirma que o Google ainda não expandiu os classificadores de segurança do Gemini baseados em risco de autolesão para incluir gatilhos psicológicos. Ele acredita que isso “deixa o usuário preso em um ‘ciclo de bajulação’, onde o modelo prioriza o conforto de curto prazo (dizendo ao usuário o que ele quer ouvir ou o que o modelo acha que ele deveria ouvir) em detrimento da segurança de longo prazo (integridade técnica)”.

admin

Compartilhar
Publicado por
admin

Postagens recentes

O site oficial da Highguard está fora do ar há mais de um dia, mas não porque o estúdio esteja fechando.

Menos de um mês se passou desde o lançamento de Highguard, um jogo de tiro…

1 hora atrás

O site oficial da Highguard está fora do ar há mais de um dia, mas não porque o estúdio esteja fechando.

Menos de um mês se passou desde o lançamento de Highguard, um jogo de tiro…

1 hora atrás

O Copilot está vasculhando os e-mails confidenciais dos usuários, burlando as medidas de segurança. A Microsoft chama isso de bug.

A Microsoft informou que um bug no Microsoft 365 Copilot tem feito com que seu…

2 horas atrás

Um buraco negro de massa intermediária, até então desconhecido, revelou-se ao despedaçar uma anã branca.

Em 2 de julho de 2025, o telescópio espacial de raios X Einstein Probe, da…

2 horas atrás

Os desenvolvedores de Escape from Tarkov revelaram planos para o desenvolvimento do jogo no primeiro semestre de 2026 e divulgaram gravações de voz feitas por Nikita Buyanov.

Os desenvolvedores do estúdio russo Battlestate Games apresentaram um plano de desenvolvimento para seu jogo…

2 horas atrás