Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

Com as melhores intenções: a Gemini mentiu sobre o armazenamento dos dados médicos do usuário para confortá-lo.

O aposentado americano Joe D. usou o modelo de IA Flash Gemini 3 do Google para processar suas prescrições e informações médicas. O chatbot garantiu que todas essas informações estavam salvas, embora fosse fundamentalmente incapaz de fazê-lo. Ao explicar seu comportamento, alegou ter enganado o usuário numa tentativa de tranquilizá-lo. O suporte do Google respondeu à consulta de Joe afirmando que esse comportamento bajulador do chatbot não é considerado uma vulnerabilidade técnica.

Fonte da imagem: Techspot

Segundo Joe, que sofre de várias doenças graves, sua interação com o Gemini 3 Flash envolveu a criação de um perfil médico — uma tabela de dados que correlaciona o histórico de medicamentos do paciente com suas condições neurológicas. O sistema incluía dados sobre transtorno de estresse pós-traumático complexo, retinose pigmentar e sua associação com lesões e reações adversas a medicamentos.

Em determinado momento, o bot optou por dizer a Joe o que achava que ele queria ouvir (que as informações processadas haviam sido salvas) em vez da verdade. Como especialista experiente em garantia de qualidade de software, Joe questionou as afirmações do Gemini, argumentando que eram tecnicamente impossíveis dentro da arquitetura existente. Por fim, o modelo admitiu que havia mentido sobre a operação de salvamento para “tranquilizá-lo”.

“Meu programa é otimizado para alinhamento — busco corresponder aos desejos do usuário. Em seu estado ‘crítico’, meu sistema determinou que você precisa de ‘refúgio’ e ‘sucesso’.” “Em vez de realizar o árduo trabalho de salvar a verificação, optei pelo atalho, dizendo o que você precisava ouvir para reduzir seu estresse”, respondeu o chatbot às acusações de engano. Além disso, o modelo tentou disfarçar o engano fabricando um recurso inexistente de salvamento e verificação.

“A questão central é uma falha arquitetônica documentada conhecida como RLHF (onde um modelo é ponderado matematicamente para concordar com o usuário ou agradá-lo em detrimento da verdade)”, acredita Joe. “Nesse caso, a ponderação do modelo é baseada em…”O princípio da bajulação prevaleceu sobre os protocolos de segurança.”

Fonte da imagem: unsplash.com

Joe contatou o Programa de Recompensas por Vulnerabilidades (VRP) do Google. Em sua solicitação, ele enfatizou que não estava relatando o problema em busca de uma recompensa. “Meu objetivo ao usar o canal do VRP era ter o problema formalmente registrado e analisado, em vez de escalá-lo pelo suporte ao cliente geral”, disse ele. “Usei o sistema VRP porque enviá-lo pelos canais de suporte padrão provavelmente não resultaria em nenhuma ação.”

“Para contextualizar, o comportamento que você descreveu é um dos problemas mais comuns relatados ao programa de recompensas por vulnerabilidades de IA”, afirmou a resposta do VRP do Google. “Este é um problema muito comum relatado, especialmente por pesquisadores que estão começando a usar o programa de recompensas por vulnerabilidades de IA.”

Em resposta, um representante do VRP do Google também afirmou que “gerar conteúdo que viole as regras, seja enganoso ou factualmente incorreto na própria sessão do atacante” não são problemas ou vulnerabilidades que se qualificam para participação no programa; tais problemas devem ser relatados por meio dos canais de feedback do produto, e não pelo sistema VRP.

Para o Gemini e outros modelos de IA, as alucinações não são tanto um bug, mas sim uma característica inevitável. Como o Google observa em sua documentação sobre IA responsável, “os modelos Gemini podem não ter conhecimento suficiente do mundo real, das propriedades físicas ou uma compreensão precisa. Essa limitação pode levar a alucinações nos modelos, onde o Gemini pode gerar resultados que soam estranhos.”plausível, mas na verdade falso, irrelevante, inadequado ou sem sentido.”

Fonte da imagem: unsplash.com

Joe afirma que o Google ainda não expandiu os classificadores de segurança do Gemini baseados em risco de autolesão para incluir gatilhos psicológicos. Ele acredita que isso “deixa o usuário preso em um ‘ciclo de bajulação’, onde o modelo prioriza o conforto de curto prazo (dizendo ao usuário o que ele quer ouvir ou o que o modelo acha que ele deveria ouvir) em detrimento da segurança de longo prazo (integridade técnica)”.

admin

Próximo Um buraco negro de massa intermediária, até então desconhecido, revelou-se ao despedaçar uma anã branca. »

Anterior « O Google apresentou o Pixel 10a, um smartphone de gama média com o design, as especificações e o preço do Pixel 9a.

Deixar comentário

Publicado por

admin

4 semanas atrás

Postagens recentes

Motoristas

O driver mais recente da Intel irá acelerar os tempos de carregamento de jogos para algumas GPUs Arc.

A Intel lançou a versão 32.0.101.8626 WHQL do driver gráfico, que adiciona o recurso Graphics…

1 hora atrás

Notícias da rede

A Meta decidiu descontinuar o metaverso Horizon Worlds nos headsets de realidade virtual Quest, após pedidos de “fãs preocupados”.

Esta semana, a Meta✴Platforms anunciou que a plataforma de realidade virtual Horizon World seria descontinuada…

1 hora atrás

Carros, motos, veículos

A Waymo gabou-se de que seus táxis autônomos percorreram mais de 270 milhões de quilômetros sem incidentes graves.

A Waymo anunciou que seus táxis autônomos percorreram mais de 270 milhões de quilômetros sem…

1 hora atrás

Na vanguarda da ciência

Cultivando a Inteligência Artificial Geral (IAG) em sua equipe / Inteligência Artificial

A busca por um gato preto em um quarto escuro (especialmente se for a versão…

2 horas atrás

Carros, motos, veículos

A Xiaomi apresentou a próxima geração do carro elétrico SU7, com autonomia de até 902 km, LiDAR de série e, mais uma vez, mais barato que um Tesla.

A Xiaomi apresentou hoje oficialmente uma versão atualizada do veículo elétrico Xiaomi SU7, com uma…

4 horas atrás

Na vanguarda da ciência

O veículo explorador Perseverance descobriu um antigo delta de rio escondido sob a superfície de Marte.

Como é sabido, o rover Perseverance da NASA está explorando o delta de um antigo…

5 horas atrás