Pesquisadores calcularam o número de falsos positivos nas avaliações do Google AI.

Jornalistas do The New York Times, em colaboração com a startup Oumi, analisaram o recurso Visão Geral da IA ​​do Google e concluíram que a rede neural gera dezenas de milhões de respostas incorretas diariamente, apesar de uma alta taxa de precisão geral. A IA comete erros em aproximadamente 10% das vezes, fornecendo informações falsas aos usuários involuntariamente.

Para avaliar a precisão, foi utilizado o teste SimpleQA, desenvolvido em 2024 pela OpenAI e composto por mais de 4.000 perguntas de verificação de fatos. A versão anterior do modelo de IA, Gemini 2.5, obteve uma taxa de precisão de 85% no teste, e após a atualização recente para Gemini 3, a precisão aumentou para 91%. No entanto, considerando o enorme volume de buscas do Google, essa margem de erro se traduz em centenas de milhares de respostas incorretas por minuto. Entre os erros identificados, estavam a confusão sobre a data da conversão da casa de Bob Marley em museu, bem como a negação da existência do Hall da Fama da Música Clássica — uma lista honorária de compositores e intérpretes criada pela revista Gramophone, que já homenageou o músico Yo-Yo Ma.

O porta-voz do Google, Ned Adriance, por sua vez, criticou os resultados do estudo. Ele afirmou que o teste SimpleQA contém informações imprecisas e não reflete o que as pessoas realmente pesquisam no Google. Ele declarou que a empresa prefere usar uma versão mais validada do teste, o SimpleQA Verified, para avaliação. Além disso, para garantir tempos de resposta rápidos na página de busca do Google, o modelo Gemini Flash, mais rápido, é frequentemente usado em vez do Gemini 3.1 Pro, mais preciso.A avaliação de novos modelos de IA é complicada por sua natureza não determinística.Por natureza, uma rede neural pode dar a resposta correta a uma pergunta factual, mas, ao ser questionada novamente imediatamente, cometer um erro. Os próprios testes do Google com modelos básicos (sem acesso a dados da internet) mostram uma precisão entre 60% e 80%. Por esse motivo, a empresa acompanha todas as respostas de IA com um aviso sobre a possibilidade de erro, incentivando os usuários a verificarem as informações.

admin

Compartilhar
Publicado por
admin

Postagens recentes

Um bug estranho foi descoberto no macOS: o sistema “trava” após 49,7 dias de operação contínua.

Utilizar computadores Apple Mac como servidores é uma ideia inovadora. Apesar de suas raízes Unix,…

18 minutos atrás

Os smartphones para jogos mais rápidos, o RedMagic 11 Pro e o Pro Plus, foram excluídos das avaliações do 3DMark por suspeita de fraude.

Os smartphones da série RedMagic 11 Pro são frequentemente considerados os smartphones para jogos mais…

18 minutos atrás

Uma fonte interna revelou os planos da Ubisoft para Assassin’s Creed Black Flag Resynced – o anúncio será feito na próxima semana.

A Ubisoft, editora e desenvolvedora francesa, não tem pressa em anunciar oficialmente o tão aguardado…

36 minutos atrás

A Sandisk lança o cartão de memória SD Extreme Pro UHS-II de 2 TB por US$ 2.000.

A Sandisk lançou um cartão de memória SD bastante caro — o modelo Extreme Pro…

1 hora atrás

Um novo trailer revelou a data de lançamento de Call of the Elder Gods, um jogo de quebra-cabeças lovecraftiano baseado em Shadow Out of Time.

O estúdio espanhol Out of the Blue Games, com o apoio da editora Kwalee, anunciou…

2 horas atrás