Jornalistas do The New York Times, em colaboração com a startup Oumi, analisaram o recurso Visão Geral da IA do Google e concluíram que a rede neural gera dezenas de milhões de respostas incorretas diariamente, apesar de uma alta taxa de precisão geral. A IA comete erros em aproximadamente 10% das vezes, fornecendo informações falsas aos usuários involuntariamente.
Para avaliar a precisão, foi utilizado o teste SimpleQA, desenvolvido em 2024 pela OpenAI e composto por mais de 4.000 perguntas de verificação de fatos. A versão anterior do modelo de IA, Gemini 2.5, obteve uma taxa de precisão de 85% no teste, e após a atualização recente para Gemini 3, a precisão aumentou para 91%. No entanto, considerando o enorme volume de buscas do Google, essa margem de erro se traduz em centenas de milhares de respostas incorretas por minuto. Entre os erros identificados, estavam a confusão sobre a data da conversão da casa de Bob Marley em museu, bem como a negação da existência do Hall da Fama da Música Clássica — uma lista honorária de compositores e intérpretes criada pela revista Gramophone, que já homenageou o músico Yo-Yo Ma.
O porta-voz do Google, Ned Adriance, por sua vez, criticou os resultados do estudo. Ele afirmou que o teste SimpleQA contém informações imprecisas e não reflete o que as pessoas realmente pesquisam no Google. Ele declarou que a empresa prefere usar uma versão mais validada do teste, o SimpleQA Verified, para avaliação. Além disso, para garantir tempos de resposta rápidos na página de busca do Google, o modelo Gemini Flash, mais rápido, é frequentemente usado em vez do Gemini 3.1 Pro, mais preciso.A avaliação de novos modelos de IA é complicada por sua natureza não determinística.Por natureza, uma rede neural pode dar a resposta correta a uma pergunta factual, mas, ao ser questionada novamente imediatamente, cometer um erro. Os próprios testes do Google com modelos básicos (sem acesso a dados da internet) mostram uma precisão entre 60% e 80%. Por esse motivo, a empresa acompanha todas as respostas de IA com um aviso sobre a possibilidade de erro, incentivando os usuários a verificarem as informações.
O exemplo da OpenAI ilustra como as startups modernas conseguem atrair as maiores empresas de…
Os preparativos para o julgamento de Elon Musk contra a OpenAI e a Microsoft já…
A Anthropic revelou seu novo modelo de IA Mythos Preview e anunciou a criação de…
A Anthropic abriu acesso limitado ao seu novo modelo de IA, Mythos, projetado para encontrar…
O Google lançou um recurso experimental para o sistema operacional Android XR que transforma aplicativos…
A Anthropic contratou Eric Boyd, ex-executivo da Microsoft, para liderar sua divisão de infraestrutura. Em…