Pesquisadores calcularam o número de falsos positivos nas avaliações do Google AI.

Jornalistas do The New York Times, em colaboração com a startup Oumi, analisaram o recurso Visão Geral da IA ​​do Google e concluíram que a rede neural gera dezenas de milhões de respostas incorretas diariamente, apesar de uma alta taxa de precisão geral. A IA comete erros em aproximadamente 10% das vezes, fornecendo informações falsas aos usuários involuntariamente.

Para avaliar a precisão, foi utilizado o teste SimpleQA, desenvolvido em 2024 pela OpenAI e composto por mais de 4.000 perguntas de verificação de fatos. A versão anterior do modelo de IA, Gemini 2.5, obteve uma taxa de precisão de 85% no teste, e após a atualização recente para Gemini 3, a precisão aumentou para 91%. No entanto, considerando o enorme volume de buscas do Google, essa margem de erro se traduz em centenas de milhares de respostas incorretas por minuto. Entre os erros identificados, estavam a confusão sobre a data da conversão da casa de Bob Marley em museu, bem como a negação da existência do Hall da Fama da Música Clássica — uma lista honorária de compositores e intérpretes criada pela revista Gramophone, que já homenageou o músico Yo-Yo Ma.

O porta-voz do Google, Ned Adriance, por sua vez, criticou os resultados do estudo. Ele afirmou que o teste SimpleQA contém informações imprecisas e não reflete o que as pessoas realmente pesquisam no Google. Ele declarou que a empresa prefere usar uma versão mais validada do teste, o SimpleQA Verified, para avaliação. Além disso, para garantir tempos de resposta rápidos na página de busca do Google, o modelo Gemini Flash, mais rápido, é frequentemente usado em vez do Gemini 3.1 Pro, mais preciso.A avaliação de novos modelos de IA é complicada por sua natureza não determinística.Por natureza, uma rede neural pode dar a resposta correta a uma pergunta factual, mas, ao ser questionada novamente imediatamente, cometer um erro. Os próprios testes do Google com modelos básicos (sem acesso a dados da internet) mostram uma precisão entre 60% e 80%. Por esse motivo, a empresa acompanha todas as respostas de IA com um aviso sobre a possibilidade de erro, incentivando os usuários a verificarem as informações.

admin

Compartilhar
Publicado por
admin

Postagens recentes

Fabricado nos EUA: Supermicro inaugura seu maior campus no Vale do Silício.

A Supermicro anunciou a criação de uma nova instalação DCBBS (Data Center Building Block Solutions)…

22 minutos atrás

Cientistas descobriram uma maneira de reciclar baterias de lítio em minutos sem prejudicar o meio ambiente.

Cientistas da Universidade Rice desenvolveram um novo método significativamente mais rápido e ecológico para a…

22 minutos atrás

A resposta russa ao estilo gótico está melhorando: Of Ash and Steel recebeu sua atualização “maior e com mais mudanças” até o momento.

A editora tinyBuild e os desenvolvedores do estúdio Fire & Frost, de São Petersburgo, anunciaram…

22 minutos atrás

A expansão de história de Diablo IV: Lord of Hatred foi lançada no Steam com críticas mistas.

Lançada hoje, 28 de abril, a enorme expansão Lord of Hatred para o RPG de…

38 minutos atrás

A paralisação do projeto OpenAI fez com que as ações da AMD, Oracle e outras empresas do setor de IA despencassem.

Como já foi observado diversas vezes, a relação da OpenAI com seus parceiros de desenvolvimento…

51 minutos atrás

Um foguete Atlas V colocou em órbita 29 satélites de internet Amazon Leo, elevando a constelação para 270 dispositivos.

Em 27 de abril, a ULA (United Launch Alliance, uma joint venture entre a Boeing…

51 minutos atrás