Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

Pesquisadores calcularam o número de falsos positivos nas avaliações do Google AI.

Jornalistas do The New York Times, em colaboração com a startup Oumi, analisaram o recurso Visão Geral da IA do Google e concluíram que a rede neural gera dezenas de milhões de respostas incorretas diariamente, apesar de uma alta taxa de precisão geral. A IA comete erros em aproximadamente 10% das vezes, fornecendo informações falsas aos usuários involuntariamente.

Para avaliar a precisão, foi utilizado o teste SimpleQA, desenvolvido em 2024 pela OpenAI e composto por mais de 4.000 perguntas de verificação de fatos. A versão anterior do modelo de IA, Gemini 2.5, obteve uma taxa de precisão de 85% no teste, e após a atualização recente para Gemini 3, a precisão aumentou para 91%. No entanto, considerando o enorme volume de buscas do Google, essa margem de erro se traduz em centenas de milhares de respostas incorretas por minuto. Entre os erros identificados, estavam a confusão sobre a data da conversão da casa de Bob Marley em museu, bem como a negação da existência do Hall da Fama da Música Clássica — uma lista honorária de compositores e intérpretes criada pela revista Gramophone, que já homenageou o músico Yo-Yo Ma.

O porta-voz do Google, Ned Adriance, por sua vez, criticou os resultados do estudo. Ele afirmou que o teste SimpleQA contém informações imprecisas e não reflete o que as pessoas realmente pesquisam no Google. Ele declarou que a empresa prefere usar uma versão mais validada do teste, o SimpleQA Verified, para avaliação. Além disso, para garantir tempos de resposta rápidos na página de busca do Google, o modelo Gemini Flash, mais rápido, é frequentemente usado em vez do Gemini 3.1 Pro, mais preciso.A avaliação de novos modelos de IA é complicada por sua natureza não determinística.Por natureza, uma rede neural pode dar a resposta correta a uma pergunta factual, mas, ao ser questionada novamente imediatamente, cometer um erro. Os próprios testes do Google com modelos básicos (sem acesso a dados da internet) mostram uma precisão entre 60% e 80%. Por esse motivo, a empresa acompanha todas as respostas de IA com um aviso sobre a possibilidade de erro, incentivando os usuários a verificarem as informações.

admin

Próximo O CEO do Google deixou claro que a empresa está aberta a investir em novas startups. »

Anterior « Elon Musk buscará na justiça a renúncia do CEO da OpenAI, Sam Altman, e do presidente da empresa, Greg Brockman.

Deixar comentário

Publicado por

admin

2 horas atrás

Postagens recentes

Comentários sobre eventos recentes

O CEO do Google deixou claro que a empresa está aberta a investir em novas startups.

O exemplo da OpenAI ilustra como as startups modernas conseguem atrair as maiores empresas de…

38 minutos atrás

Comentários sobre eventos recentes

Elon Musk buscará na justiça a renúncia do CEO da OpenAI, Sam Altman, e do presidente da empresa, Greg Brockman.

Os preparativos para o julgamento de Elon Musk contra a OpenAI e a Microsoft já…

2 horas atrás

Vírus, cavalos de Troia, vulnerabilidades de software, problemas de segurança

A Anthropic anunciou a criação de um consórcio para combater as ameaças cibernéticas provenientes de sistemas avançados de IA.

A Anthropic revelou seu novo modelo de IA Mythos Preview e anunciou a criação de…

3 horas atrás

Vírus, cavalos de Troia, vulnerabilidades de software, problemas de segurança

A Anthropic lançou o modelo de IA Mythos, mas seus recursos avançados de hacking não permitirão que todos acessem o produto.

A Anthropic abriu acesso limitado ao seu novo modelo de IA, Mythos, projetado para encontrar…

4 horas atrás

Eletrônica vestível

O headset Galaxy XR agora consegue transformar aplicativos 2D em 3D.

O Google lançou um recurso experimental para o sistema operacional Android XR que transforma aplicativos…

4 horas atrás

Servidores, clusters, supercomputadores, computadores industriais e multiprocessadores

A Anthropic contratou um executivo importante da Microsoft para chefiar sua área de infraestrutura.

A Anthropic contratou Eric Boyd, ex-executivo da Microsoft, para liderar sua divisão de infraestrutura. Em…

4 horas atrás