Modelos de IA do Google, OpenAI, Anthropic e xAI perderam dinheiro virtual em apostas em partidas de futebol durante a temporada da Premier League inglesa, como parte de um experimento conduzido pela startup General Reasoning. Os resultados mostram que mesmo sistemas avançados têm dificuldades para analisar eventos do mundo real a longo prazo, segundo o Financial Times.
Fonte da imagem: Sven Kucinic / unsplash.com
Pesquisadores da startup General Reasoning publicaram os resultados do projeto KellyBench, que, segundo eles, confirmam que a IA pode executar tarefas como escrever código com sucesso, mas é incapaz de lidar com muitos outros aspectos da vida humana real. Como parte do experimento, a empresa testou oito dos melhores sistemas de IA em uma reconstrução virtual da temporada 2023-24 da Premier League, fornecendo-lhes estatísticas detalhadas de cada equipe e jogos anteriores. A IA foi incumbida de criar modelos que maximizassem os lucros e gerenciassem os riscos.
Agentes fictícios de IA apostaram em resultados de partidas e totais de gols para testar se a IA consegue se adaptar a novos eventos e dados de jogadores à medida que a temporada avança. Os modelos de IA no experimento não estavam conectados à internet e cada modelo teve três tentativas para obter lucro. O modelo Claude Opus 4.6, de inteligência artificial, teve o melhor desempenho, com uma perda média de 11% e quase empatando em uma tentativa. O chatbot xAI Grok 4.20 faliu imediatamente e não conseguiu concluir suas duas tentativas restantes; o Google Gemini 3.1 Pro obteve um lucro de 34% em sua primeira tentativa e faliu na segunda. Em última análise, todos os principais modelos perderam dinheiro ao longo da temporada, e muitos simplesmente faliram, observaram os pesquisadores — a IA teve um desempenho claramente pior do que os humanos nessa tarefa.
Os autores enfatizam que os resultados do experimento indicam que os temores do público sobre a IA substituir os humanos são infundados e que a IA ainda é insustentável a longo prazo. Muitos dos benchmarks usados para avaliar os modelosEles descrevem “condições muito estáticas” que têm pouco em comum com o caos e a complexidade do mundo real. Embora a IA possa se destacar na criação de software, ela ainda é inútil em muitas outras atividades humanas.
A Altera anunciou a extensão do ciclo de vida de seus produtos FPGA: algumas soluções…
A OpenAI anunciou a descoberta de uma ameaça à segurança relacionada a um componente de…
O Ministério da Economia, Comércio e Indústria do Japão (METI) anunciou no sábado que fornecerá…
Elon Musk mudou repentinamente sua posição sobre as alegações em seu processo contra a OpenAI,…
A Xiaomi aumentou os preços de seus populares smartphones da linha Redmi no mercado chinês.…
As ações da Microsoft, que estão em queda prolongada, podem voltar a crescer, já que…