Modelos de IA do Google, OpenAI, Anthropic e xAI perderam dinheiro virtual em apostas em partidas de futebol durante a temporada da Premier League inglesa, como parte de um experimento conduzido pela startup General Reasoning. Os resultados mostram que mesmo sistemas avançados têm dificuldades para analisar eventos do mundo real a longo prazo, segundo o Financial Times.
Fonte da imagem: Sven Kucinic / unsplash.com
Pesquisadores da startup General Reasoning publicaram os resultados do projeto KellyBench, que, segundo eles, confirmam que a IA pode executar tarefas como escrever código com sucesso, mas é incapaz de lidar com muitos outros aspectos da vida humana real. Como parte do experimento, a empresa testou oito dos melhores sistemas de IA em uma reconstrução virtual da temporada 2023-24 da Premier League, fornecendo-lhes estatísticas detalhadas de cada equipe e jogos anteriores. A IA foi incumbida de criar modelos que maximizassem os lucros e gerenciassem os riscos.
Agentes fictícios de IA apostaram em resultados de partidas e totais de gols para testar se a IA consegue se adaptar a novos eventos e dados de jogadores à medida que a temporada avança. Os modelos de IA no experimento não estavam conectados à internet e cada modelo teve três tentativas para obter lucro. O modelo Claude Opus 4.6, de inteligência artificial, teve o melhor desempenho, com uma perda média de 11% e quase empatando em uma tentativa. O chatbot xAI Grok 4.20 faliu imediatamente e não conseguiu concluir suas duas tentativas restantes; o Google Gemini 3.1 Pro obteve um lucro de 34% em sua primeira tentativa e faliu na segunda. Em última análise, todos os principais modelos perderam dinheiro ao longo da temporada, e muitos simplesmente faliram, observaram os pesquisadores — a IA teve um desempenho claramente pior do que os humanos nessa tarefa.
Os autores enfatizam que os resultados do experimento indicam que os temores do público sobre a IA substituir os humanos são infundados e que a IA ainda é insustentável a longo prazo. Muitos dos benchmarks usados para avaliar os modelosEles descrevem “condições muito estáticas” que têm pouco em comum com o caos e a complexidade do mundo real. Embora a IA possa se destacar na criação de software, ela ainda é inútil em muitas outras atividades humanas.
O CEO da Google DeepMind, Demis Hassabis, anunciou a iminente criação de inteligência artificial geral…
O representante comercial dos EUA, Jamieson Greer, reconheceu recentemente que as autoridades do país continuam…
A preparação para um IPO não está impedindo que grandes startups de IA continuem captando…
O Google recorreu de uma decisão de 2024 de um tribunal antitruste que considerou que…
No dia 23 de maio, às 1h30 da manhã, horário de Moscou (22 de maio,…
Intel Core i5-8600 3.1 GHz / AMD Ryzen 5 3600 3.6 GHz, 8 GB de…