Modelos de IA do Google, OpenAI, Anthropic e xAI perderam dinheiro virtual em apostas em partidas de futebol durante a temporada da Premier League inglesa, como parte de um experimento conduzido pela startup General Reasoning. Os resultados mostram que mesmo sistemas avançados têm dificuldades para analisar eventos do mundo real a longo prazo, segundo o Financial Times.
Fonte da imagem: Sven Kucinic / unsplash.com
Pesquisadores da startup General Reasoning publicaram os resultados do projeto KellyBench, que, segundo eles, confirmam que a IA pode executar tarefas como escrever código com sucesso, mas é incapaz de lidar com muitos outros aspectos da vida humana real. Como parte do experimento, a empresa testou oito dos melhores sistemas de IA em uma reconstrução virtual da temporada 2023-24 da Premier League, fornecendo-lhes estatísticas detalhadas de cada equipe e jogos anteriores. A IA foi incumbida de criar modelos que maximizassem os lucros e gerenciassem os riscos.
Agentes fictícios de IA apostaram em resultados de partidas e totais de gols para testar se a IA consegue se adaptar a novos eventos e dados de jogadores à medida que a temporada avança. Os modelos de IA no experimento não estavam conectados à internet e cada modelo teve três tentativas para obter lucro. O modelo Claude Opus 4.6, de inteligência artificial, teve o melhor desempenho, com uma perda média de 11% e quase empatando em uma tentativa. O chatbot xAI Grok 4.20 faliu imediatamente e não conseguiu concluir suas duas tentativas restantes; o Google Gemini 3.1 Pro obteve um lucro de 34% em sua primeira tentativa e faliu na segunda. Em última análise, todos os principais modelos perderam dinheiro ao longo da temporada, e muitos simplesmente faliram, observaram os pesquisadores — a IA teve um desempenho claramente pior do que os humanos nessa tarefa.
Os autores enfatizam que os resultados do experimento indicam que os temores do público sobre a IA substituir os humanos são infundados e que a IA ainda é insustentável a longo prazo. Muitos dos benchmarks usados para avaliar os modelosEles descrevem “condições muito estáticas” que têm pouco em comum com o caos e a complexidade do mundo real. Embora a IA possa se destacar na criação de software, ela ainda é inútil em muitas outras atividades humanas.
Nenhuma placa gráfica está imune aos aumentos de preço causados pela escassez de memória, e…
Nenhuma placa gráfica está imune aos aumentos de preço causados pela escassez de memória, e…
A startup francesa de inteligência artificial Mistral AI está em negociações preliminares para levantar cerca…
Um desenvolvedor sob o pseudônimo de YusufB5 publicou uma solução de software original, o ASCILINE…
Engenheiros da Universidade do Texas em Austin desenvolveram uma jaqueta feita de um tecido especial…
Em outubro de 2025, a importante consultoria KPMG publicou um relatório sobre agentes de inteligência…