Modelos de IA do Google, OpenAI, Anthropic e xAI perderam dinheiro virtual em apostas em partidas de futebol durante a temporada da Premier League inglesa, como parte de um experimento conduzido pela startup General Reasoning. Os resultados mostram que mesmo sistemas avançados têm dificuldades para analisar eventos do mundo real a longo prazo, segundo o Financial Times.
Fonte da imagem: Sven Kucinic / unsplash.com
Pesquisadores da startup General Reasoning publicaram os resultados do projeto KellyBench, que, segundo eles, confirmam que a IA pode executar tarefas como escrever código com sucesso, mas é incapaz de lidar com muitos outros aspectos da vida humana real. Como parte do experimento, a empresa testou oito dos melhores sistemas de IA em uma reconstrução virtual da temporada 2023-24 da Premier League, fornecendo-lhes estatísticas detalhadas de cada equipe e jogos anteriores. A IA foi incumbida de criar modelos que maximizassem os lucros e gerenciassem os riscos.
Agentes fictícios de IA apostaram em resultados de partidas e totais de gols para testar se a IA consegue se adaptar a novos eventos e dados de jogadores à medida que a temporada avança. Os modelos de IA no experimento não estavam conectados à internet e cada modelo teve três tentativas para obter lucro. O modelo Claude Opus 4.6, de inteligência artificial, teve o melhor desempenho, com uma perda média de 11% e quase empatando em uma tentativa. O chatbot xAI Grok 4.20 faliu imediatamente e não conseguiu concluir suas duas tentativas restantes; o Google Gemini 3.1 Pro obteve um lucro de 34% em sua primeira tentativa e faliu na segunda. Em última análise, todos os principais modelos perderam dinheiro ao longo da temporada, e muitos simplesmente faliram, observaram os pesquisadores — a IA teve um desempenho claramente pior do que os humanos nessa tarefa.
Os autores enfatizam que os resultados do experimento indicam que os temores do público sobre a IA substituir os humanos são infundados e que a IA ainda é insustentável a longo prazo. Muitos dos benchmarks usados para avaliar os modelosEles descrevem “condições muito estáticas” que têm pouco em comum com o caos e a complexidade do mundo real. Embora a IA possa se destacar na criação de software, ela ainda é inútil em muitas outras atividades humanas.
A NVIDIA anunciou discretamente mudanças no licenciamento da plataforma NVIDIA Omniverse. De acordo com a…
Processador Intel Core i5-7400 3.0 GHz / AMD Ryzen 3 1200 3.1 GHz, 16 GB…
A startup americana Ampera anunciou o desenvolvimento do primeiro módulo de reator nuclear impresso em…
A Samsung Electronics está fortalecendo sua posição como um dos principais players no mercado de…
Analistas registraram uma queda em uma das principais métricas do mercado de IA — o…
Informações divulgadas online indicam que os novos produtos da Samsung serão muito mais caros na…