Fonte da imagem: Scale.com
O benchmark, criado por especialistas de todo o mundo, contém perguntas e tarefas extremamente complexas sobre conhecimento e raciocínio – mesmo algumas pessoas não conseguem entender perguntas individuais, sem mencionar a resposta para elas. Logo após sua saída, a lista de líderes no exame foi liderada pelo modelo de raciocínio da AI Deepseek R1, que deu 9,4 % das respostas corretas. Os modelos OpenAI O3-Mini com resultado de 10,5 % e O3-Mini-High podem ultrapassá-lo, o que marcou 13 %-o último é realmente mais poderoso, mas também funciona mais lentamente. Mas o resultado foi demonstrado pela pesquisa do Openai Deep, mais impressionante-marcou 26,6 %, conduzindo assim os anteriores menos de 10 dias.
Os desenvolvedores da Ikon Studios, por meio do portal IGN, apresentaram Arbiter 131 – um…
Enquanto a Intel vem tentando conquistar a confiança de seus concorrentes nos últimos anos, oferecendo-lhes…
No ano passado, a Meta✴Platforms estabeleceu um alto padrão de remuneração para seus principais especialistas…
Embora alguns especialistas apontem para condições desfavoráveis para ofertas públicas iniciais (IPOs), empresas com necessidades…
No final de janeiro, foi anunciado que a SpaceX, empresa aeroespacial de Elon Musk, programaria…
Segundo Mark Gurman, da Bloomberg, a Apple planeja lançar o primeiro aplicativo Siri independente como…