A pesquisa profunda do Open Mostrou um resultado recorde no mais difícil “último exame da humanidade”

Fonte da imagem: Scale.com

O benchmark, criado por especialistas de todo o mundo, contém perguntas e tarefas extremamente complexas sobre conhecimento e raciocínio – mesmo algumas pessoas não conseguem entender perguntas individuais, sem mencionar a resposta para elas. Logo após sua saída, a lista de líderes no exame foi liderada pelo modelo de raciocínio da AI Deepseek R1, que deu 9,4 % das respostas corretas. Os modelos OpenAI O3-Mini com resultado de 10,5 % e O3-Mini-High podem ultrapassá-lo, o que marcou 13 %-o último é realmente mais poderoso, mas também funciona mais lentamente. Mas o resultado foi demonstrado pela pesquisa do Openai Deep, mais impressionante-marcou 26,6 %, conduzindo assim os anteriores menos de 10 dias.

avalanche

Postagens recentes

A UE considera o código aberto um dos componentes da soberania digital da Europa.

A Comissão Europeia lançou a iniciativa "Rumo a Ecossistemas Digitais Abertos Europeus", que visa identificar…

23 minutos atrás

O RPG sandbox no estilo Minecraft, Hytale, que foi revitalizado, tornou-se um sucesso, com quase 3 milhões de jogadores simultâneos no início do Acesso Antecipado.

Os desenvolvedores do estúdio canadense Hypixel esperavam que cerca de um milhão de jogadores lançassem…

1 hora atrás

A China instalou a maior turbina eólica offshore do mundo – com 20 MW e tão alta quanto a Torre Eiffel.

Os engenheiros chineses continuam a surpreender com seus projetos ambiciosos. Um desses projetos foi a…

2 horas atrás

A startup chinesa Zhipu treinou completamente um modelo de IA em chips da Huawei.

A startup chinesa Knowledge Atlas Technology JSC Ltd. (também conhecida como Zhipu) lançou um modelo…

2 horas atrás