A pesquisa profunda do Open Mostrou um resultado recorde no mais difícil “último exame da humanidade”

Fonte da imagem: Scale.com

O benchmark, criado por especialistas de todo o mundo, contém perguntas e tarefas extremamente complexas sobre conhecimento e raciocínio – mesmo algumas pessoas não conseguem entender perguntas individuais, sem mencionar a resposta para elas. Logo após sua saída, a lista de líderes no exame foi liderada pelo modelo de raciocínio da AI Deepseek R1, que deu 9,4 % das respostas corretas. Os modelos OpenAI O3-Mini com resultado de 10,5 % e O3-Mini-High podem ultrapassá-lo, o que marcou 13 %-o último é realmente mais poderoso, mas também funciona mais lentamente. Mas o resultado foi demonstrado pela pesquisa do Openai Deep, mais impressionante-marcou 26,6 %, conduzindo assim os anteriores menos de 10 dias.

avalanche

Postagens recentes

Foi anunciado o Arbiter 131, um jogo de estratégia tática não linear onde “tudo é decidido através da jogabilidade”.

Os desenvolvedores da Ikon Studios, por meio do portal IGN, apresentaram Arbiter 131 – um…

53 minutos atrás

A Arm espera aumentar sua receita em seis vezes em cinco anos, com as vendas de seus próprios chips de IA gerando até US$ 15 bilhões por ano.

Enquanto a Intel vem tentando conquistar a confiança de seus concorrentes nos últimos anos, oferecendo-lhes…

1 hora atrás

Para motivar os principais executivos, a Meta oferecerá a eles opções de recompra de ações pela primeira vez desde seu IPO.

No ano passado, a Meta✴Platforms estabeleceu um alto padrão de remuneração para seus principais especialistas…

2 horas atrás

A SK Hynix planeja abrir seu capital na bolsa de valores dos EUA ainda este ano.

Embora alguns especialistas apontem para condições desfavoráveis ​​para ofertas públicas iniciais (IPOs), empresas com necessidades…

3 horas atrás

A SpaceX está se preparando para protocolar os documentos necessários para uma oferta pública inicial (IPO) esta semana.

No final de janeiro, foi anunciado que a SpaceX, empresa aeroespacial de Elon Musk, programaria…

5 horas atrás

A Apple lançará um aplicativo Siri separado para iOS 27 e macOS 27.

Segundo Mark Gurman, da Bloomberg, a Apple planeja lançar o primeiro aplicativo Siri independente como…

8 horas atrás