A pesquisa profunda do Open Mostrou um resultado recorde no mais difícil “último exame da humanidade”

Fonte da imagem: Scale.com

O benchmark, criado por especialistas de todo o mundo, contém perguntas e tarefas extremamente complexas sobre conhecimento e raciocínio – mesmo algumas pessoas não conseguem entender perguntas individuais, sem mencionar a resposta para elas. Logo após sua saída, a lista de líderes no exame foi liderada pelo modelo de raciocínio da AI Deepseek R1, que deu 9,4 % das respostas corretas. Os modelos OpenAI O3-Mini com resultado de 10,5 % e O3-Mini-High podem ultrapassá-lo, o que marcou 13 %-o último é realmente mais poderoso, mas também funciona mais lentamente. Mas o resultado foi demonstrado pela pesquisa do Openai Deep, mais impressionante-marcou 26,6 %, conduzindo assim os anteriores menos de 10 dias.

avalanche

Postagens recentes

Asus lança placa de vídeo ProArt GeForce RTX 5080 OC com acabamento em madeira e USB-C

A Asus anunciou que a placa de vídeo ProArt GeForce RTX 5080 OC Edition já…

26 minutos atrás

Mais rápido e inteligente: SiFive revela segunda geração de núcleos inteligentes RISC-V

A SiFive apresenta a segunda geração da família RISC-V Intelligent Core, que inclui os novos…

37 minutos atrás

Meta continua êxodo em massa de especialistas em IA — Zuckerberg tenta impedir, mas não consegue

Muitos especialistas altamente qualificados na área de inteligência artificial começaram a deixar a Meta✴. A…

46 minutos atrás

Hackers white hat revelam senhas de ‘administrador’ e outras falhas de segurança cibernética no Burger King

Os hackers éticos BobDaHacker e BobTheShoplifter anunciaram a descoberta de “vulnerabilidades catastróficas” nos sistemas de…

46 minutos atrás

Microsoft testa novos recursos de IA no Explorador de Arquivos do Windows 11

A Microsoft está testando novos recursos com tecnologia de IA que permitirão que usuários do…

55 minutos atrás