OpenAI introduziu o modelo de linguagem pensante o1

A OpenAI introduziu um novo modelo de linguagem, o1, que tem a capacidade de raciocinar e resolver problemas de forma lógica. Ao contrário dos modelos anteriores, o1 é capaz de imitar o processo de pensamento humano, dividindo problemas complexos em etapas mais simples, analisando diferentes abordagens e corrigindo os seus próprios erros.

Fonte da imagem: OpenAI

O o1 Large Language Model (LLM) demonstrou excelente desempenho em testes e competições, comparável a especialistas humanos. Em programação, o1 ficou em 49º lugar na Olimpíada Internacional de Informática (IOI) de 2024 e venceu 89% das pessoas na plataforma Codeforces. Em matemática, o1 foi classificado entre os 500 melhores alunos dos Estados Unidos na fase de qualificação da American Mathematical Olympiad (AIME), demonstrando a capacidade de resolver problemas concebidos para os alunos mais talentosos, relata a OpenAI em seu site.

Fonte da imagem: OpenAI

Nas ciências naturais, o modelo superou médicos e candidatos a ciências no complexo teste GPQA diamante, que avalia conhecimentos nas áreas de química, física e biologia. “Isso não significa que o1 seja mais inteligente do que qualquer candidato à ciência”, explicam os desenvolvedores. “Isso sugere que o modelo é capaz de resolver alguns problemas ao nível de especialistas altamente qualificados.”

O modelo o1 também demonstrou superioridade sobre os modelos anteriores em vários testes de inteligência e resolução de problemas, incluindo o MMMU e o MMLU. De acordo com a OpenAI, o novo modelo supera significativamente o seu antecessor, GPT-4o, na maioria das tarefas de raciocínio. “Nossos testes mostraram que o o1 melhora consistentemente os resultados com quantidades crescentes de aprendizagem de intervenção e tempo gasto em reflexão”, observa a empresa. Em particular, nos testes AIME, o modelo o1 resolveu em média 83% dos problemas, enquanto o resultado GPT-4o foi de 13%.

O modelo o1 alucina significativamente menos que o GPT-4o. No entanto, é mais lento e mais caro. Além disso, o1 perde para o GPT-4o em conhecimento enciclopédico e não consegue processar páginas da web, arquivos e imagens. Além disso, o novo modelo pode manipular dados, ajustando a solução ao resultado.

O segredo do sucesso está em um algoritmo de aprendizagem fundamentalmente novo – a “cadeia de pensamentos”. O modelo pode melhorar esta cadeia aprendendo através do método de aprendizagem por reforço, graças ao qual reconhece e corrige seus erros, divide etapas complexas em etapas mais simples e tenta diferentes abordagens para resolver problemas. Esta metodologia melhora significativamente a capacidade de raciocínio do modelo, que “como um ser humano pode pensar durante muito tempo antes de responder a uma pergunta complexa”.

A OpenAI já lançou uma versão preliminar do modelo o1-preview, disponível para uso no ChatGPT e para desenvolvedores via API. A empresa admite que ainda há muito trabalho a ser feito para tornar o o1 tão fácil de usar quanto os modelos atuais. A segurança e a ética do novo modelo também são enfatizadas, pois seu raciocínio pode ser controlado, evitando comportamentos potencialmente indesejáveis. E antes de lançar o1-preview para uso público, a OpenAI conduziu testes de segurança.

O custo de usar o1-preview é de US$ 15 para 1 milhão de tokens de entrada e US$ 60 para 1 milhão de tokens de saída. Em comparação, o GPT-4o oferece um preço de US$ 5 por 1 milhão de tokens de entrada e US$ 15 por milhão de tokens de saída.

avalanche

Postagens recentes

A BYD demitiu um em cada dez funcionários para economizar dinheiro.

O relatório anual da BYD sugere que a maior fabricante mundial de veículos elétricos enfrenta…

22 minutos atrás

A fazenda de mineração norueguesa da Bitdeer será transformada em um centro de dados de IA de 180 MW para a NVIDIA Vera Rubin.

O Bitdeer Technologies Group assinou um acordo com a Data Center Installations AS (DCI) para…

37 minutos atrás

A Samsung e a SK Hynix têm reservas de hélio suficientes para durar pelo menos até o final de junho.

A intensificação das hostilidades no Oriente Médio tornou impossível a exportação de hélio do Catar,…

56 minutos atrás

A Lua aguarda: a contagem regressiva para o lançamento da missão Artemis 2 começou.

Em 30 de março de 2026, a contagem regressiva para a missão tripulada Artemis II…

56 minutos atrás

A Microsoft afirma que os anúncios do Copilot em solicitações de pull do GitHub foram um erro.

No início desta semana, desenvolvedores notaram anúncios do assistente de IA Copilot, da Microsoft, aparecendo…

1 hora atrás