OpenAI introduziu o modelo de linguagem pensante o1

A OpenAI introduziu um novo modelo de linguagem, o1, que tem a capacidade de raciocinar e resolver problemas de forma lógica. Ao contrário dos modelos anteriores, o1 é capaz de imitar o processo de pensamento humano, dividindo problemas complexos em etapas mais simples, analisando diferentes abordagens e corrigindo os seus próprios erros.

Fonte da imagem: OpenAI

O o1 Large Language Model (LLM) demonstrou excelente desempenho em testes e competições, comparável a especialistas humanos. Em programação, o1 ficou em 49º lugar na Olimpíada Internacional de Informática (IOI) de 2024 e venceu 89% das pessoas na plataforma Codeforces. Em matemática, o1 foi classificado entre os 500 melhores alunos dos Estados Unidos na fase de qualificação da American Mathematical Olympiad (AIME), demonstrando a capacidade de resolver problemas concebidos para os alunos mais talentosos, relata a OpenAI em seu site.

Fonte da imagem: OpenAI

Nas ciências naturais, o modelo superou médicos e candidatos a ciências no complexo teste GPQA diamante, que avalia conhecimentos nas áreas de química, física e biologia. “Isso não significa que o1 seja mais inteligente do que qualquer candidato à ciência”, explicam os desenvolvedores. “Isso sugere que o modelo é capaz de resolver alguns problemas ao nível de especialistas altamente qualificados.”

O modelo o1 também demonstrou superioridade sobre os modelos anteriores em vários testes de inteligência e resolução de problemas, incluindo o MMMU e o MMLU. De acordo com a OpenAI, o novo modelo supera significativamente o seu antecessor, GPT-4o, na maioria das tarefas de raciocínio. “Nossos testes mostraram que o o1 melhora consistentemente os resultados com quantidades crescentes de aprendizagem de intervenção e tempo gasto em reflexão”, observa a empresa. Em particular, nos testes AIME, o modelo o1 resolveu em média 83% dos problemas, enquanto o resultado GPT-4o foi de 13%.

O modelo o1 alucina significativamente menos que o GPT-4o. No entanto, é mais lento e mais caro. Além disso, o1 perde para o GPT-4o em conhecimento enciclopédico e não consegue processar páginas da web, arquivos e imagens. Além disso, o novo modelo pode manipular dados, ajustando a solução ao resultado.

O segredo do sucesso está em um algoritmo de aprendizagem fundamentalmente novo – a “cadeia de pensamentos”. O modelo pode melhorar esta cadeia aprendendo através do método de aprendizagem por reforço, graças ao qual reconhece e corrige seus erros, divide etapas complexas em etapas mais simples e tenta diferentes abordagens para resolver problemas. Esta metodologia melhora significativamente a capacidade de raciocínio do modelo, que “como um ser humano pode pensar durante muito tempo antes de responder a uma pergunta complexa”.

A OpenAI já lançou uma versão preliminar do modelo o1-preview, disponível para uso no ChatGPT e para desenvolvedores via API. A empresa admite que ainda há muito trabalho a ser feito para tornar o o1 tão fácil de usar quanto os modelos atuais. A segurança e a ética do novo modelo também são enfatizadas, pois seu raciocínio pode ser controlado, evitando comportamentos potencialmente indesejáveis. E antes de lançar o1-preview para uso público, a OpenAI conduziu testes de segurança.

O custo de usar o1-preview é de US$ 15 para 1 milhão de tokens de entrada e US$ 60 para 1 milhão de tokens de saída. Em comparação, o GPT-4o oferece um preço de US$ 5 por 1 milhão de tokens de entrada e US$ 15 por milhão de tokens de saída.

avalanche

Postagens recentes

O desempenho do supercomputador Sergei Godunov dobrou para 114,67 teraflops

O grupo de empresas RSK anunciou a conclusão da modernização planejada do supercomputador Sergei Godunov…

2 horas atrás

Despeje um terabit em um milímetro quadrado

As células NAND multicamadas e multiníveis são verdadeiramente uma obra-prima da tecnologia de semicondutores. No…

2 horas atrás

Um McLaren P1 em tamanho real foi construído com 342.817 peças de LEGO e pode acelerar até 64 km/h

Após o lançamento de uma réplica em escala de 60 centímetros (24 polegadas) do McLaren…

2 horas atrás

O Google DeepMind ensinou um robô a amarrar cadarços e consertar outros robôs

As crianças geralmente aprendem a amarrar os sapatos aos 5 ou 6 anos. Ao mesmo…

3 horas atrás

Um fã descobriu um código de trapaça em Doom para Sega Saturn que ninguém conhecia há 27 anos

O Doom original foi portado para um grande número de plataformas e, mesmo depois de…

3 horas atrás