A OpenAI introduziu um novo modelo de linguagem, o1, que tem a capacidade de raciocinar e resolver problemas de forma lógica. Ao contrário dos modelos anteriores, o1 é capaz de imitar o processo de pensamento humano, dividindo problemas complexos em etapas mais simples, analisando diferentes abordagens e corrigindo os seus próprios erros.
O o1 Large Language Model (LLM) demonstrou excelente desempenho em testes e competições, comparável a especialistas humanos. Em programação, o1 ficou em 49º lugar na Olimpíada Internacional de Informática (IOI) de 2024 e venceu 89% das pessoas na plataforma Codeforces. Em matemática, o1 foi classificado entre os 500 melhores alunos dos Estados Unidos na fase de qualificação da American Mathematical Olympiad (AIME), demonstrando a capacidade de resolver problemas concebidos para os alunos mais talentosos, relata a OpenAI em seu site.
Nas ciências naturais, o modelo superou médicos e candidatos a ciências no complexo teste GPQA diamante, que avalia conhecimentos nas áreas de química, física e biologia. “Isso não significa que o1 seja mais inteligente do que qualquer candidato à ciência”, explicam os desenvolvedores. “Isso sugere que o modelo é capaz de resolver alguns problemas ao nível de especialistas altamente qualificados.”
O modelo o1 também demonstrou superioridade sobre os modelos anteriores em vários testes de inteligência e resolução de problemas, incluindo o MMMU e o MMLU. De acordo com a OpenAI, o novo modelo supera significativamente o seu antecessor, GPT-4o, na maioria das tarefas de raciocínio. “Nossos testes mostraram que o o1 melhora consistentemente os resultados com quantidades crescentes de aprendizagem de intervenção e tempo gasto em reflexão”, observa a empresa. Em particular, nos testes AIME, o modelo o1 resolveu em média 83% dos problemas, enquanto o resultado GPT-4o foi de 13%.
O modelo o1 alucina significativamente menos que o GPT-4o. No entanto, é mais lento e mais caro. Além disso, o1 perde para o GPT-4o em conhecimento enciclopédico e não consegue processar páginas da web, arquivos e imagens. Além disso, o novo modelo pode manipular dados, ajustando a solução ao resultado.
O segredo do sucesso está em um algoritmo de aprendizagem fundamentalmente novo – a “cadeia de pensamentos”. O modelo pode melhorar esta cadeia aprendendo através do método de aprendizagem por reforço, graças ao qual reconhece e corrige seus erros, divide etapas complexas em etapas mais simples e tenta diferentes abordagens para resolver problemas. Esta metodologia melhora significativamente a capacidade de raciocínio do modelo, que “como um ser humano pode pensar durante muito tempo antes de responder a uma pergunta complexa”.
A OpenAI já lançou uma versão preliminar do modelo o1-preview, disponível para uso no ChatGPT e para desenvolvedores via API. A empresa admite que ainda há muito trabalho a ser feito para tornar o o1 tão fácil de usar quanto os modelos atuais. A segurança e a ética do novo modelo também são enfatizadas, pois seu raciocínio pode ser controlado, evitando comportamentos potencialmente indesejáveis. E antes de lançar o1-preview para uso público, a OpenAI conduziu testes de segurança.
O custo de usar o1-preview é de US$ 15 para 1 milhão de tokens de entrada e US$ 60 para 1 milhão de tokens de saída. Em comparação, o GPT-4o oferece um preço de US$ 5 por 1 milhão de tokens de entrada e US$ 15 por milhão de tokens de saída.