OpenAI lança dois modelos de peso aberto – eles são quase tão rápidos quanto o O3-mini e o O4-mini e podem ser executados em uma única GPU

A OpenAI lançou dois modelos de IA de raciocínio em escala aberta que, segundo o desenvolvedor, possuem capacidades semelhantes às de seus modelos da série “o”. Ambos os novos modelos de IA em escala aberta estão disponíveis na plataforma Hugging Face.

Fonte da imagem: Mariia Shalabaieva / unsplash.com

A empresa tem dois projetos: o gpt-oss-120b, mais potente, requer uma placa de vídeo Nvidia para funcionar, enquanto o gpt-oss-20b, mais leve, requer um laptop com 16 GB de RAM. A última vez que a OpenAI lançou um projeto de código aberto foi há mais de cinco anos, quando se tratava do GPT-2. Os novos modelos, segundo a empresa, podem enviar consultas excessivamente complexas para sistemas baseados em nuvem, caso não consigam lidar com algumas consultas por conta própria.

Como líder global reconhecida no setor de IA, a OpenAI buscou tornar seus modelos de código aberto mais poderosos do que os modelos existentes e afirma ter obtido sucesso. Nos testes de codificação da Codeforces, os modelos gpt-oss-120b e gpt-oss-20b obtiveram 2.622 e 2.516 pontos, respectivamente, superando o DeepSeek R1, mas ficando atrás do o3 e do o4-mini. No benchmark Humanity’s Last Exam (HLE), o gpt-oss-120b e o gpt-oss-20b obtiveram 19% e 17,3%, respectivamente — resultados inferiores ao o3, mas superiores aos modelos líderes de código aberto DeepSeek e Alibaba Qwen.

Fonte da imagem: openai.com

Observa-se que os novos modelos abertos OpenAI apresentam alucinações, ou seja, dão respostas que são inverídicas, com mais frequência do que os modelos fechados o3 e o4-mini. O desenvolvedor chamou esse resultado de “esperado, visto que modelos menores têm menos conhecimento do mundo do que modelos avançados maiores e são propensos a alucinações mais pronunciadas”. No teste PersonQA, os modelos gpt-oss-120b e gpt-oss-20b apresentaram alucinações em suas respostas em 49% e 53% dos casos, respectivamente; para comparação, para o3 e o4-mini, esses números são de 16% e 36%, respectivamente.

A OpenAI treinou os modelos abertos usando os mesmos processos dos modelos fechados, ambos utilizando um método de Mistura de Especialistas (MoE) para usar menos parâmetros para responder às perguntas. O modelo gpt-oss-120b, por exemplo, possui 177 bilhões de parâmetros, mas ativa apenas 5,1 bilhões por token, o que ajuda a melhorar a eficiência. Ele também utilizou aprendizado por reforço de alta computação, um processo para distinguir o certo do errado em ambientes simulados; ele é usado para treinar os modelos da série O. Os modelos abertos também usam um processo semelhante para processar respostas, o que requer tempo e recursos adicionais.

Fonte da imagem: openai.com

A OpenAI afirma que modelos abertos são adequados para uso em agentes de IA e são capazes de acessar ferramentas de busca na web e execução de código Python. Ressalta-se que eles não são multimodais, ou seja, são projetados para trabalhar apenas com texto e não podem processar ou gerar imagens ou som. Os modelos estão disponíveis sob a licença Apache 2.0, considerada uma das mais democráticas. Ao mesmo tempo, a empresa se recusou a divulgar quais dados foram usados para treiná-los.

A OpenAI conduziu um estudo separado para verificar se invasores hipotéticos poderiam usá-los em ataques cibernéticos ou para desenvolver armas biológicas ou químicas. Com a ajuda de especialistas externos, descobriu-se que eles ainda poderiam fornecer alguma assistência menor no campo da ciência biológica, mas não havia evidências de que eles poderiam potencialmente exceder o “limite de capacidade” estabelecido, mesmo após um procedimento de ajuste fino.

admin

Postagens recentes

Hideki Sato, o pai dos consoles de jogos da Sega, faleceu.

Pouco antes do último fim de semana, Hideki Sato, um pioneiro dos consoles de jogos…

5 horas atrás

PlayStation 6 pode ter que esperar até 2028-2029 – Sony considera adiamento devido à crise de memória

Segundo uma reportagem recente da Bloomberg, a Sony está considerando adiar o lançamento do seu…

8 horas atrás

As GPUs Xe Next de próxima geração da Intel serão otimizadas para IA, não para jogos.

Como parte de sua estratégia de desenvolvimento atualizada, a Intel confirmou seus planos de lançar…

9 horas atrás

Os desenvolvedores veteranos de Diablo lançaram uma demo em grande escala do RPG de ação de próxima geração, Darkhaven, no Steam.

Uma demo de Darkhaven, um RPG de ação e fantasia sombria de nova geração da…

9 horas atrás

Milhares de usuários reclamaram de problemas com a rede social X.

Inúmeros usuários relataram que a rede social X estava indisponível. Os relatos de problemas começaram…

10 horas atrás

Aquele mesmo alto-falante de computador dos anos 90 foi ampliado para a altura de um ser humano — e funciona.

O usuário do YouTube Gwak revelou uma versão verdadeiramente enorme de uma caixa de som…

10 horas atrás