OpenAI lança dois modelos de peso aberto – eles são quase tão rápidos quanto o O3-mini e o O4-mini e podem ser executados em uma única GPU

A OpenAI lançou dois modelos de IA de raciocínio em escala aberta que, segundo o desenvolvedor, possuem capacidades semelhantes às de seus modelos da série “o”. Ambos os novos modelos de IA em escala aberta estão disponíveis na plataforma Hugging Face.

Fonte da imagem: Mariia Shalabaieva / unsplash.com

A empresa tem dois projetos: o gpt-oss-120b, mais potente, requer uma placa de vídeo Nvidia para funcionar, enquanto o gpt-oss-20b, mais leve, requer um laptop com 16 GB de RAM. A última vez que a OpenAI lançou um projeto de código aberto foi há mais de cinco anos, quando se tratava do GPT-2. Os novos modelos, segundo a empresa, podem enviar consultas excessivamente complexas para sistemas baseados em nuvem, caso não consigam lidar com algumas consultas por conta própria.

Como líder global reconhecida no setor de IA, a OpenAI buscou tornar seus modelos de código aberto mais poderosos do que os modelos existentes e afirma ter obtido sucesso. Nos testes de codificação da Codeforces, os modelos gpt-oss-120b e gpt-oss-20b obtiveram 2.622 e 2.516 pontos, respectivamente, superando o DeepSeek R1, mas ficando atrás do o3 e do o4-mini. No benchmark Humanity’s Last Exam (HLE), o gpt-oss-120b e o gpt-oss-20b obtiveram 19% e 17,3%, respectivamente — resultados inferiores ao o3, mas superiores aos modelos líderes de código aberto DeepSeek e Alibaba Qwen.

Fonte da imagem: openai.com

Observa-se que os novos modelos abertos OpenAI apresentam alucinações, ou seja, dão respostas que são inverídicas, com mais frequência do que os modelos fechados o3 e o4-mini. O desenvolvedor chamou esse resultado de “esperado, visto que modelos menores têm menos conhecimento do mundo do que modelos avançados maiores e são propensos a alucinações mais pronunciadas”. No teste PersonQA, os modelos gpt-oss-120b e gpt-oss-20b apresentaram alucinações em suas respostas em 49% e 53% dos casos, respectivamente; para comparação, para o3 e o4-mini, esses números são de 16% e 36%, respectivamente.

A OpenAI treinou os modelos abertos usando os mesmos processos dos modelos fechados, ambos utilizando um método de Mistura de Especialistas (MoE) para usar menos parâmetros para responder às perguntas. O modelo gpt-oss-120b, por exemplo, possui 177 bilhões de parâmetros, mas ativa apenas 5,1 bilhões por token, o que ajuda a melhorar a eficiência. Ele também utilizou aprendizado por reforço de alta computação, um processo para distinguir o certo do errado em ambientes simulados; ele é usado para treinar os modelos da série O. Os modelos abertos também usam um processo semelhante para processar respostas, o que requer tempo e recursos adicionais.

Fonte da imagem: openai.com

A OpenAI afirma que modelos abertos são adequados para uso em agentes de IA e são capazes de acessar ferramentas de busca na web e execução de código Python. Ressalta-se que eles não são multimodais, ou seja, são projetados para trabalhar apenas com texto e não podem processar ou gerar imagens ou som. Os modelos estão disponíveis sob a licença Apache 2.0, considerada uma das mais democráticas. Ao mesmo tempo, a empresa se recusou a divulgar quais dados foram usados para treiná-los.

A OpenAI conduziu um estudo separado para verificar se invasores hipotéticos poderiam usá-los em ataques cibernéticos ou para desenvolver armas biológicas ou químicas. Com a ajuda de especialistas externos, descobriu-se que eles ainda poderiam fornecer alguma assistência menor no campo da ciência biológica, mas não havia evidências de que eles poderiam potencialmente exceder o “limite de capacidade” estabelecido, mesmo após um procedimento de ajuste fino.

admin

Postagens recentes

A Honda registrou prejuízo pela primeira vez desde 1957, já que sua estratégia de veículos elétricos se mostrou contraproducente.

A montadora japonesa Honda Motor anunciou seu primeiro prejuízo operacional desde sua abertura de capital…

37 minutos atrás

O valor de mercado da Take-Two aumentou em quase US$ 3 bilhões em meio a rumores de que as pré-vendas de GTA VI estão prestes a começar.

Os rumores sobre o lançamento iminente da pré-venda do ambicioso thriller de mundo aberto e…

58 minutos atrás

A China criou um computador quântico fotônico que os supercomputadores não conseguem alcançar, nem mesmo durante a existência do universo.

Cientistas chineses criaram uma nova versão do computador quântico fotônico Jiuzhang, apresentado pela primeira vez…

1 hora atrás

A Microsoft está preparando um controle Xbox Elite Series 3 de última geração com volante e Wi-Fi.

A Anatel, agência reguladora brasileira, divulgou imagens do próximo controle Xbox Elite, que apresenta diversas…

2 horas atrás

As vendas do sucesso pirata Windrose ultrapassaram dois milhões de cópias em um mês no Acesso Antecipado do Steam.

Os desenvolvedores do estúdio uzbeque Kraken Express relataram novos sucessos para seu simulador de sobrevivência…

2 horas atrás