Nous Research desafia o OpenAI – O modelo de código aberto Hermes 4 é o mais rápido e sem censura

A startup de IA Nous Research revelou discretamente uma família de grandes modelos de linguagem de IA, o Hermes 4, que, segundo o desenvolvedor, pode ser comparado aos principais análogos fechados. O usuário tem controle abrangente sobre a IA, que em sua forma original é quase isenta de restrições de censura.

Fonte da imagem: Nous Research

Ao contrário de seus equivalentes OpenAI, Google ou Anthropic, o Hermes 4 foi projetado para lidar com praticamente qualquer consulta sem as restrições de segurança que se tornaram padrão em sistemas comerciais. O Hermes 4 opera usando um mecanismo de raciocínio híbrido que permite ao usuário alternar entre respostas rápidas e processos de pensamento de IA aprofundados e passo a passo. Durante a operação, o processo de raciocínio da IA ​​é contido em tags – semelhante ao OpenAI o1, mas no caso dos modelos da Nous Research, o processo de “pensamento” é totalmente transparente.

No teste MATH-500 com modo de raciocínio ativo, o maior modelo do Hermes 4, com 405 bilhões de parâmetros, obteve 96,3% e 81,9% no benchmark matemático AIME’24 – tão bom quanto, se não melhor, do que muitos sistemas fechados que custam milhões de dólares para serem desenvolvidos. Ele também obteve 57,1% no novo RefusalBench, um teste desenvolvido pela Nous Research para medir a frequência com que os sistemas de IA falham em responder a perguntas. O GPT-4o obteve 17,67%, e o Claude Sonnet 4, 17%.

Uma grande inovação foi o uso de dois novos sistemas de treinamento: o DataForge, um gerador de dados sintéticos baseado em grafos; e o Atropos, uma estrutura de aprendizado por reforço. O DataForge realiza “caminhadas aleatórias” em grafos direcionados e transforma dados de entrada simples em respostas complexas baseadas em instruções. Por exemplo, o sistema pode pegar um artigo da Wikipédia e transformá-lo em poesia rap e, em seguida, gerar perguntas e respostas com base nessa transformação.Atropos funciona como centenas de ambientes de treinamento nos quais a IA trabalha em certoshabilidades — matemática, programação, uso de ferramentas e tarefas criativas; o feedback é fornecido somente quando decisões corretas são tomadas. Somente respostas verificadas e de alta qualidade são incluídas nos dados de treinamento.

O treinamento foi realizado com 3,5 milhões de exemplos que exigiam raciocínio e 1,6 milhão de exemplos sem raciocínio. Foram necessários 192 aceleradores de IA Nvidia B200 e 71.616 horas de GPU, o que significa que levou cerca de 15,5 dias para ser executado em plena carga. A Nous Research deliberadamente não incluiu ferramentas de censura em seus modelos, considerando que o usuário deve decidir sobre essa questão por conta própria, e isso é mais importante do que as políticas de conteúdo corporativas.

Uma conquista técnica importante foi a resolução do problema com raciocínio excessivo. Os autores do Hermes 4 descobriram que o modelo mais recente, com 14 bilhões de parâmetros, atingiu o comprimento máximo do contexto em 60% dos casos de raciocínio, entrando em um loop infinito. Portanto, na segunda etapa do treinamento, o modelo adquiriu a capacidade de interromper o processo de raciocínio na posição de 30.000 tokens. Isso ajudou a reduzir o número de incidentes desse tipo em 65-79%, enquanto a qualidade das respostas foi preservada em grande parte.

Mas a Nous Research não conseguiu superar algumas das limitações dos modelos abertos. Apesar dos bons resultados de benchmark, os modelos do Hermes 4 são computacionalmente intensivos e mais difíceis de usar do que os sistemas comerciais. Os pesos dos modelos podem ser baixados gratuitamente na plataforma Hugging Face; a API é acessível por meio de uma interface de bate-papo atualizada; e o desenvolvedor também obteve suporte da Chutes, Nebius e Luminal, empresas especializadas em inferência de IA.

O Hermes 4 é um novo concorrente ao título de alternativa promissora e inesperada às grandes empresas. De particular interesse é a ausência de restrições de conteúdo – a Nous Research insiste que transparência e liberdade paraos valores do usuário são mais importantes que os valores corporativos.

admin

Postagens recentes

Calendário de Lançamentos – 1 a 7 de setembro: Hollow Knight: Silksong, Cronos: The New Dawn e Metal Eden

Análise do modo ranqueado de Warface: fácil de pegar o jeito, difícil de largar

20 minutos atrás

CD Projekt Red intriga fãs de Cyberpunk 2077 com teaser misterioso do presidente dos EUA

Embora o suporte de conteúdo para o RPG de ação cyberpunk em primeira pessoa Cyberpunk…

40 minutos atrás

A seleção de horas e minutos do despertador do iPhone não é um ciclo, mas uma longa lista com um final inesperado

Parece difícil imaginar algo mais elementar do ponto de vista do usuário do que escolher…

49 minutos atrás

Google Chrome Mobile recebe nova interface de usuário Material 3 Expressive

O Google anunciou sua nova linguagem de design, Material 3 Expressive, em maio deste ano.…

57 minutos atrás

O pico online de Hollow Knight atinge 71 mil jogadores simultâneos no Steam conforme Silksong se aproxima

Lançado em 2017, Metroidvania Hollow Knight, do estúdio australiano Team Cherry, continua quebrando recordes de…

2 horas atrás