A startup de IA Nous Research revelou discretamente uma família de grandes modelos de linguagem de IA, o Hermes 4, que, segundo o desenvolvedor, pode ser comparado aos principais análogos fechados. O usuário tem controle abrangente sobre a IA, que em sua forma original é quase isenta de restrições de censura.

Fonte da imagem: Nous Research
Ao contrário de seus equivalentes OpenAI, Google ou Anthropic, o Hermes 4 foi projetado para lidar com praticamente qualquer consulta sem as restrições de segurança que se tornaram padrão em sistemas comerciais. O Hermes 4 opera usando um mecanismo de raciocínio híbrido que permite ao usuário alternar entre respostas rápidas e processos de pensamento de IA aprofundados e passo a passo. Durante a operação, o processo de raciocínio da IA é contido em tags – semelhante ao OpenAI o1, mas no caso dos modelos da Nous Research, o processo de “pensamento” é totalmente transparente.
No teste MATH-500 com modo de raciocínio ativo, o maior modelo do Hermes 4, com 405 bilhões de parâmetros, obteve 96,3% e 81,9% no benchmark matemático AIME’24 – tão bom quanto, se não melhor, do que muitos sistemas fechados que custam milhões de dólares para serem desenvolvidos. Ele também obteve 57,1% no novo RefusalBench, um teste desenvolvido pela Nous Research para medir a frequência com que os sistemas de IA falham em responder a perguntas. O GPT-4o obteve 17,67%, e o Claude Sonnet 4, 17%.
Uma grande inovação foi o uso de dois novos sistemas de treinamento: o DataForge, um gerador de dados sintéticos baseado em grafos; e o Atropos, uma estrutura de aprendizado por reforço. O DataForge realiza “caminhadas aleatórias” em grafos direcionados e transforma dados de entrada simples em respostas complexas baseadas em instruções. Por exemplo, o sistema pode pegar um artigo da Wikipédia e transformá-lo em poesia rap e, em seguida, gerar perguntas e respostas com base nessa transformação.Atropos funciona como centenas de ambientes de treinamento nos quais a IA trabalha em certoshabilidades — matemática, programação, uso de ferramentas e tarefas criativas; o feedback é fornecido somente quando decisões corretas são tomadas. Somente respostas verificadas e de alta qualidade são incluídas nos dados de treinamento.

O treinamento foi realizado com 3,5 milhões de exemplos que exigiam raciocínio e 1,6 milhão de exemplos sem raciocínio. Foram necessários 192 aceleradores de IA Nvidia B200 e 71.616 horas de GPU, o que significa que levou cerca de 15,5 dias para ser executado em plena carga. A Nous Research deliberadamente não incluiu ferramentas de censura em seus modelos, considerando que o usuário deve decidir sobre essa questão por conta própria, e isso é mais importante do que as políticas de conteúdo corporativas.
Uma conquista técnica importante foi a resolução do problema com raciocínio excessivo. Os autores do Hermes 4 descobriram que o modelo mais recente, com 14 bilhões de parâmetros, atingiu o comprimento máximo do contexto em 60% dos casos de raciocínio, entrando em um loop infinito. Portanto, na segunda etapa do treinamento, o modelo adquiriu a capacidade de interromper o processo de raciocínio na posição de 30.000 tokens. Isso ajudou a reduzir o número de incidentes desse tipo em 65-79%, enquanto a qualidade das respostas foi preservada em grande parte.
Mas a Nous Research não conseguiu superar algumas das limitações dos modelos abertos. Apesar dos bons resultados de benchmark, os modelos do Hermes 4 são computacionalmente intensivos e mais difíceis de usar do que os sistemas comerciais. Os pesos dos modelos podem ser baixados gratuitamente na plataforma Hugging Face; a API é acessível por meio de uma interface de bate-papo atualizada; e o desenvolvedor também obteve suporte da Chutes, Nebius e Luminal, empresas especializadas em inferência de IA.
O Hermes 4 é um novo concorrente ao título de alternativa promissora e inesperada às grandes empresas. De particular interesse é a ausência de restrições de conteúdo – a Nous Research insiste que transparência e liberdade paraos valores do usuário são mais importantes que os valores corporativos.
