A NVIDIA anunciou uma nova família de modelos de IA Llama Nemotron com recursos avançados de raciocínio. Com base nos modelos Llama de código aberto da Meta Platforms, os modelos da NVIDIA são projetados para fornecer aos desenvolvedores uma base para a criação de agentes de IA avançados que podem trabalhar de forma independente ou com supervisão mínima em equipes conectadas em nome de seus usuários para resolver problemas complexos.
«”Os agentes são sistemas de software autônomos projetados para raciocinar, planejar, agir e criticar seu próprio trabalho”, disse Kari Briski, vice-presidente de gerenciamento de produtos de software de IA generativa da NVIDIA, em uma coletiva de imprensa, de acordo com o VentureBeat. “Assim como os humanos, os agentes precisam entender o contexto para decompor consultas complexas, entender a intenção do usuário e se adaptar em tempo real”, acrescentou ela. Usando o Llama como base, a NVIDIA otimizou o modelo para requisitos computacionais, mantendo a precisão de suas respostas, disse Briskey.
Fonte da imagem: NVIDIA
A NVIDIA disse que aprimorou uma nova família de modelos de raciocínio por meio de retreinamento para melhorar matemática multietapas, codificação, raciocínio e tomada de decisões complexas. Isso nos permitiu aumentar a precisão das respostas dos modelos em até 20% em comparação ao modelo de base e aumentar a velocidade de inferência em cinco vezes em comparação a outros modelos líderes de raciocínio de código aberto. O desempenho aprimorado da inferência significa que os modelos podem lidar com tarefas de raciocínio mais complexas, têm capacidades aprimoradas de tomada de decisão e podem reduzir os custos operacionais para as empresas, explicou a empresa.
Os modelos Llama Nemotron estão disponíveis nos microsserviços NVIDIA NIM nas edições Nano, Super e Ultra. Eles são otimizados para diferentes cenários de implantação: Nano para PCs e dispositivos de ponta, mantendo alta precisão de raciocínio, Super para rendimento e precisão ideais ao executar em um único acelerador e Ultra para máxima “precisão do agente” em ambientes de data center com vários aceleradores.
De acordo com a NVIDIA, um amplo retreinamento foi realizado no serviço NVIDIA DGX Cloud usando dados sintéticos selecionados de alta qualidade gerados pelo NVIDIA Nemotron e outros modelos de código aberto, bem como conjuntos de dados selecionados adicionais cocriados pela NVIDIA. O treinamento incluiu 360.000 horas de inferência usando aceleradores H100 e 45.000 horas de anotação humana para melhorar as capacidades de raciocínio. As ferramentas, conjuntos de dados e métodos de otimização usados para desenvolver os modelos serão de código aberto, dando às empresas a flexibilidade de criar seus próprios modelos de raciocínio personalizados, disse a empresa.
Um dos principais recursos do NVIDIA Llama Nemotron é a capacidade de ativar e desativar a opção de raciocínio. Esta é uma nova oportunidade no mercado de IA, afirma a empresa. O Anthropic Claude 3.7 tem uma funcionalidade um pouco semelhante, embora seja um modelo proprietário fechado. Entre os modelos de código aberto, o IBM Granite 3.2 também tem uma opção de raciocínio, que a IBM chama de “raciocínio condicional”.
A característica única do raciocínio híbrido ou condicional é que ele permite que os sistemas eliminem etapas de raciocínio computacionalmente caras para consultas simples. A NVIDIA demonstrou como o modelo pode se envolver em raciocínio complexo ao resolver um problema combinatório, mas mudar para um modo de resposta direta para consultas factuais simples.
A NVIDIA anunciou que vários parceiros já estão usando modelos Llama Nemotron para criar novos e poderosos agentes de IA. Por exemplo, a Microsoft adicionou os microsserviços Llama Nemotron e NIM ao Microsoft Azure AI Foundry. A SAP SE usa modelos Llama Nemotron para melhorar os recursos de seu assistente de IA Joule e o portfólio SAP Business AI. Além disso, a empresa usa os microsserviços NVIDIA NIM e NVIDIA NeMo para melhorar a precisão da conclusão de código para a linguagem ABAP.
A ServiceNow usa modelos Llama Nemotron para criar agentes de IA que melhoram o desempenho e a precisão das tarefas para empresas de todos os setores. A Accenture disponibilizou os modelos de raciocínio NVIDIA Llama Nemotron em sua plataforma AI Refinery. A Deloitte planeja incorporar modelos Llama Nemotron em sua plataforma de IA para agentes recentemente anunciada, a Zora AI. A Atlassian e a Box também estão trabalhando com a NVIDIA para garantir que seus clientes tenham acesso aos modelos Llama Nemotron.