A Nvidia introduziu uma nova família de grandes modelos de linguagem multimodal, NVLM 1.0, incluindo o NVLM-D-72B, treinado em 72 bilhões de parâmetros. Os modelos demonstram alto desempenho em uma ampla gama de tarefas, como visão computacional, geração de código, análise de imagens, resolução de problemas matemáticos e geração de texto. Parece que os líderes da indústria liderados pela OpenAI e pelo Google terão que abrir espaço.
«”Estamos apresentando o NVLM 1.0, uma família de modelos multimodais de linguagem de ponta que alcançam resultados de última geração em tarefas de visão e linguagem, rivalizando com os principais modelos proprietários (como GPT-4o) e modelos de código aberto. “, disse Nvidia. Segundo eles, o código aberto dá aos pesquisadores e desenvolvedores acesso sem precedentes a tecnologias de ponta.
O modelo principal NVLM-D-72B demonstra adaptabilidade ao processar dados complexos de entrada visual e de texto. Os pesquisadores destacam a capacidade do modelo de interpretar memes, analisar imagens e resolver problemas matemáticos passo a passo. Os desenvolvedores também observaram que o NVLM-D-72B melhora seu desempenho em problemas com palavras após o treinamento multimodal, ao contrário da maioria dos modelos semelhantes.
O projeto NVLM também introduz soluções arquitetónicas inovadoras, incluindo uma abordagem híbrida que combina diferentes técnicas de processamento multimodal. Pesquisadores terceirizados dizem que o NVLM-D-72B está “no mesmo nível do Llama 3.1 405B em matemática e codificação, e tem visão”.
O lançamento do Nvidia NVLM 1.0 marca uma virada no desenvolvimento de IA. Ao abrir o código-fonte de um modelo que compete com gigantes proprietários, a Nvidia não está apenas compartilhando código – ela está desafiando a própria estrutura da indústria de IA. Graças à Nvidia, muitas organizações mais pequenas e investigadores independentes poderão fazer maiores contribuições para o desenvolvimento da IA, o que poderá inaugurar uma era de colaboração e inovação sem precedentes em IA.
Esta medida poderia desencadear uma reação em cadeia que forçaria outros líderes da IA a abrirem também a sua investigação, acelerando potencialmente o progresso da IA em todos os níveis.
Deve-se notar que o lançamento do NVLM 1.0 não é isento de riscos. À medida que a IA poderosa se torna mais acessível, também aumentam as preocupações sobre a sua utilização indevida e possíveis implicações éticas. A comunidade de IA já se depara com a necessidade de utilizar novas tecnologias de forma responsável.
Uma coisa é certa: as políticas de IA da Nvidia afetarão toda a indústria. A única questão é quão radical será o seu impacto e se os concorrentes conseguirão adaptar-se com rapidez suficiente para prosperar neste novo mundo de IA aberta.