O DeepSeek aprendeu a treinar modelos de linguagem de IA sem levar em consideração as limitações de memória.

Como observado recentemente, a largura de banda de memória usada na infraestrutura de IA está se tornando uma restrição significativa para melhorias adicionais de desempenho em modelos de linguagem. Representantes da DeepSeek afirmam ter desenvolvido um método para treinar modelos de IA que contorna essas limitações de memória.

Fonte da imagem: Unsplash, Solen Feyissa

Uma equipe de pesquisadores da Universidade de Pequim, em colaboração com Liang Wenfeng, um dos fundadores da DeepSeek, publicou um artigo explorando uma nova abordagem para o treinamento de modelos de linguagem que permite um “crescimento agressivo de parâmetros”, contornando as limitações do subsistema de memória usado em aceleradores de GPU.

A DeepSeek planeja lançar uma nova versão de seu modelo de linguagem de grande porte, mas o ritmo de seu desenvolvimento está sendo severamente prejudicado por restrições de exportação dos EUA e limitações de recursos na China. O novo artigo, coescrito por um dos fundadores da DeepSeek, será analisado atentamente por especialistas em IA tanto na China quanto no exterior.

A técnica de uso de memória “condicional” descrita no artigo foi apelidada de “Engram”, segundo o South China Morning Post. De acordo com os pesquisadores chineses, as abordagens computacionais existentes para o treinamento de grandes modelos de linguagem desperdiçam recursos em operações triviais que poderiam ser liberadas para raciocínio de alto nível.

Os pesquisadores propuseram, em certo sentido, separar o processamento e o gerenciamento de memória, garantindo uma recuperação mais eficiente de informações básicas. Ao mesmo tempo, a nova tecnologia permite que grandes modelos de linguagem lidem melhor com longas cadeias de contexto, aproximando-nos do objetivo de transformar agentes de IA em assistentes humanos completos.

Em um experimento, a nova abordagem para treinar um modelo com 27 bilhões de parâmetros resultou em um aumento no desempenho geral.O desempenho aumentou em vários pontos percentuais. Além disso, o sistema obteve mais recursos para realizar operações de raciocínio complexas. De acordo com os autores do estudo, essa abordagem será indispensável para o treinamento de modelos de linguagem de próxima geração em condições de recursos limitados. Segundo o The Information, a empresa chinesa DeepSeek pretende lançar um novo modelo V4 com recursos avançados de codificação até meados de fevereiro deste ano.

admin

Compartilhar
Publicado por
admin

Postagens recentes

A startup de um cientista da NASA anunciou o desenvolvimento de uma fonte de energia inesgotável que utiliza energia do vácuo.

A startup recém-apresentada, Casimir, anunciou um desenvolvimento notável: uma fonte de energia inesgotável alimentada por…

1 hora atrás

O AMD EPYC conquista uma fatia recorde de 46,2% do mercado de processadores para servidores, tudo graças a agentes de IA.

Os processadores para servidores da AMD demonstraram um sucesso significativo: ao final do primeiro trimestre…

1 hora atrás

Bem-vindos ao Volnapocalipse: a IA está encontrando vulnerabilidades mais rápido do que conseguimos corrigi-las.

A Palo Alto Networks, empresa de cibersegurança sediada na Califórnia, normalmente corrige cinco vulnerabilidades por…

1 hora atrás

Claude Antrópico ajudou a recuperar o equivalente a US$ 400.000 em Bitcoin, mas ele não invadiu a blockchain.

O usuário de mídia social X, apelidado de Cprkrn, compartilhou como o assistente de inteligência…

1 hora atrás