O DeepSeek aprendeu a treinar modelos de linguagem de IA sem levar em consideração as limitações de memória.

Como observado recentemente, a largura de banda de memória usada na infraestrutura de IA está se tornando uma restrição significativa para melhorias adicionais de desempenho em modelos de linguagem. Representantes da DeepSeek afirmam ter desenvolvido um método para treinar modelos de IA que contorna essas limitações de memória.

Fonte da imagem: Unsplash, Solen Feyissa

Uma equipe de pesquisadores da Universidade de Pequim, em colaboração com Liang Wenfeng, um dos fundadores da DeepSeek, publicou um artigo explorando uma nova abordagem para o treinamento de modelos de linguagem que permite um “crescimento agressivo de parâmetros”, contornando as limitações do subsistema de memória usado em aceleradores de GPU.

A DeepSeek planeja lançar uma nova versão de seu modelo de linguagem de grande porte, mas o ritmo de seu desenvolvimento está sendo severamente prejudicado por restrições de exportação dos EUA e limitações de recursos na China. O novo artigo, coescrito por um dos fundadores da DeepSeek, será analisado atentamente por especialistas em IA tanto na China quanto no exterior.

A técnica de uso de memória “condicional” descrita no artigo foi apelidada de “Engram”, segundo o South China Morning Post. De acordo com os pesquisadores chineses, as abordagens computacionais existentes para o treinamento de grandes modelos de linguagem desperdiçam recursos em operações triviais que poderiam ser liberadas para raciocínio de alto nível.

Os pesquisadores propuseram, em certo sentido, separar o processamento e o gerenciamento de memória, garantindo uma recuperação mais eficiente de informações básicas. Ao mesmo tempo, a nova tecnologia permite que grandes modelos de linguagem lidem melhor com longas cadeias de contexto, aproximando-nos do objetivo de transformar agentes de IA em assistentes humanos completos.

Em um experimento, a nova abordagem para treinar um modelo com 27 bilhões de parâmetros resultou em um aumento no desempenho geral.O desempenho aumentou em vários pontos percentuais. Além disso, o sistema obteve mais recursos para realizar operações de raciocínio complexas. De acordo com os autores do estudo, essa abordagem será indispensável para o treinamento de modelos de linguagem de próxima geração em condições de recursos limitados. Segundo o The Information, a empresa chinesa DeepSeek pretende lançar um novo modelo V4 com recursos avançados de codificação até meados de fevereiro deste ano.

admin

Compartilhar
Publicado por
admin

Postagens recentes

A alfândega chinesa negou a entrada de placas gráficas Nvidia H200.

Surgiram relatos ontem de que as autoridades chinesas exigiriam que os desenvolvedores locais comprassem placas…

21 minutos atrás

Cientistas resolveram um dos principais problemas dos modelos de IA: criaram a primeira IA com memória “infinita”.

Pesquisadores do Instituto de Tecnologia de Massachusetts (MIT) resolveram de forma elegante um dos principais…

32 minutos atrás

O VoidLink, um vírus modular perigoso para Linux, foi descoberto.

Especialistas em cibersegurança da Check Point Research descobriram um malware exclusivo, chamado VoidLink, em seu…

32 minutos atrás

Winnie’s Hole, o jogo assustador sobre a transformação do Ursinho Pooh em um monstro grotesco, ganhou um novo trailer e uma data de lançamento para o Acesso Antecipado no Steam.

Os desenvolvedores do estúdio australiano Twice Different (Ring of Pain) anunciaram a data de lançamento…

2 horas atrás