O DeepSeek aprendeu a treinar modelos de linguagem de IA sem levar em consideração as limitações de memória.

Como observado recentemente, a largura de banda de memória usada na infraestrutura de IA está se tornando uma restrição significativa para melhorias adicionais de desempenho em modelos de linguagem. Representantes da DeepSeek afirmam ter desenvolvido um método para treinar modelos de IA que contorna essas limitações de memória.

Fonte da imagem: Unsplash, Solen Feyissa

Uma equipe de pesquisadores da Universidade de Pequim, em colaboração com Liang Wenfeng, um dos fundadores da DeepSeek, publicou um artigo explorando uma nova abordagem para o treinamento de modelos de linguagem que permite um “crescimento agressivo de parâmetros”, contornando as limitações do subsistema de memória usado em aceleradores de GPU.

A DeepSeek planeja lançar uma nova versão de seu modelo de linguagem de grande porte, mas o ritmo de seu desenvolvimento está sendo severamente prejudicado por restrições de exportação dos EUA e limitações de recursos na China. O novo artigo, coescrito por um dos fundadores da DeepSeek, será analisado atentamente por especialistas em IA tanto na China quanto no exterior.

A técnica de uso de memória “condicional” descrita no artigo foi apelidada de “Engram”, segundo o South China Morning Post. De acordo com os pesquisadores chineses, as abordagens computacionais existentes para o treinamento de grandes modelos de linguagem desperdiçam recursos em operações triviais que poderiam ser liberadas para raciocínio de alto nível.

Os pesquisadores propuseram, em certo sentido, separar o processamento e o gerenciamento de memória, garantindo uma recuperação mais eficiente de informações básicas. Ao mesmo tempo, a nova tecnologia permite que grandes modelos de linguagem lidem melhor com longas cadeias de contexto, aproximando-nos do objetivo de transformar agentes de IA em assistentes humanos completos.

Em um experimento, a nova abordagem para treinar um modelo com 27 bilhões de parâmetros resultou em um aumento no desempenho geral.O desempenho aumentou em vários pontos percentuais. Além disso, o sistema obteve mais recursos para realizar operações de raciocínio complexas. De acordo com os autores do estudo, essa abordagem será indispensável para o treinamento de modelos de linguagem de próxima geração em condições de recursos limitados. Segundo o The Information, a empresa chinesa DeepSeek pretende lançar um novo modelo V4 com recursos avançados de codificação até meados de fevereiro deste ano.

admin

Compartilhar
Publicado por
admin

Postagens recentes

11 TB de memória para IA: a Penguin Solutions apresenta o servidor de cache MemoryAI KV baseado em módulos CXL.

A Penguin Solutions anunciou o MemoryAI KV Cache Server, projetado para solucionar o problema de…

52 minutos atrás

A PlayStation vai receber um gerador de frames por IA semelhante ao da Radeon — mas não tão cedo.

O PlayStation da Sony começará a usar uma "biblioteca de geração de quadros equivalente" baseada…

52 minutos atrás

A Intel lançou inesperadamente o processador móvel Core i7-13645HX de 14 núcleos da geração Raptor Lake.

A Intel expandiu discretamente sua linha de processadores móveis Raptor Lake (Core de 13ª geração)…

52 minutos atrás

Crimson Desert foi lançado sem suporte para placas gráficas Intel Arc – e a Intel afirma que a culpa é dos desenvolvedores.

O novo jogo Crimson Desert, da desenvolvedora Pearl Abyss, foi lançado com uma ressalva surpreendente:…

1 hora atrás

Cientistas britânicos abandonaram o memristor convencional e fizeram uma descoberta inovadora na memória analógica.

Cientistas da Universidade de Cambridge desenvolveram um novo dispositivo nanoeletrônico que imita os princípios de…

1 hora atrás

Menos IA, mais confiabilidade: a Microsoft explica como irá restaurar a confiança perdida no Windows 11.

Nos últimos meses, a Microsoft parece ter feito esforços consideráveis ​​para provocar uma crise de…

2 horas atrás