Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

O DeepSeek aprendeu a treinar modelos de linguagem de IA sem levar em consideração as limitações de memória.

Como observado recentemente, a largura de banda de memória usada na infraestrutura de IA está se tornando uma restrição significativa para melhorias adicionais de desempenho em modelos de linguagem. Representantes da DeepSeek afirmam ter desenvolvido um método para treinar modelos de IA que contorna essas limitações de memória.

Fonte da imagem: Unsplash, Solen Feyissa

Uma equipe de pesquisadores da Universidade de Pequim, em colaboração com Liang Wenfeng, um dos fundadores da DeepSeek, publicou um artigo explorando uma nova abordagem para o treinamento de modelos de linguagem que permite um “crescimento agressivo de parâmetros”, contornando as limitações do subsistema de memória usado em aceleradores de GPU.

A DeepSeek planeja lançar uma nova versão de seu modelo de linguagem de grande porte, mas o ritmo de seu desenvolvimento está sendo severamente prejudicado por restrições de exportação dos EUA e limitações de recursos na China. O novo artigo, coescrito por um dos fundadores da DeepSeek, será analisado atentamente por especialistas em IA tanto na China quanto no exterior.

A técnica de uso de memória “condicional” descrita no artigo foi apelidada de “Engram”, segundo o South China Morning Post. De acordo com os pesquisadores chineses, as abordagens computacionais existentes para o treinamento de grandes modelos de linguagem desperdiçam recursos em operações triviais que poderiam ser liberadas para raciocínio de alto nível.

Os pesquisadores propuseram, em certo sentido, separar o processamento e o gerenciamento de memória, garantindo uma recuperação mais eficiente de informações básicas. Ao mesmo tempo, a nova tecnologia permite que grandes modelos de linguagem lidem melhor com longas cadeias de contexto, aproximando-nos do objetivo de transformar agentes de IA em assistentes humanos completos.

Em um experimento, a nova abordagem para treinar um modelo com 27 bilhões de parâmetros resultou em um aumento no desempenho geral.O desempenho aumentou em vários pontos percentuais. Além disso, o sistema obteve mais recursos para realizar operações de raciocínio complexas. De acordo com os autores do estudo, essa abordagem será indispensável para o treinamento de modelos de linguagem de próxima geração em condições de recursos limitados. Segundo o The Information, a empresa chinesa DeepSeek pretende lançar um novo modelo V4 com recursos avançados de codificação até meados de fevereiro deste ano.

admin

Próximo Winnie's Hole, o jogo assustador sobre a transformação do Ursinho Pooh em um monstro grotesco, ganhou um novo trailer e uma data de lançamento para o Acesso Antecipado no Steam. »

Anterior « Os modelos de IA estão sendo estudados como organismos vivos, mas a matemática está piorando.

Deixar comentário

Publicado por

admin

6 meses atrás

Postagens recentes

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

Google renomeia AI notebook NotebookLM – agora é Gemini Notebook

O Google mudou o nome de sua ferramenta de mineração de dados, NotebookLM. Agora é…

1 hora atrás

Servidores, clusters, supercomputadores, computadores industriais e multiprocessadores

Spintrônica: o que aconteceu? / Offsyanka.

\nA carga elétrica serviu fielmente a humanidade, alimentando a operação de sistemas elétricos semicondutores, por…

2 horas atrás

Servidores, clusters, supercomputadores, computadores industriais e multiprocessadores

Elon Musk comprou empresa de energia por US$ 1 bilhão para abastecer a gigafábrica Colossus AI

\nElon Musk adquiriu discretamente a empresa de energia APR Energy, que opera uma frota de…

3 horas atrás

Jogos

Hot Wheels Infinite Rush saiu de Silent Hill: Townfall e Control Resonant – um jogo de arcade de corrida em miniatura será lançado duas semanas antes

\nDesenvolvido pelo estúdio italiano Milestone (séries MotoGP, MXGP, Ride), o arcade de corrida Hot Wheels…

4 horas atrás

Manipuladores, dispositivos gráficos de entrada

OpenAI esgotou todos os teclados Codex Micro em menos de 24 horas

\nO teclado compacto Codex Micro, resultado de um desenvolvimento conjunto da OpenAI e do fabricante…

5 horas atrás

Jogos

“O confronto um-a-um é ótimo”: os desenvolvedores de Call of Duty: Modern Warfare 4 não tiveram medo da concorrência com GTA VI

\nO codiretor do estúdio americano Infinity Ward, Mark Grigsby, em entrevista ao Destructoid, falou sobre…

6 horas atrás