A DeepSeek desenvolveu uma nova maneira de economizar recursos no treinamento de IA.

A empresa chinesa DeepSeek celebrou o ano de 2025 com a publicação de um artigo que propõe uma reformulação da arquitetura fundamental usada para treinar modelos básicos de IA. O artigo foi escrito em coautoria com o CEO da empresa, Liang Wenfeng.

Fonte da imagem: Solen Feyissa / unsplash.com

A DeepSeek propôs um método chamado Hiperconexões com Restrições de Variedade (mHC). Esse método ajuda a melhorar a relação custo-benefício dos modelos e permite que eles se mantenham competitivos em relação às soluções americanas, cujos desenvolvedores têm acesso a recursos computacionais significativos. As pesquisas publicadas pela DeepSeek refletem a cultura aberta e colaborativa dos desenvolvedores de IA na China, que publicam uma parte significativa de suas pesquisas abertamente. Os artigos da DeepSeek também podem indicar soluções de engenharia que a empresa está utilizando em seus próximos modelos.

Uma equipe de 19 pesquisadores da empresa observou que o mHC foi testado em modelos com 3 bilhões, 9 bilhões e 27 bilhões de parâmetros, e seu uso não aumentou significativamente a carga computacional em comparação com o método tradicional de Hiperconexões (HC). O método básico de hiperconexão foi proposto por pesquisadores da ByteDance em setembro de 2024 como uma modificação das Redes Residuais (ResNet), a arquitetura dominante de aprendizado profundo introduzida pela Microsoft Research Asia em 2015.

A ResNet permite que redes neurais profundas sejam treinadas de forma a preservar informações-chave (dados residuais) à medida que o número de camadas aumenta.Essa arquitetura é usada para treinar os modelos GPT da OpenAI e AlphaFold do Google DeepMind, e possui uma limitação importante: à medida que o sinal de treinamento passa pelas camadas da rede neural, ele pode degenerar em uma representação universal que é a mesma para todas as camadas, o que significa que corre o risco de ser pouco informativo.Eles resolvem esse problema expandindo o fluxo de dados residuais e aumentando a complexidade da rede neural “sem alterar a carga computacional das unidades individuais”. No entanto, a DeepSeek observa que isso também aumenta a carga de memória, o que prejudica a escalabilidade dessa arquitetura no treinamento de modelos grandes.

Para solucionar esse problema, a DeepSeek propõe o método mHC, que “ajudará a eliminar as limitações existentes e poderá abrir novos caminhos para a evolução de arquiteturas fundamentais de próxima geração”. Os artigos de pesquisa publicados pela empresa frequentemente apontam para a direção técnica subjacente aos modelos subsequentes, segundo especialistas. A DeepSeek deve apresentar um novo modelo de grande porte em meados de fevereiro.

admin

Compartilhar
Publicado por
admin

Postagens recentes

A Microsoft corrigiu um bug do Windows 11 que fazia com que os PCs fossem ativados e perdessem a energia da bateria.

A Microsoft anunciou que os processos em segundo plano no Windows 11 não causam mais…

56 minutos atrás

A AMD lançou um driver com suporte para Yakuza Kiwami 3 e Nioh 3.

A AMD lançou a versão mais recente do driver gráfico Radeon Software Adrenalin 26.2.1 WHQL.…

1 hora atrás

A HP agora oferece laptops para jogos por meio de assinatura, a partir de US$ 50 por mês, sem opção de compra definitiva.

A HP vem desenvolvendo discretamente um serviço de aluguel de notebooks e acessórios para jogos…

1 hora atrás

O jogo de tiro clássico Starship Troopers: Ultimate Bug War, dos criadores de Warhammer 40,000: Boltgun, recebeu data de lançamento e uma demo no Steam.

A editora Dotemu e os desenvolvedores do estúdio britânico Auroch Digital (Warhammer 40,000: Boltgun) anunciaram…

3 horas atrás

Uma demo do jogo de ação cyberpunk Replaced foi lançada no Steam, e os primeiros jogadores estão encantados.

A Sad Cat Studios, uma equipe polonesa com raízes bielorrussas, e a editora Thunderful Publishing…

4 horas atrás

A T-Mobile lançará tradução automática em tempo real de chamadas telefônicas em 50 idiomas, sem a necessidade de aplicativos adicionais.

A T-Mobile está se preparando para lançar um novo recurso com inteligência artificial chamado "Tradução…

4 horas atrás