A DeepSeek desenvolveu uma nova maneira de economizar recursos no treinamento de IA.

A empresa chinesa DeepSeek celebrou o ano de 2025 com a publicação de um artigo que propõe uma reformulação da arquitetura fundamental usada para treinar modelos básicos de IA. O artigo foi escrito em coautoria com o CEO da empresa, Liang Wenfeng.

Fonte da imagem: Solen Feyissa / unsplash.com

A DeepSeek propôs um método chamado Hiperconexões com Restrições de Variedade (mHC). Esse método ajuda a melhorar a relação custo-benefício dos modelos e permite que eles se mantenham competitivos em relação às soluções americanas, cujos desenvolvedores têm acesso a recursos computacionais significativos. As pesquisas publicadas pela DeepSeek refletem a cultura aberta e colaborativa dos desenvolvedores de IA na China, que publicam uma parte significativa de suas pesquisas abertamente. Os artigos da DeepSeek também podem indicar soluções de engenharia que a empresa está utilizando em seus próximos modelos.

Uma equipe de 19 pesquisadores da empresa observou que o mHC foi testado em modelos com 3 bilhões, 9 bilhões e 27 bilhões de parâmetros, e seu uso não aumentou significativamente a carga computacional em comparação com o método tradicional de Hiperconexões (HC). O método básico de hiperconexão foi proposto por pesquisadores da ByteDance em setembro de 2024 como uma modificação das Redes Residuais (ResNet), a arquitetura dominante de aprendizado profundo introduzida pela Microsoft Research Asia em 2015.

A ResNet permite que redes neurais profundas sejam treinadas de forma a preservar informações-chave (dados residuais) à medida que o número de camadas aumenta.Essa arquitetura é usada para treinar os modelos GPT da OpenAI e AlphaFold do Google DeepMind, e possui uma limitação importante: à medida que o sinal de treinamento passa pelas camadas da rede neural, ele pode degenerar em uma representação universal que é a mesma para todas as camadas, o que significa que corre o risco de ser pouco informativo.Eles resolvem esse problema expandindo o fluxo de dados residuais e aumentando a complexidade da rede neural “sem alterar a carga computacional das unidades individuais”. No entanto, a DeepSeek observa que isso também aumenta a carga de memória, o que prejudica a escalabilidade dessa arquitetura no treinamento de modelos grandes.

Para solucionar esse problema, a DeepSeek propõe o método mHC, que “ajudará a eliminar as limitações existentes e poderá abrir novos caminhos para a evolução de arquiteturas fundamentais de próxima geração”. Os artigos de pesquisa publicados pela empresa frequentemente apontam para a direção técnica subjacente aos modelos subsequentes, segundo especialistas. A DeepSeek deve apresentar um novo modelo de grande porte em meados de fevereiro.

admin

Compartilhar
Publicado por
admin

Postagens recentes

A Huawei iniciou as vendas globais de suas soluções de data center com inteligência artificial.

Em meio ao crescente boom da IA, os compradores estão dispostos a pagar por uma…

4 horas atrás

A Nvidia lançou um driver de correção para resolver problemas de voltagem com a GeForce RTX 5000.

A Nvidia lançou a versão 595.76 do driver de correção, que resolve problemas de voltagem…

4 horas atrás

Android e Chrome OS serão unificados em uma única plataforma em 2026 – Google confirmou planos para o Aluminum OS.

O lançamento do Aluminum OS, que visa unificar o Chrome OS e o Android em…

4 horas atrás

Os rumores sobre o lançamento do Windows 12 este ano se revelaram falsos, mas a internet acreditou neles.

Informações sobre o lançamento iminente do sistema operacional Windows 12, que circularam recentemente online, foram…

4 horas atrás

Espanhóis criaram um painel solar “para todos os climas” que funciona tanto com luz solar quanto com gotas de chuva.

Cientistas espanhóis do Instituto de Ciência e Tecnologia de Materiais (ICMS) em Sevilha desenvolveram uma…

4 horas atrás

Aikido combina turbinas eólicas offshore com centros de dados modulares de IA.

A Aikido, fornecedora americana de turbinas eólicas flutuantes, apresentou uma plataforma de turbina eólica offshore…

5 horas atrás