A DeepSeek desenvolveu uma nova maneira de economizar recursos no treinamento de IA.

A empresa chinesa DeepSeek celebrou o ano de 2025 com a publicação de um artigo que propõe uma reformulação da arquitetura fundamental usada para treinar modelos básicos de IA. O artigo foi escrito em coautoria com o CEO da empresa, Liang Wenfeng.

Fonte da imagem: Solen Feyissa / unsplash.com

A DeepSeek propôs um método chamado Hiperconexões com Restrições de Variedade (mHC). Esse método ajuda a melhorar a relação custo-benefício dos modelos e permite que eles se mantenham competitivos em relação às soluções americanas, cujos desenvolvedores têm acesso a recursos computacionais significativos. As pesquisas publicadas pela DeepSeek refletem a cultura aberta e colaborativa dos desenvolvedores de IA na China, que publicam uma parte significativa de suas pesquisas abertamente. Os artigos da DeepSeek também podem indicar soluções de engenharia que a empresa está utilizando em seus próximos modelos.

Uma equipe de 19 pesquisadores da empresa observou que o mHC foi testado em modelos com 3 bilhões, 9 bilhões e 27 bilhões de parâmetros, e seu uso não aumentou significativamente a carga computacional em comparação com o método tradicional de Hiperconexões (HC). O método básico de hiperconexão foi proposto por pesquisadores da ByteDance em setembro de 2024 como uma modificação das Redes Residuais (ResNet), a arquitetura dominante de aprendizado profundo introduzida pela Microsoft Research Asia em 2015.

A ResNet permite que redes neurais profundas sejam treinadas de forma a preservar informações-chave (dados residuais) à medida que o número de camadas aumenta.Essa arquitetura é usada para treinar os modelos GPT da OpenAI e AlphaFold do Google DeepMind, e possui uma limitação importante: à medida que o sinal de treinamento passa pelas camadas da rede neural, ele pode degenerar em uma representação universal que é a mesma para todas as camadas, o que significa que corre o risco de ser pouco informativo.Eles resolvem esse problema expandindo o fluxo de dados residuais e aumentando a complexidade da rede neural “sem alterar a carga computacional das unidades individuais”. No entanto, a DeepSeek observa que isso também aumenta a carga de memória, o que prejudica a escalabilidade dessa arquitetura no treinamento de modelos grandes.

Para solucionar esse problema, a DeepSeek propõe o método mHC, que “ajudará a eliminar as limitações existentes e poderá abrir novos caminhos para a evolução de arquiteturas fundamentais de próxima geração”. Os artigos de pesquisa publicados pela empresa frequentemente apontam para a direção técnica subjacente aos modelos subsequentes, segundo especialistas. A DeepSeek deve apresentar um novo modelo de grande porte em meados de fevereiro.

admin

Compartilhar
Publicado por
admin

Postagens recentes

Anunciada a ventoinha para gabinete Eurocase EU-FN120ARGB_8+14 de 120 mm com operação silenciosa e iluminação ARGB.

A fabricante de componentes para computadores Eurocase anunciou o lançamento de sua nova ventoinha de…

2 horas atrás

ASRock anuncia os monitores para jogos Taichi e Phantom Gaming com tecnologias QD-OLED e Tandem OLED.

A ASRock está celebrando o 10º aniversário da marca Taichi com o lançamento de uma…

2 horas atrás

Forza Horizon 6 – Uma Viagem Ventosa ao Japão. Análise

Jogado no Xbox Series S Mais cedo ou mais tarde, Forza Horizon estava destinado a…

3 horas atrás

A Microsoft ignorou bugs do Windows e depois ameaçou processar criminalmente um pesquisador por publicá-los.

A Microsoft ameaçou processar criminalmente um pesquisador independente que publicou um código de exploração de…

3 horas atrás

O período de testes abertos do jogo de ação sombria Mistfall Hunter, com sua mecânica de evacuação não convencional, começa em 15 de junho.

A Bellring Games, com o apoio da Skystone Games, lançou um trailer de visão geral…

4 horas atrás

A OpenAI irá desativar os modelos de IA GPT-4.5 e o3 até o final do verão.

A OpenAI está se preparando para desativar o último de seus modelos de IA da…

4 horas atrás