A DeepSeek desenvolveu uma nova maneira de economizar recursos no treinamento de IA.

A empresa chinesa DeepSeek celebrou o ano de 2025 com a publicação de um artigo que propõe uma reformulação da arquitetura fundamental usada para treinar modelos básicos de IA. O artigo foi escrito em coautoria com o CEO da empresa, Liang Wenfeng.

Fonte da imagem: Solen Feyissa / unsplash.com

A DeepSeek propôs um método chamado Hiperconexões com Restrições de Variedade (mHC). Esse método ajuda a melhorar a relação custo-benefício dos modelos e permite que eles se mantenham competitivos em relação às soluções americanas, cujos desenvolvedores têm acesso a recursos computacionais significativos. As pesquisas publicadas pela DeepSeek refletem a cultura aberta e colaborativa dos desenvolvedores de IA na China, que publicam uma parte significativa de suas pesquisas abertamente. Os artigos da DeepSeek também podem indicar soluções de engenharia que a empresa está utilizando em seus próximos modelos.

Uma equipe de 19 pesquisadores da empresa observou que o mHC foi testado em modelos com 3 bilhões, 9 bilhões e 27 bilhões de parâmetros, e seu uso não aumentou significativamente a carga computacional em comparação com o método tradicional de Hiperconexões (HC). O método básico de hiperconexão foi proposto por pesquisadores da ByteDance em setembro de 2024 como uma modificação das Redes Residuais (ResNet), a arquitetura dominante de aprendizado profundo introduzida pela Microsoft Research Asia em 2015.

A ResNet permite que redes neurais profundas sejam treinadas de forma a preservar informações-chave (dados residuais) à medida que o número de camadas aumenta.Essa arquitetura é usada para treinar os modelos GPT da OpenAI e AlphaFold do Google DeepMind, e possui uma limitação importante: à medida que o sinal de treinamento passa pelas camadas da rede neural, ele pode degenerar em uma representação universal que é a mesma para todas as camadas, o que significa que corre o risco de ser pouco informativo.Eles resolvem esse problema expandindo o fluxo de dados residuais e aumentando a complexidade da rede neural “sem alterar a carga computacional das unidades individuais”. No entanto, a DeepSeek observa que isso também aumenta a carga de memória, o que prejudica a escalabilidade dessa arquitetura no treinamento de modelos grandes.

Para solucionar esse problema, a DeepSeek propõe o método mHC, que “ajudará a eliminar as limitações existentes e poderá abrir novos caminhos para a evolução de arquiteturas fundamentais de próxima geração”. Os artigos de pesquisa publicados pela empresa frequentemente apontam para a direção técnica subjacente aos modelos subsequentes, segundo especialistas. A DeepSeek deve apresentar um novo modelo de grande porte em meados de fevereiro.

admin

Compartilhar
Publicado por
admin

Postagens recentes

Um robô voador foi criado sem uma única hélice – ele plana em correntes ascendentes como um pássaro.

Cientistas do Instituto Max Planck de Sistemas Inteligentes em Tübingen e da Universidade de Stuttgart…

28 minutos atrás

O grupo Anthropic Mythos invadiu quase todos os sistemas confidenciais da NSA em questão de horas.

Um modelo avançado de inteligência artificial, o Anthropic Mythos, conseguiu invadir "quase todos" os sistemas…

52 minutos atrás

Estreia do gameplay de Saw: Genesis, um jogo de terror multiplayer baseado no universo cult dos filmes Saw.

Os desenvolvedores da Broken Mirror Games, com o apoio da editora Bloober Team e do…

52 minutos atrás

Os smartphones Google Pixel receberão “memória de áudio” – eles gravarão tudo o que o usuário ouvir ao longo do dia.

Foram descobertas linhas de código indicando um novo recurso de "Memória de Áudio", com o…

1 hora atrás

A soberania tecnológica da UE terá um custo elevado para os consumidores, alertaram os fabricantes de automóveis europeus.

No mês passado, as autoridades europeias apresentaram um pacote de projetos de lei com o…

2 horas atrás