Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

A DeepSeek desenvolveu uma nova maneira de economizar recursos no treinamento de IA.

A empresa chinesa DeepSeek celebrou o ano de 2025 com a publicação de um artigo que propõe uma reformulação da arquitetura fundamental usada para treinar modelos básicos de IA. O artigo foi escrito em coautoria com o CEO da empresa, Liang Wenfeng.

Fonte da imagem: Solen Feyissa / unsplash.com

A DeepSeek propôs um método chamado Hiperconexões com Restrições de Variedade (mHC). Esse método ajuda a melhorar a relação custo-benefício dos modelos e permite que eles se mantenham competitivos em relação às soluções americanas, cujos desenvolvedores têm acesso a recursos computacionais significativos. As pesquisas publicadas pela DeepSeek refletem a cultura aberta e colaborativa dos desenvolvedores de IA na China, que publicam uma parte significativa de suas pesquisas abertamente. Os artigos da DeepSeek também podem indicar soluções de engenharia que a empresa está utilizando em seus próximos modelos.

Uma equipe de 19 pesquisadores da empresa observou que o mHC foi testado em modelos com 3 bilhões, 9 bilhões e 27 bilhões de parâmetros, e seu uso não aumentou significativamente a carga computacional em comparação com o método tradicional de Hiperconexões (HC). O método básico de hiperconexão foi proposto por pesquisadores da ByteDance em setembro de 2024 como uma modificação das Redes Residuais (ResNet), a arquitetura dominante de aprendizado profundo introduzida pela Microsoft Research Asia em 2015.

A ResNet permite que redes neurais profundas sejam treinadas de forma a preservar informações-chave (dados residuais) à medida que o número de camadas aumenta.Essa arquitetura é usada para treinar os modelos GPT da OpenAI e AlphaFold do Google DeepMind, e possui uma limitação importante: à medida que o sinal de treinamento passa pelas camadas da rede neural, ele pode degenerar em uma representação universal que é a mesma para todas as camadas, o que significa que corre o risco de ser pouco informativo.Eles resolvem esse problema expandindo o fluxo de dados residuais e aumentando a complexidade da rede neural “sem alterar a carga computacional das unidades individuais”. No entanto, a DeepSeek observa que isso também aumenta a carga de memória, o que prejudica a escalabilidade dessa arquitetura no treinamento de modelos grandes.

Para solucionar esse problema, a DeepSeek propõe o método mHC, que “ajudará a eliminar as limitações existentes e poderá abrir novos caminhos para a evolução de arquiteturas fundamentais de próxima geração”. Os artigos de pesquisa publicados pela empresa frequentemente apontam para a direção técnica subjacente aos modelos subsequentes, segundo especialistas. A DeepSeek deve apresentar um novo modelo de grande porte em meados de fevereiro.

admin

Próximo Chaves de hardware do PS5 vazaram online – um jailbreak pode ser apenas uma questão de tempo. »

Anterior « A OpenAI concentra-se no desenvolvimento de IA de áudio para futuros dispositivos de hardware.

Deixar comentário

Publicado por

admin

6 meses atrás

Postagens recentes

Espaço

Detritos espaciais atingiram a órbita geossíncrona – e ameaçam satélites caros

Pequenos pedaços de detritos espaciais medindo apenas cerca de 5 centímetros de tamanho espalharam-se pela…

1 hora atrás

Monitores, projetores, sintonizadores de TV, televisões

A Acer lançou um monitor 3D sem óculos Predator XB273K 3D por US$ 1.100, mas até agora apenas na China

\nAcer lançou um monitor de jogos 3D Predator XB273K de 27 polegadas, anunciado um mês…

1 hora atrás

Desenvolvimento e fabricação de eletrônicos

A Intel investirá 5 bilhões de euros na maior fábrica de chips da Europa para produzir lá processadores Angstrom

\nA Intel está investindo € 5 bilhões para expandir sua unidade de produção em Leixlip,…

2 horas atrás

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

As ações da Apple voltaram a crescer – os investidores apreciaram a cautela com os investimentos em IA

\nAs ações da Apple caíram significativamente após as apresentações na conferência WWDC 2026, o que…

2 horas atrás

Vírus, cavalos de Troia, vulnerabilidades de software, problemas de segurança

O Trojan RedHook começou a se espalhar pelos smartphones Android, drenando as contas bancárias das vítimas.

\nEspecialistas do Group-IB, empresa que atua na área de segurança da informação, relataram a identificação…

2 horas atrás

Jogos

Thriller criptográfico False Echo no espírito de Papers, Please enviará os jogadores para decidir o que é verdadeiro e o que é falso

\nDesenvolvedores do estúdio sérvio Retromagine, através do portal IGN, apresentaram o trailer oficial de False…

3 horas atrás