Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

A DeepSeek desenvolveu uma nova maneira de economizar recursos no treinamento de IA.

A empresa chinesa DeepSeek celebrou o ano de 2025 com a publicação de um artigo que propõe uma reformulação da arquitetura fundamental usada para treinar modelos básicos de IA. O artigo foi escrito em coautoria com o CEO da empresa, Liang Wenfeng.

Fonte da imagem: Solen Feyissa / unsplash.com

A DeepSeek propôs um método chamado Hiperconexões com Restrições de Variedade (mHC). Esse método ajuda a melhorar a relação custo-benefício dos modelos e permite que eles se mantenham competitivos em relação às soluções americanas, cujos desenvolvedores têm acesso a recursos computacionais significativos. As pesquisas publicadas pela DeepSeek refletem a cultura aberta e colaborativa dos desenvolvedores de IA na China, que publicam uma parte significativa de suas pesquisas abertamente. Os artigos da DeepSeek também podem indicar soluções de engenharia que a empresa está utilizando em seus próximos modelos.

Uma equipe de 19 pesquisadores da empresa observou que o mHC foi testado em modelos com 3 bilhões, 9 bilhões e 27 bilhões de parâmetros, e seu uso não aumentou significativamente a carga computacional em comparação com o método tradicional de Hiperconexões (HC). O método básico de hiperconexão foi proposto por pesquisadores da ByteDance em setembro de 2024 como uma modificação das Redes Residuais (ResNet), a arquitetura dominante de aprendizado profundo introduzida pela Microsoft Research Asia em 2015.

A ResNet permite que redes neurais profundas sejam treinadas de forma a preservar informações-chave (dados residuais) à medida que o número de camadas aumenta.Essa arquitetura é usada para treinar os modelos GPT da OpenAI e AlphaFold do Google DeepMind, e possui uma limitação importante: à medida que o sinal de treinamento passa pelas camadas da rede neural, ele pode degenerar em uma representação universal que é a mesma para todas as camadas, o que significa que corre o risco de ser pouco informativo.Eles resolvem esse problema expandindo o fluxo de dados residuais e aumentando a complexidade da rede neural “sem alterar a carga computacional das unidades individuais”. No entanto, a DeepSeek observa que isso também aumenta a carga de memória, o que prejudica a escalabilidade dessa arquitetura no treinamento de modelos grandes.

Para solucionar esse problema, a DeepSeek propõe o método mHC, que “ajudará a eliminar as limitações existentes e poderá abrir novos caminhos para a evolução de arquiteturas fundamentais de próxima geração”. Os artigos de pesquisa publicados pela empresa frequentemente apontam para a direção técnica subjacente aos modelos subsequentes, segundo especialistas. A DeepSeek deve apresentar um novo modelo de grande porte em meados de fevereiro.

admin

Próximo Chaves de hardware do PS5 vazaram online – um jailbreak pode ser apenas uma questão de tempo. »

Anterior « A OpenAI concentra-se no desenvolvimento de IA de áudio para futuros dispositivos de hardware.

Deixar comentário

Publicado por

admin

2 meses atrás

Postagens recentes

Casos, computadores desktop

A Huawei iniciou as vendas globais de suas soluções de data center com inteligência artificial.

Em meio ao crescente boom da IA, os compradores estão dispostos a pagar por uma…

4 horas atrás

Motoristas

A Nvidia lançou um driver de correção para resolver problemas de voltagem com a GeForce RTX 5000.

A Nvidia lançou a versão 595.76 do driver de correção, que resolve problemas de voltagem…

4 horas atrás

Sistemas operacionais

Android e Chrome OS serão unificados em uma única plataforma em 2026 – Google confirmou planos para o Aluminum OS.

O lançamento do Aluminum OS, que visa unificar o Chrome OS e o Android em…

4 horas atrás

Notícias da rede

Os rumores sobre o lançamento do Windows 12 este ano se revelaram falsos, mas a internet acreditou neles.

Informações sobre o lançamento iminente do sistema operacional Windows 12, que circularam recentemente online, foram…

4 horas atrás

Na vanguarda da ciência

Espanhóis criaram um painel solar “para todos os climas” que funciona tanto com luz solar quanto com gotas de chuva.

Cientistas espanhóis do Instituto de Ciência e Tecnologia de Materiais (ICMS) em Sevilha desenvolveram uma…

4 horas atrás

Na vanguarda da ciência

Aikido combina turbinas eólicas offshore com centros de dados modulares de IA.

A Aikido, fornecedora americana de turbinas eólicas flutuantes, apresentou uma plataforma de turbina eólica offshore…

5 horas atrás