Pesquisadores da DeepMind propõem treinamento distribuído de grandes modelos de IA que podem mudar toda a indústria

À medida que a indústria de IA se recupera do choque do triunfo inesperado do DeepSeek da China, especialistas concluíram que o setor pode precisar repensar como treina modelos. Assim, os pesquisadores da DeepMind anunciaram a modernização do aprendizado distribuído, relata o The Register.

O DeepSeek causou pânico nos EUA com sua recente introdução de modelos de IA de ponta, alegando que pode treinar modelos a um custo muito menor do que, digamos, o OpenAI (o que é contestado) e usando um número relativamente pequeno de aceleradores NVIDIA. Embora as alegações da empresa sejam contestadas por muitos especialistas, o setor foi forçado a considerar quão eficaz é gastar dezenas de bilhões de dólares em modelos cada vez maiores quando resultados comparáveis ​​podem ser alcançados por uma fração do custo, usando menos data centers que consomem muita energia.

A subsidiária do Google, DeepMind, publicou os resultados de um estudo que descreve um método para treinamento distribuído de modelos de IA com bilhões de parâmetros usando clusters remotos uns dos outros, mantendo o nível necessário de qualidade de treinamento. No artigo “Streaming DiLoCo com comunicação sobreposta”, os pesquisadores expandem as ideias do DiLoCo (Distributed Low-Communication Training). Isso permitirá que os modelos sejam treinados em “ilhas” de dispositivos relativamente mal conectados.

Fonte da imagem: Igor Omilaev/unsplash.com

Hoje, treinar grandes modelos de linguagem pode exigir dezenas de milhares de aceleradores e interconexões eficientes de alta largura de banda e baixa latência. Ao mesmo tempo, os custos de rede estão crescendo rapidamente com o aumento do número de aceleradores. Portanto, em vez de um grande cluster, os hiperescaladores criam “ilhas” cuja velocidade de comunicação de rede e conectividade dentro deles são significativamente maiores do que entre eles.

O DeepMind, por outro lado, propõe o uso de clusters distribuídos com sincronização relativamente rara — exigirá muito menos largura de banda do canal de comunicação, mas sem comprometer a qualidade do treinamento. A tecnologia Streaming DiLoCo é uma versão avançada do método com sincronização de subconjuntos de parâmetros de acordo com um cronograma e redução do volume de dados a serem trocados sem perda de desempenho. A nova abordagem, de acordo com os pesquisadores, requer 400 vezes menos largura de banda de rede.

Fonte da imagem: DeepMind

A importância e as perspectivas potenciais da DiLoCo são observadas, por exemplo, pela Anthropic. A empresa diz que o Streaming DiLoCo é muito mais eficiente do que a versão regular do DiLoCo, com benefícios crescentes à medida que o modelo é expandido. Como resultado, presume-se que o treinamento de modelos no futuro poderá ser realizado continuamente usando milhares de sistemas distribuídos suficientemente distantes uns dos outros, o que reduzirá significativamente o limite de entrada para pequenas empresas de IA que não têm recursos para grandes data centers.

A Gartner diz que as técnicas já usadas pelo DeepSeek e DeepMind estão se tornando a norma. No final das contas, os recursos do data center serão usados ​​de forma cada vez mais eficiente. No entanto, a própria DeepMind vê o Streaming DiLoCo apenas como o primeiro passo para melhorar a tecnologia; desenvolvimento e testes adicionais são necessários. Há relatos de que a NVIDIA, cujos sistemas HPC já operam de acordo com um esquema semelhante, está atualmente considerando a possibilidade de combinar muitos data centers em um único megacluster virtual.

avalanche

Postagens recentes

O iPhone dobrável vai revolucionar o mercado, com o formato de livro na liderança.

Muitos analistas, inclusive concorrentes da Apple, preveem que o lançamento do primeiro iPhone dobrável com…

33 minutos atrás

O iPhone dobrável vai revolucionar o mercado, com o formato de livro na liderança.

Muitos analistas, inclusive concorrentes da Apple, preveem que o lançamento do primeiro iPhone dobrável com…

33 minutos atrás

A Xiaomi criou “inteligência” para robôs: um modelo de IA com 4,7 bilhões de parâmetros que combina visão, linguagem e ações.

A Xiaomi, empresa chinesa conhecida principalmente como fabricante de dispositivos móveis, equipamentos para casas inteligentes…

50 minutos atrás

A OpenAI desfez a equipe que explicou sua missão ao mundo.

A OpenAI dissolveu a equipe responsável por comunicar a missão da empresa ao público e…

50 minutos atrás

O Steam Deck desapareceu completamente das lojas nos EUA, e a Valve não se pronunciou sobre os motivos.

Aparentemente, a Valve esgotou seu estoque do console portátil Steam Deck nos EUA. Esta semana,…

1 hora atrás

Os alcanos antigos encontrados em Marte são difíceis de explicar sem a participação de vida.

Em 2025, o rover Curiosity da NASA descobriu moléculas orgânicas de cadeia longa — alcanos…

1 hora atrás