Pesquisadores da DeepMind propõem treinamento distribuído de grandes modelos de IA que podem mudar toda a indústria

À medida que a indústria de IA se recupera do choque do triunfo inesperado do DeepSeek da China, especialistas concluíram que o setor pode precisar repensar como treina modelos. Assim, os pesquisadores da DeepMind anunciaram a modernização do aprendizado distribuído, relata o The Register.

O DeepSeek causou pânico nos EUA com sua recente introdução de modelos de IA de ponta, alegando que pode treinar modelos a um custo muito menor do que, digamos, o OpenAI (o que é contestado) e usando um número relativamente pequeno de aceleradores NVIDIA. Embora as alegações da empresa sejam contestadas por muitos especialistas, o setor foi forçado a considerar quão eficaz é gastar dezenas de bilhões de dólares em modelos cada vez maiores quando resultados comparáveis ​​podem ser alcançados por uma fração do custo, usando menos data centers que consomem muita energia.

A subsidiária do Google, DeepMind, publicou os resultados de um estudo que descreve um método para treinamento distribuído de modelos de IA com bilhões de parâmetros usando clusters remotos uns dos outros, mantendo o nível necessário de qualidade de treinamento. No artigo “Streaming DiLoCo com comunicação sobreposta”, os pesquisadores expandem as ideias do DiLoCo (Distributed Low-Communication Training). Isso permitirá que os modelos sejam treinados em “ilhas” de dispositivos relativamente mal conectados.

Fonte da imagem: Igor Omilaev/unsplash.com

Hoje, treinar grandes modelos de linguagem pode exigir dezenas de milhares de aceleradores e interconexões eficientes de alta largura de banda e baixa latência. Ao mesmo tempo, os custos de rede estão crescendo rapidamente com o aumento do número de aceleradores. Portanto, em vez de um grande cluster, os hiperescaladores criam “ilhas” cuja velocidade de comunicação de rede e conectividade dentro deles são significativamente maiores do que entre eles.

O DeepMind, por outro lado, propõe o uso de clusters distribuídos com sincronização relativamente rara — exigirá muito menos largura de banda do canal de comunicação, mas sem comprometer a qualidade do treinamento. A tecnologia Streaming DiLoCo é uma versão avançada do método com sincronização de subconjuntos de parâmetros de acordo com um cronograma e redução do volume de dados a serem trocados sem perda de desempenho. A nova abordagem, de acordo com os pesquisadores, requer 400 vezes menos largura de banda de rede.

Fonte da imagem: DeepMind

A importância e as perspectivas potenciais da DiLoCo são observadas, por exemplo, pela Anthropic. A empresa diz que o Streaming DiLoCo é muito mais eficiente do que a versão regular do DiLoCo, com benefícios crescentes à medida que o modelo é expandido. Como resultado, presume-se que o treinamento de modelos no futuro poderá ser realizado continuamente usando milhares de sistemas distribuídos suficientemente distantes uns dos outros, o que reduzirá significativamente o limite de entrada para pequenas empresas de IA que não têm recursos para grandes data centers.

A Gartner diz que as técnicas já usadas pelo DeepSeek e DeepMind estão se tornando a norma. No final das contas, os recursos do data center serão usados ​​de forma cada vez mais eficiente. No entanto, a própria DeepMind vê o Streaming DiLoCo apenas como o primeiro passo para melhorar a tecnologia; desenvolvimento e testes adicionais são necessários. Há relatos de que a NVIDIA, cujos sistemas HPC já operam de acordo com um esquema semelhante, está atualmente considerando a possibilidade de combinar muitos data centers em um único megacluster virtual.

avalanche

Postagens recentes

“Eu nem imaginava que isso fosse possível”: modder assume a tarefa de portar The Elder Scrolls III: Morrowind para Elden Ring

Enquanto alguns fãs estão recriando The Elder Scrolls III: Morrowind no motor Skyrim, outros estão…

9 horas atrás

Kojima revelará segredo sobre jogos futuros em homenagem ao 10º aniversário da Kojima Productions

O estúdio japonês Kojima Productions, fundado no final de 2015 pelo renomado designer de jogos…

11 horas atrás

Calendário de Lançamentos – 1 a 7 de setembro: Hollow Knight: Silksong, Cronos: The New Dawn e Metal Eden

Análise do modo ranqueado de Warface: fácil de pegar o jeito, difícil de largar

12 horas atrás

CD Projekt Red intriga fãs de Cyberpunk 2077 com teaser misterioso do presidente dos EUA

Embora o suporte de conteúdo para o RPG de ação cyberpunk em primeira pessoa Cyberpunk…

12 horas atrás

A seleção de horas e minutos do despertador do iPhone não é um ciclo, mas uma longa lista com um final inesperado

Parece difícil imaginar algo mais elementar do ponto de vista do usuário do que escolher…

13 horas atrás