À medida que a indústria de IA se recupera do choque do triunfo inesperado do DeepSeek da China, especialistas concluíram que o setor pode precisar repensar como treina modelos. Assim, os pesquisadores da DeepMind anunciaram a modernização do aprendizado distribuído, relata o The Register.

O DeepSeek causou pânico nos EUA com sua recente introdução de modelos de IA de ponta, alegando que pode treinar modelos a um custo muito menor do que, digamos, o OpenAI (o que é contestado) e usando um número relativamente pequeno de aceleradores NVIDIA. Embora as alegações da empresa sejam contestadas por muitos especialistas, o setor foi forçado a considerar quão eficaz é gastar dezenas de bilhões de dólares em modelos cada vez maiores quando resultados comparáveis ​​podem ser alcançados por uma fração do custo, usando menos data centers que consomem muita energia.

A subsidiária do Google, DeepMind, publicou os resultados de um estudo que descreve um método para treinamento distribuído de modelos de IA com bilhões de parâmetros usando clusters remotos uns dos outros, mantendo o nível necessário de qualidade de treinamento. No artigo “Streaming DiLoCo com comunicação sobreposta”, os pesquisadores expandem as ideias do DiLoCo (Distributed Low-Communication Training). Isso permitirá que os modelos sejam treinados em “ilhas” de dispositivos relativamente mal conectados.

Fonte da imagem: Igor Omilaev/unsplash.com

Hoje, treinar grandes modelos de linguagem pode exigir dezenas de milhares de aceleradores e interconexões eficientes de alta largura de banda e baixa latência. Ao mesmo tempo, os custos de rede estão crescendo rapidamente com o aumento do número de aceleradores. Portanto, em vez de um grande cluster, os hiperescaladores criam “ilhas” cuja velocidade de comunicação de rede e conectividade dentro deles são significativamente maiores do que entre eles.

O DeepMind, por outro lado, propõe o uso de clusters distribuídos com sincronização relativamente rara — exigirá muito menos largura de banda do canal de comunicação, mas sem comprometer a qualidade do treinamento. A tecnologia Streaming DiLoCo é uma versão avançada do método com sincronização de subconjuntos de parâmetros de acordo com um cronograma e redução do volume de dados a serem trocados sem perda de desempenho. A nova abordagem, de acordo com os pesquisadores, requer 400 vezes menos largura de banda de rede.

Fonte da imagem: DeepMind

A importância e as perspectivas potenciais da DiLoCo são observadas, por exemplo, pela Anthropic. A empresa diz que o Streaming DiLoCo é muito mais eficiente do que a versão regular do DiLoCo, com benefícios crescentes à medida que o modelo é expandido. Como resultado, presume-se que o treinamento de modelos no futuro poderá ser realizado continuamente usando milhares de sistemas distribuídos suficientemente distantes uns dos outros, o que reduzirá significativamente o limite de entrada para pequenas empresas de IA que não têm recursos para grandes data centers.

A Gartner diz que as técnicas já usadas pelo DeepSeek e DeepMind estão se tornando a norma. No final das contas, os recursos do data center serão usados ​​de forma cada vez mais eficiente. No entanto, a própria DeepMind vê o Streaming DiLoCo apenas como o primeiro passo para melhorar a tecnologia; desenvolvimento e testes adicionais são necessários. Há relatos de que a NVIDIA, cujos sistemas HPC já operam de acordo com um esquema semelhante, está atualmente considerando a possibilidade de combinar muitos data centers em um único megacluster virtual.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *