Categorias: Mercado de tecnologia e TI. notícia

Pesquisadores da DeepMind propõem treinamento distribuído de grandes modelos de IA que podem mudar toda a indústria

À medida que a indústria de IA se recupera do choque do triunfo inesperado do DeepSeek da China, especialistas concluíram que o setor pode precisar repensar como treina modelos. Assim, os pesquisadores da DeepMind anunciaram a modernização do aprendizado distribuído, relata o The Register.

O DeepSeek causou pânico nos EUA com sua recente introdução de modelos de IA de ponta, alegando que pode treinar modelos a um custo muito menor do que, digamos, o OpenAI (o que é contestado) e usando um número relativamente pequeno de aceleradores NVIDIA. Embora as alegações da empresa sejam contestadas por muitos especialistas, o setor foi forçado a considerar quão eficaz é gastar dezenas de bilhões de dólares em modelos cada vez maiores quando resultados comparáveis podem ser alcançados por uma fração do custo, usando menos data centers que consomem muita energia.

A subsidiária do Google, DeepMind, publicou os resultados de um estudo que descreve um método para treinamento distribuído de modelos de IA com bilhões de parâmetros usando clusters remotos uns dos outros, mantendo o nível necessário de qualidade de treinamento. No artigo “Streaming DiLoCo com comunicação sobreposta”, os pesquisadores expandem as ideias do DiLoCo (Distributed Low-Communication Training). Isso permitirá que os modelos sejam treinados em “ilhas” de dispositivos relativamente mal conectados.

Fonte da imagem: Igor Omilaev/unsplash.com

Hoje, treinar grandes modelos de linguagem pode exigir dezenas de milhares de aceleradores e interconexões eficientes de alta largura de banda e baixa latência. Ao mesmo tempo, os custos de rede estão crescendo rapidamente com o aumento do número de aceleradores. Portanto, em vez de um grande cluster, os hiperescaladores criam “ilhas” cuja velocidade de comunicação de rede e conectividade dentro deles são significativamente maiores do que entre eles.

O DeepMind, por outro lado, propõe o uso de clusters distribuídos com sincronização relativamente rara — exigirá muito menos largura de banda do canal de comunicação, mas sem comprometer a qualidade do treinamento. A tecnologia Streaming DiLoCo é uma versão avançada do método com sincronização de subconjuntos de parâmetros de acordo com um cronograma e redução do volume de dados a serem trocados sem perda de desempenho. A nova abordagem, de acordo com os pesquisadores, requer 400 vezes menos largura de banda de rede.

Fonte da imagem: DeepMind

A importância e as perspectivas potenciais da DiLoCo são observadas, por exemplo, pela Anthropic. A empresa diz que o Streaming DiLoCo é muito mais eficiente do que a versão regular do DiLoCo, com benefícios crescentes à medida que o modelo é expandido. Como resultado, presume-se que o treinamento de modelos no futuro poderá ser realizado continuamente usando milhares de sistemas distribuídos suficientemente distantes uns dos outros, o que reduzirá significativamente o limite de entrada para pequenas empresas de IA que não têm recursos para grandes data centers.

A Gartner diz que as técnicas já usadas pelo DeepSeek e DeepMind estão se tornando a norma. No final das contas, os recursos do data center serão usados de forma cada vez mais eficiente. No entanto, a própria DeepMind vê o Streaming DiLoCo apenas como o primeiro passo para melhorar a tecnologia; desenvolvimento e testes adicionais são necessários. Há relatos de que a NVIDIA, cujos sistemas HPC já operam de acordo com um esquema semelhante, está atualmente considerando a possibilidade de combinar muitos data centers em um único megacluster virtual.

avalanche

Próximo SSDs devem aumentar de preço no segundo semestre devido aos cortes na produção de NAND e ao hype da IA »

Anterior « A Apple apresentará o MacBook Pro com chips M5 neste outono, enquanto o iPad Pro os receberá apenas no ano que vem

Deixar comentário

Publicado por

avalanche

1 ano atrás

Postagens recentes

Carros, motos, veículos

A Xiaomi apresentou a próxima geração do carro elétrico SU7, com autonomia de até 902 km, LiDAR de série e, mais uma vez, mais barato que um Tesla.

A Xiaomi apresentou hoje oficialmente uma versão atualizada do veículo elétrico Xiaomi SU7, com uma…

50 minutos atrás

Na vanguarda da ciência

O veículo explorador Perseverance descobriu um antigo delta de rio escondido sob a superfície de Marte.

Como é sabido, o rover Perseverance da NASA está explorando o delta de um antigo…

2 horas atrás

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

A OpenAI adquiriu a Astral, uma startup que cria ferramentas de IA para desenvolvedores de software.

Na quinta-feira, a OpenAI anunciou a aquisição da Astral, uma pequena startup que cria ferramentas…

2 horas atrás

Sensores e sistemas de sensores

Os robôs aprenderam a reagir a erros mais rapidamente do que os humanos – utilizando o cérebro humano.

Cientistas da Universidade Estadual de Oklahoma desenvolveram um sistema de controle robótico neuroadaptativo que utiliza…

2 horas atrás

Notícias da rede

O Alibaba não atingiu as expectativas dos investidores no quarto trimestre, com o lucro líquido caindo 66%.

Hoje, a gigante chinesa de tecnologia Alibaba anunciou uma queda de 66% no lucro líquido…

3 horas atrás

Jogos

A Valve mudou o funcionamento do recarregamento no Counter-Strike após 26 anos.

Nos 26 anos desde o lançamento do Counter-Strike clássico, os jogadores se acostumaram com o…

3 horas atrás

Pesquisadores da DeepMind propõem treinamento distribuído de grandes modelos de IA que podem mudar toda a indústria

Conteúdo relacionado

Postagens recentes

A Xiaomi apresentou a próxima geração do carro elétrico SU7, com autonomia de até 902 km, LiDAR de série e, mais uma vez, mais barato que um Tesla.

O veículo explorador Perseverance descobriu um antigo delta de rio escondido sob a superfície de Marte.

A OpenAI adquiriu a Astral, uma startup que cria ferramentas de IA para desenvolvedores de software.

Os robôs aprenderam a reagir a erros mais rapidamente do que os humanos – utilizando o cérebro humano.

O Alibaba não atingiu as expectativas dos investidores no quarto trimestre, com o lucro líquido caindo 66%.

A Valve mudou o funcionamento do recarregamento no Counter-Strike após 26 anos.