Categorias: Mercado de tecnologia e TI. notícia

Pesquisadores da DeepMind propõem treinamento distribuído de grandes modelos de IA que podem mudar toda a indústria

À medida que a indústria de IA se recupera do choque do triunfo inesperado do DeepSeek da China, especialistas concluíram que o setor pode precisar repensar como treina modelos. Assim, os pesquisadores da DeepMind anunciaram a modernização do aprendizado distribuído, relata o The Register.

O DeepSeek causou pânico nos EUA com sua recente introdução de modelos de IA de ponta, alegando que pode treinar modelos a um custo muito menor do que, digamos, o OpenAI (o que é contestado) e usando um número relativamente pequeno de aceleradores NVIDIA. Embora as alegações da empresa sejam contestadas por muitos especialistas, o setor foi forçado a considerar quão eficaz é gastar dezenas de bilhões de dólares em modelos cada vez maiores quando resultados comparáveis podem ser alcançados por uma fração do custo, usando menos data centers que consomem muita energia.

A subsidiária do Google, DeepMind, publicou os resultados de um estudo que descreve um método para treinamento distribuído de modelos de IA com bilhões de parâmetros usando clusters remotos uns dos outros, mantendo o nível necessário de qualidade de treinamento. No artigo “Streaming DiLoCo com comunicação sobreposta”, os pesquisadores expandem as ideias do DiLoCo (Distributed Low-Communication Training). Isso permitirá que os modelos sejam treinados em “ilhas” de dispositivos relativamente mal conectados.

Fonte da imagem: Igor Omilaev/unsplash.com

Hoje, treinar grandes modelos de linguagem pode exigir dezenas de milhares de aceleradores e interconexões eficientes de alta largura de banda e baixa latência. Ao mesmo tempo, os custos de rede estão crescendo rapidamente com o aumento do número de aceleradores. Portanto, em vez de um grande cluster, os hiperescaladores criam “ilhas” cuja velocidade de comunicação de rede e conectividade dentro deles são significativamente maiores do que entre eles.

O DeepMind, por outro lado, propõe o uso de clusters distribuídos com sincronização relativamente rara — exigirá muito menos largura de banda do canal de comunicação, mas sem comprometer a qualidade do treinamento. A tecnologia Streaming DiLoCo é uma versão avançada do método com sincronização de subconjuntos de parâmetros de acordo com um cronograma e redução do volume de dados a serem trocados sem perda de desempenho. A nova abordagem, de acordo com os pesquisadores, requer 400 vezes menos largura de banda de rede.

Fonte da imagem: DeepMind

A importância e as perspectivas potenciais da DiLoCo são observadas, por exemplo, pela Anthropic. A empresa diz que o Streaming DiLoCo é muito mais eficiente do que a versão regular do DiLoCo, com benefícios crescentes à medida que o modelo é expandido. Como resultado, presume-se que o treinamento de modelos no futuro poderá ser realizado continuamente usando milhares de sistemas distribuídos suficientemente distantes uns dos outros, o que reduzirá significativamente o limite de entrada para pequenas empresas de IA que não têm recursos para grandes data centers.

A Gartner diz que as técnicas já usadas pelo DeepSeek e DeepMind estão se tornando a norma. No final das contas, os recursos do data center serão usados de forma cada vez mais eficiente. No entanto, a própria DeepMind vê o Streaming DiLoCo apenas como o primeiro passo para melhorar a tecnologia; desenvolvimento e testes adicionais são necessários. Há relatos de que a NVIDIA, cujos sistemas HPC já operam de acordo com um esquema semelhante, está atualmente considerando a possibilidade de combinar muitos data centers em um único megacluster virtual.

avalanche

Próximo SSDs devem aumentar de preço no segundo semestre devido aos cortes na produção de NAND e ao hype da IA »

Anterior « A Apple apresentará o MacBook Pro com chips M5 neste outono, enquanto o iPad Pro os receberá apenas no ano que vem

Deixar comentário

Publicado por

avalanche

1 ano atrás

Postagens recentes

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

O Google começou a implementar agentes de busca com IA, mas, por enquanto, apenas para usuários pagos.

Em sua conferência de maio, o Google apresentou uma nova tecnologia: mecanismos de busca com…

2 horas atrás

Redes e comunicações

A Netgear acusou a subsidiária americana da TP-Link de manter laços estreitos com Pequim.

Nos Estados Unidos, continua a disputa judicial entre as fabricantes de roteadores Netgear e TP-Link…

2 horas atrás

Nanotecnologia

Cientistas criaram um neuroestimulador sem fio do tamanho de um grão de arroz — é fácil de inserir e suprime a dor.

Pesquisadores de Abu Dhabi desenvolveram um minúsculo dispositivo sem fio, aproximadamente do tamanho de um…

2 horas atrás

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

Procuradores-gerais de vários estados dos EUA iniciaram investigações contra a OpenAI.

Uma coalizão de procuradores-gerais de vários estados americanos lançou uma investigação em larga escala contra…

4 horas atrás

Programas

Motoristas da Tesla aprenderam a enganar o piloto automático com uma cabeça de brinquedo para navegar nas redes sociais enquanto dirigem.

Na China, descobriram uma maneira de burlar o sistema de assistência ao condutor Full Self-Driving…

4 horas atrás

Na vanguarda da ciência

Os japoneses criaram um eletrolisador sem bateria para a síntese eficiente de combustível a partir de água, dióxido de carbono e luz solar.

Cientistas da Universidade Metropolitana de Osaka desenvolveram um sistema de fotossíntese artificial que converte luz…

4 horas atrás

Pesquisadores da DeepMind propõem treinamento distribuído de grandes modelos de IA que podem mudar toda a indústria

Conteúdo relacionado

Postagens recentes

O Google começou a implementar agentes de busca com IA, mas, por enquanto, apenas para usuários pagos.

A Netgear acusou a subsidiária americana da TP-Link de manter laços estreitos com Pequim.

Cientistas criaram um neuroestimulador sem fio do tamanho de um grão de arroz — é fácil de inserir e suprime a dor.

Procuradores-gerais de vários estados dos EUA iniciaram investigações contra a OpenAI.

Motoristas da Tesla aprenderam a enganar o piloto automático com uma cabeça de brinquedo para navegar nas redes sociais enquanto dirigem.

Os japoneses criaram um eletrolisador sem bateria para a síntese eficiente de combustível a partir de água, dióxido de carbono e luz solar.