Categorias: Mercado de tecnologia e TI. notícia

Cerebras pronta para construir clusters massivos de IA CS-2 com 163 milhões de núcleos

Na recente conferência Hot Chips 2023, Cerebras, criadora do maior processador de IA do mundo, WSE-2, falou sobre sua visão do futuro dos sistemas de IA. Segundo a Cerebras, o foco deveria ser menos no aumento da complexidade dos chips individuais e mais na resolução de problemas associados ao dimensionamento de clusters.

A Cerebras iniciou sua apresentação com alguns fatos interessantes: nos últimos cinco anos, a complexidade dos modelos de IA aumentou 40 mil vezes. E esse ritmo está claramente à frente do ritmo de desenvolvimento de chips aceleradores. Embora tenha havido progresso na tecnologia de processos (5x), na arquitetura (14x) e em formatos de dados mais eficientes para IA, é a capacidade de escalar com eficiência que proporciona os maiores ganhos de desempenho.

Fonte da imagem aqui e abaixo: Cerebras (via ServeTheHome)

No entanto, isso não é suficiente – o aumento de 600 vezes do agrupamento é claramente perdido no contexto de 40 mil. complexidade das próprias redes neurais. E o crescimento adicional da escala dos complexos de IA em sua forma clássica, consistindo em muitos aceleradores “pequenos”, leva inevitavelmente a problemas com a organização da memória, interconexão e poder computacional.

Como resultado, a solução de qualquer problema em tais sistemas muitas vezes se resume à necessidade do melhor, mas ao mesmo tempo longe de ser sempre uma otimização eficaz do compartilhamento de recursos. Ao mesmo tempo, diferentes métodos de escalonamento têm seus próprios problemas – memória, interconexão e uma abordagem específica para organizar um cluster podem se tornar um gargalo.

A Cerebras, por outro lado, oferece uma abordagem completamente diferente. A empresa vê uma saída na criação de enormes chips de cluster, como o Cerebras WSE-2 de 7 nm. Com mais de 45.000 mm2 de área de superfície, 2,6 trilhões de transistores e 850.000 núcleos, este chip é o maior do setor atualmente, com 40 GB de memória ultrarrápida. O que é mais interessante é que o cluster baseado em CS-2 é apresentado do ponto de vista do modelo executável como um sistema único.

Por si só, a complexidade do WSE-2 e da plataforma CS-2 baseada nele é tal que permite rodar modelos de quase qualquer tamanho, já que o chip não armazena os coeficientes de peso em si, mas os carrega de fora usando o subsistema MemoryX. Ao mesmo tempo, a própria plataforma CS-2 permite maior escalabilidade: usando a interconexão SwarmX, até 192 dessas máquinas podem ser combinadas em um único cluster, o que, em teoria, aumentará o desempenho para mais de 8 Eflops.

O subsistema MemoryX inclui 12 nós, processadores de 32 núcleos são responsáveis pela otimização do modelo e os pesos são armazenados tanto em DRAM quanto em memória flash – os volumes desses subsistemas são 12 TB e 6 PB, respectivamente. Cada nó possui 2 portas de 100 GbE – uma para upload de dados para CS-2, a segunda para comunicação com outros MemoryX no cluster. A otimização de dados é realizada em processadores MemoryX, “megachips” CS-2 não são usados para isso.

O subsistema de interconexão SwarmX é baseado em 100GbE com suporte RoCE DRMA, mas possui vários recursos: para cada quatro sistemas CS-2 há 12 nós SwarmX com desempenho de interconexão de 7,2 Tbit/s. A tradução e a redução de dados são realizadas na proporção de 1:4, e aqui também é utilizado o poder de nossos próprios processadores de 32 núcleos, e não os recursos do CS-2. Topologicamente, o SwarmX possui uma configuração de folha espinhal de duas camadas e fornece uma conexão tudo-para-todos, com cada CS-2 tendo seu próprio canal com uma taxa de transferência de 1,2 Tbit/s.

A combinação de MemoryX e SwarmX permite que clusters baseados em CS-2 sejam extremamente flexíveis: o tamanho do modelo é limitado apenas pela capacidade dos nós MemoryX e o grau de paralelismo é limitado pelo seu número. Ao mesmo tempo, a interconexão possui um grau de redundância suficiente para indicar a ausência de pontos únicos de falha.

Assim, a Cerebras tem tudo o que precisa para rodar os mais complexos modelos de inteligência artificial. O cluster Andromeda, já relativamente de meia-idade, que inclui apenas 16 plataformas CS-2, é capaz de “treinar” redes neurais com até 13 bilhões de parâmetros em questão de semanas. Ao mesmo tempo, o dimensionamento para o tamanho do modelo não requer intervenção séria no código do programa, ao contrário da abordagem clássica para aceleradores NVIDIA. Na verdade, para redes com 1 e 100 bilhões de parâmetros, o mesmo código é usado.

O mais poderoso Condor Galaxy 1 (CG-1) de 64 nós, com 54 milhões de núcleos de IA e até 4 EFLOPs, já provou que a abordagem de escalonamento promovida pela Cerebras compensa. Ele treinou com sucesso o primeiro modelo público com 3 bilhões de parâmetros e, em termos de capacidades, aproxima-se de modelos com 7 bilhões de parâmetros. E este não é o limite: lembramos que na encarnação atual, a combinação dos subsistemas MemoryX e da interconexão SwarmX permite combinar até 192 nós CS-2 em um único cluster.

A empresa acredita que está totalmente preparada para o influxo de redes neurais ainda mais complexas, e a arquitetura que propõe é explicitamente desprovida de muitos dos gargalos inerentes às arquiteturas GPU tradicionais. Até que ponto esta abordagem será bem sucedida a longo prazo, o tempo dirá.

avalanche

Próximo Caminhões elétricos compactos Sollers Argo serão produzidos em Ulyanovsk em 2025 »

Anterior « Uma enorme galáxia em miniatura: um blogueiro apresentou Starfield como um RPG isométrico

Deixar comentário

Publicado por

avalanche

3 anos atrás

Postagens recentes

Servidores, clusters, supercomputadores, computadores industriais e multiprocessadores

Meta se prepara para alugar seu data center na Geórgia para a Anthropic por US$ 10 bilhões

\nNo contexto de ganhar dinheiro alugando sua própria IA, a SpaceX tem sido a empresa…

2 horas atrás

Notícias e análises financeiras

Em meio ao boom da IA, a ASML emitirá bônus em ações no valor de € 20.000 para todos os funcionários

\nASML anunciou uma recompensa única para colaboradores em todo o mundo no valor de 20…

2 horas atrás

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

TikTok começou a testar uma ferramenta para detectar deepfakes de IA nas aparências dos usuários

\nO TikTok começou a testar uma nova ferramenta que permite aos criadores encontrar deepfakes de…

2 horas atrás

Erro: a AWS cobrou bilhões e trilhões de dólares dos clientes devido a problemas de faturamento

No dia 17 de julho, os clientes da nuvem AWS receberam por e-mail faturas preliminares…

5 horas atrás

Jogos

DOOM: A Idade das Trevas – Revelações. Sem revelações. Análise

\nJogado no PC\n\nO DLC Revelations saiu com um histórico de informações extremamente difícil - os…

7 horas atrás

Telefones celulares, smartphones, comunicações celulares, comunicadores, PDAs

Vazamento confirma design e especificações do amplo smartphone dobrável Samsung Galaxy Z Fold8

\nO insider Evan Blass publicou imagens do Samsung Galaxy Z Fold8 poucos dias antes da…

8 horas atrás

Cerebras pronta para construir clusters massivos de IA CS-2 com 163 milhões de núcleos

Conteúdo relacionado

Postagens recentes

Meta se prepara para alugar seu data center na Geórgia para a Anthropic por US$ 10 bilhões

Em meio ao boom da IA, a ASML emitirá bônus em ações no valor de € 20.000 para todos os funcionários

TikTok começou a testar uma ferramenta para detectar deepfakes de IA nas aparências dos usuários

Erro: a AWS cobrou bilhões e trilhões de dólares dos clientes devido a problemas de faturamento

DOOM: A Idade das Trevas – Revelações. Sem revelações. Análise

Vazamento confirma design e especificações do amplo smartphone dobrável Samsung Galaxy Z Fold8