Cerebras pronta para construir clusters massivos de IA CS-2 com 163 milhões de núcleos

Na recente conferência Hot Chips 2023, Cerebras, criadora do maior processador de IA do mundo, WSE-2, falou sobre sua visão do futuro dos sistemas de IA. Segundo a Cerebras, o foco deveria ser menos no aumento da complexidade dos chips individuais e mais na resolução de problemas associados ao dimensionamento de clusters.

A Cerebras iniciou sua apresentação com alguns fatos interessantes: nos últimos cinco anos, a complexidade dos modelos de IA aumentou 40 mil vezes. E esse ritmo está claramente à frente do ritmo de desenvolvimento de chips aceleradores. Embora tenha havido progresso na tecnologia de processos (5x), na arquitetura (14x) e em formatos de dados mais eficientes para IA, é a capacidade de escalar com eficiência que proporciona os maiores ganhos de desempenho.

Fonte da imagem aqui e abaixo: Cerebras (via ServeTheHome)

No entanto, isso não é suficiente – o aumento de 600 vezes do agrupamento é claramente perdido no contexto de 40 mil. complexidade das próprias redes neurais. E o crescimento adicional da escala dos complexos de IA em sua forma clássica, consistindo em muitos aceleradores “pequenos”, leva inevitavelmente a problemas com a organização da memória, interconexão e poder computacional.

Como resultado, a solução de qualquer problema em tais sistemas muitas vezes se resume à necessidade do melhor, mas ao mesmo tempo longe de ser sempre uma otimização eficaz do compartilhamento de recursos. Ao mesmo tempo, diferentes métodos de escalonamento têm seus próprios problemas – memória, interconexão e uma abordagem específica para organizar um cluster podem se tornar um gargalo.

A Cerebras, por outro lado, oferece uma abordagem completamente diferente. A empresa vê uma saída na criação de enormes chips de cluster, como o Cerebras WSE-2 de 7 nm. Com mais de 45.000 mm2 de área de superfície, 2,6 trilhões de transistores e 850.000 núcleos, este chip é o maior do setor atualmente, com 40 GB de memória ultrarrápida. O que é mais interessante é que o cluster baseado em CS-2 é apresentado do ponto de vista do modelo executável como um sistema único.

Por si só, a complexidade do WSE-2 e da plataforma CS-2 baseada nele é tal que permite rodar modelos de quase qualquer tamanho, já que o chip não armazena os coeficientes de peso em si, mas os carrega de fora usando o subsistema MemoryX. Ao mesmo tempo, a própria plataforma CS-2 permite maior escalabilidade: usando a interconexão SwarmX, até 192 dessas máquinas podem ser combinadas em um único cluster, o que, em teoria, aumentará o desempenho para mais de 8 Eflops.

O subsistema MemoryX inclui 12 nós, processadores de 32 núcleos são responsáveis ​​​​pela otimização do modelo e os pesos são armazenados tanto em DRAM quanto em memória flash – os volumes desses subsistemas são 12 TB e 6 PB, respectivamente. Cada nó possui 2 portas de 100 GbE – uma para upload de dados para CS-2, a segunda para comunicação com outros MemoryX no cluster. A otimização de dados é realizada em processadores MemoryX, “megachips” CS-2 não são usados ​​para isso.

O subsistema de interconexão SwarmX é baseado em 100GbE com suporte RoCE DRMA, mas possui vários recursos: para cada quatro sistemas CS-2 há 12 nós SwarmX com desempenho de interconexão de 7,2 Tbit/s. A tradução e a redução de dados são realizadas na proporção de 1:4, e aqui também é utilizado o poder de nossos próprios processadores de 32 núcleos, e não os recursos do CS-2. Topologicamente, o SwarmX possui uma configuração de folha espinhal de duas camadas e fornece uma conexão tudo-para-todos, com cada CS-2 tendo seu próprio canal com uma taxa de transferência de 1,2 Tbit/s.

A combinação de MemoryX e SwarmX permite que clusters baseados em CS-2 sejam extremamente flexíveis: o tamanho do modelo é limitado apenas pela capacidade dos nós MemoryX e o grau de paralelismo é limitado pelo seu número. Ao mesmo tempo, a interconexão possui um grau de redundância suficiente para indicar a ausência de pontos únicos de falha.

Assim, a Cerebras tem tudo o que precisa para rodar os mais complexos modelos de inteligência artificial. O cluster Andromeda, já relativamente de meia-idade, que inclui apenas 16 plataformas CS-2, é capaz de “treinar” redes neurais com até 13 bilhões de parâmetros em questão de semanas. Ao mesmo tempo, o dimensionamento para o tamanho do modelo não requer intervenção séria no código do programa, ao contrário da abordagem clássica para aceleradores NVIDIA. Na verdade, para redes com 1 e 100 bilhões de parâmetros, o mesmo código é usado.

O mais poderoso Condor Galaxy 1 (CG-1) de 64 nós, com 54 milhões de núcleos de IA e até 4 EFLOPs, já provou que a abordagem de escalonamento promovida pela Cerebras compensa. Ele treinou com sucesso o primeiro modelo público com 3 bilhões de parâmetros e, em termos de capacidades, aproxima-se de modelos com 7 bilhões de parâmetros. E este não é o limite: lembramos que na encarnação atual, a combinação dos subsistemas MemoryX e da interconexão SwarmX permite combinar até 192 nós CS-2 em um único cluster.

A empresa acredita que está totalmente preparada para o influxo de redes neurais ainda mais complexas, e a arquitetura que propõe é explicitamente desprovida de muitos dos gargalos inerentes às arquiteturas GPU tradicionais. Até que ponto esta abordagem será bem sucedida a longo prazo, o tempo dirá.

avalanche

Postagens recentes

Analistas da Gartner calcularam que, em breve, os agentes de IA se tornarão mais caros do que os programadores humanos.

Os desenvolvedores de agentes de inteligência artificial começaram a migrar seus clientes de tarifas fixas…

24 minutos atrás

Os Países Baixos defenderam a ASML e pediram aos EUA que não proibissem o fornecimento de litografias à China.

Esta semana, o Ministro do Comércio holandês, Sjoerd Sjoerdsma, viajou a Washington para se encontrar…

36 minutos atrás