Na recente conferência Hot Chips 2023, Cerebras, criadora do maior processador de IA do mundo, WSE-2, falou sobre sua visão do futuro dos sistemas de IA. Segundo a Cerebras, o foco deveria ser menos no aumento da complexidade dos chips individuais e mais na resolução de problemas associados ao dimensionamento de clusters.
A Cerebras iniciou sua apresentação com alguns fatos interessantes: nos últimos cinco anos, a complexidade dos modelos de IA aumentou 40 mil vezes. E esse ritmo está claramente à frente do ritmo de desenvolvimento de chips aceleradores. Embora tenha havido progresso na tecnologia de processos (5x), na arquitetura (14x) e em formatos de dados mais eficientes para IA, é a capacidade de escalar com eficiência que proporciona os maiores ganhos de desempenho.
No entanto, isso não é suficiente – o aumento de 600 vezes do agrupamento é claramente perdido no contexto de 40 mil. complexidade das próprias redes neurais. E o crescimento adicional da escala dos complexos de IA em sua forma clássica, consistindo em muitos aceleradores “pequenos”, leva inevitavelmente a problemas com a organização da memória, interconexão e poder computacional.
Como resultado, a solução de qualquer problema em tais sistemas muitas vezes se resume à necessidade do melhor, mas ao mesmo tempo longe de ser sempre uma otimização eficaz do compartilhamento de recursos. Ao mesmo tempo, diferentes métodos de escalonamento têm seus próprios problemas – memória, interconexão e uma abordagem específica para organizar um cluster podem se tornar um gargalo.
A Cerebras, por outro lado, oferece uma abordagem completamente diferente. A empresa vê uma saída na criação de enormes chips de cluster, como o Cerebras WSE-2 de 7 nm. Com mais de 45.000 mm2 de área de superfície, 2,6 trilhões de transistores e 850.000 núcleos, este chip é o maior do setor atualmente, com 40 GB de memória ultrarrápida. O que é mais interessante é que o cluster baseado em CS-2 é apresentado do ponto de vista do modelo executável como um sistema único.
Por si só, a complexidade do WSE-2 e da plataforma CS-2 baseada nele é tal que permite rodar modelos de quase qualquer tamanho, já que o chip não armazena os coeficientes de peso em si, mas os carrega de fora usando o subsistema MemoryX. Ao mesmo tempo, a própria plataforma CS-2 permite maior escalabilidade: usando a interconexão SwarmX, até 192 dessas máquinas podem ser combinadas em um único cluster, o que, em teoria, aumentará o desempenho para mais de 8 Eflops.
O subsistema MemoryX inclui 12 nós, processadores de 32 núcleos são responsáveis pela otimização do modelo e os pesos são armazenados tanto em DRAM quanto em memória flash – os volumes desses subsistemas são 12 TB e 6 PB, respectivamente. Cada nó possui 2 portas de 100 GbE – uma para upload de dados para CS-2, a segunda para comunicação com outros MemoryX no cluster. A otimização de dados é realizada em processadores MemoryX, “megachips” CS-2 não são usados para isso.
O subsistema de interconexão SwarmX é baseado em 100GbE com suporte RoCE DRMA, mas possui vários recursos: para cada quatro sistemas CS-2 há 12 nós SwarmX com desempenho de interconexão de 7,2 Tbit/s. A tradução e a redução de dados são realizadas na proporção de 1:4, e aqui também é utilizado o poder de nossos próprios processadores de 32 núcleos, e não os recursos do CS-2. Topologicamente, o SwarmX possui uma configuração de folha espinhal de duas camadas e fornece uma conexão tudo-para-todos, com cada CS-2 tendo seu próprio canal com uma taxa de transferência de 1,2 Tbit/s.
A combinação de MemoryX e SwarmX permite que clusters baseados em CS-2 sejam extremamente flexíveis: o tamanho do modelo é limitado apenas pela capacidade dos nós MemoryX e o grau de paralelismo é limitado pelo seu número. Ao mesmo tempo, a interconexão possui um grau de redundância suficiente para indicar a ausência de pontos únicos de falha.
Assim, a Cerebras tem tudo o que precisa para rodar os mais complexos modelos de inteligência artificial. O cluster Andromeda, já relativamente de meia-idade, que inclui apenas 16 plataformas CS-2, é capaz de “treinar” redes neurais com até 13 bilhões de parâmetros em questão de semanas. Ao mesmo tempo, o dimensionamento para o tamanho do modelo não requer intervenção séria no código do programa, ao contrário da abordagem clássica para aceleradores NVIDIA. Na verdade, para redes com 1 e 100 bilhões de parâmetros, o mesmo código é usado.
O mais poderoso Condor Galaxy 1 (CG-1) de 64 nós, com 54 milhões de núcleos de IA e até 4 EFLOPs, já provou que a abordagem de escalonamento promovida pela Cerebras compensa. Ele treinou com sucesso o primeiro modelo público com 3 bilhões de parâmetros e, em termos de capacidades, aproxima-se de modelos com 7 bilhões de parâmetros. E este não é o limite: lembramos que na encarnação atual, a combinação dos subsistemas MemoryX e da interconexão SwarmX permite combinar até 192 nós CS-2 em um único cluster.
A empresa acredita que está totalmente preparada para o influxo de redes neurais ainda mais complexas, e a arquitetura que propõe é explicitamente desprovida de muitos dos gargalos inerentes às arquiteturas GPU tradicionais. Até que ponto esta abordagem será bem sucedida a longo prazo, o tempo dirá.