A Cerebras Systems estabeleceu um recorde em aprendizado de máquina para sistemas únicos

O sucesso da Cerebras Systems com seus descendentes incomuns, processadores Cerebras supergrandes que ocupam todo um substrato de silício, é no mínimo interessante de se observar. Seus sistemas são incomuns, mas no campo de aprendizado de máquina eles parecem não ter igual – uma única plataforma Cerebras CS-2 pode substituir quase um cluster inteiro ao treinar um modelo grande. E a empresa provou isso por ação, estabelecendo um novo recorde.

A essência do registro é que o maior modelo de IA do mundo já treinado em um único dispositivo foi treinado no Cerebras CS-2 (sistemas de cluster não contam). É claro que a “singleness” do CS-2 é um tanto arbitrária, mas ainda pode ser considerada como tal, pois um gabinete de equipamento CS-2 contém exatamente um chip WSE-2 e o complexo HPE Superdome Flex, que “alimenta” dados a ele, é considerado auxiliar.

Características comparativas de WSE-1 e WSE-2. Fonte: Cerebras Systems

Estamos falando de treinar um modelo com 20 bilhões de parâmetros, o que nenhum outro sistema no mundo pode fazer. Ao abrir o acesso ao treinamento de redes neurais tão complexas, o Cerebras está atendendo pesquisadores de máquinas de linguagem natural, pois o tempo de treinamento para um modelo sério pode ser reduzido de meses para minutos, eliminando a necessidade de particionamento demorado do modelo entre os nós de um sistema de cluster tradicional – tudo isso é executado no modo “monolítico”.

Projeto do CS-2 e alguns de seus parâmetros técnicos. Fonte: Cerebras Systems

Além disso, modelos desse tamanho exigem muito dinheiro – nem todo pesquisador tem orçamento suficiente para alugar um cluster. Mas o CS-2 democratizará até modelos enormes como GPT-3 1.3B, GPT-J 6B, GPT-3 13B e GPT-NeoX 20B. Seu lançamento tornou-se possível com a última atualização do software proprietário Cerebras Software Platform. Os geneticistas da GSK também estão entusiasmados com a nova oportunidade, usando enormes conjuntos de dados.

Lembre-se que o coração do CS-2, o processador WSE-2, é legitimamente considerado o maior do mundo – contém 850 mil núcleos otimizados para tarefas específicas de aprendizado de máquina. Para “alimentar” esse neuroprocessador com dados e eliminar o tempo de inatividade, são usados ​​12 canais de uma só vez a uma velocidade de 100 Gb / s. Um superservidor HPE Superdome Flex 280 separado é responsável pelo fornecimento de dados, que por si só tem características muito impressionantes.

avalanche

Postagens recentes

A NVIDIA investiu US$ 2 bilhões na Marvell, integrando-a ao seu ecossistema de IA e ao NVLink Fusion.

As ações da Marvell Technology subiram mais de 9% nas negociações pré-mercado após a NVIDIA…

31 minutos atrás

Corre o boato de que os desenvolvedores de Tomb Raider, e não de Kingdom Come: Deliverance 2, estão desenvolvendo um concorrente para Hogwarts Legacy no universo de O Senhor dos Anéis.

O estúdio americano Crystal Dynamics, pertencente ao Embracer Group, já está trabalhando em dois jogos…

31 minutos atrás

Hackers instalaram um Trojan em uma das bibliotecas JavaScript mais baixadas.

Hackers conseguiram comprometer a conta do desenvolvedor principal da biblioteca Axios no registro npm e…

2 horas atrás

O astronauta mais antigo da NASA causou alvoroço na internet com uma foto de um misterioso organismo roxo na Estação Espacial Internacional (ISS).

Recentemente, o astronauta mais antigo da NASA, Donald Pettit, publicou uma foto nas redes sociais…

2 horas atrás

O designer chefe da CI Games revelou a data de lançamento de Lords of the Fallen 2.

Enquanto os fãs aguardam a confirmação da data de lançamento do ambicioso RPG de ação…

2 horas atrás