SambaNova apresentou o processador SN40L AI com memória HBM3, que é muitas vezes mais rápido que os aceleradores GPU

O boom em modelos de grandes linguagens inevitavelmente traz ao mercado uma nova classe especializada de processadores – e muitas vezes essas soluções acabam sendo mais eficientes do que a abordagem tradicional de GPU.

A SambaNova Systems, desenvolvedora de tais processadores e sistemas baseados neles, lançou uma nova terceira geração de processadores de IA chamada SN40L.

Fonte das imagens aqui e abaixo: SambaNova via EE Times

No outono de 2022, a empresa lançou o chip SN30 baseado em uma arquitetura única de blocos controlados por programa, mesmo então plenamente consciente da tendência de aumento do volume de dados em redes neurais: o chip recebeu 640 MB de cache SRAM e foi equipado com 1 TB de RAM.

Este desenvolvimento formou a base do mais novo SN40L. Devido à transição da tecnologia de processo de 7 nm da TSMC para o processo mais avançado de 5 nm, os desenvolvedores conseguiram aumentar o número de núcleos para 1.040, mas sua arquitetura permaneceu a mesma. No entanto, tendo em conta a reconfigurabilidade, isto não é uma desvantagem.

A arquitetura de blocos SambaNova consiste em blocos de computação PCU, blocos PMU SRAM, lógica de controle e interconexão de malha

O chip SN40L consiste em dois chips grandes, que respondem por 520 MB de cache SRAM, 1,5 TB de DRAM DDR5 e 64 GB de HBM3 de alta velocidade. Este último foi adicionado ao SN40L como um buffer entre a SRAM ultrarrápida e a DRAM relativamente lenta. Isto deve melhorar o desempenho do chip ao operar no modo de inferência LLM. Para usar o HBM3 de maneira eficaz, a pilha de software SambaNova foi modificada de acordo.

De acordo com SambaNova, um sistema de oito processadores baseado em SN40L será capaz de executar e manter um modelo de rede neural de “dimensões” verdadeiramente titânicas – com 5 trilhões de parâmetros e uma profundidade de consulta de mais de 256k. No modelo descrito estamos falando de um conjunto de modelos especialistas tendo o LLM Llama-2 como uma espécie de maestro desta orquestra.

Uma arquitetura com GPUs tradicionais exigiria 24 servidores com 8 aceleradores cada para rodar o mesmo modelo; entretanto, o modelo do acelerador não é especificado.

Como antes, os chips SN40L e nós de computação individuais baseados neles não serão fornecidos a clientes terceiros. A empresa continuará a usar o modelo Dataflow-as-a-Service (DaaS), uma plataforma extensível de serviços de IA por assinatura, que inclui serviços de instalação, comissionamento e gerenciamento de equipamentos como parte do serviço. No entanto, o SN40L aparecerá posteriormente como parte deste serviço e será lançado como parte do serviço de nuvem SambaNova Suite.

avalanche

Postagens recentes

A NASA mostrou a escuridão eterna do pólo sul da Lua – as pessoas nunca viram este lugar antes

A NASA revelou uma imagem impressionante da Cratera Shackleton, localizada no pólo sul da Lua.…

10 minutos atrás

Ação coletiva de privacidade da OpenAI cancelada por motivo desconhecido

Os demandantes em uma ação coletiva alegando que a OpenAI violou os direitos de privacidade…

25 minutos atrás

AMD lança driver Radeon Software Adrenalin 23.9.2 WHQL com suporte para Lies of P, Party Animals e The Crew Motorfest

A AMD lançou um novo pacote de driver gráfico, Radeon Software Adrenalin 23.9.2 WHQL. Adiciona…

45 minutos atrás

O rover Curiosity encontrou pedras que eram carregadas por água corrente nos tempos antigos.

Ultimamente, a maior parte das notícias de Marte tem sido relacionada ao rover Perseverance. No…

1 hora atrás

O chefe da Intel disse que os processadores das três gerações futuras serão os melhores – ainda melhores que os chips da Apple

Na conferência Innovation 2023, o CEO da Intel, Pat Gelsinger, falou sobre os próximos processadores…

1 hora atrás