A LG AI Research, braço de IA do Grupo LG, da Coreia do Sul, firmou parceria com a startup sul-coreana FuriosaAI para produzir servidores com aceleradores de IA RNGD para executar sua própria família LLM Exaone, informou o The Register. June Paik, CEO da FuriosaAI, disse ao EE Times que os servidores da LG com chips RNGD serão destinados a empresas que utilizam modelos ExaOne nos setores de eletrônicos, finanças, telecomunicações e biotecnologia. Os servidores estarão à venda ainda este ano.

«“Após testes extensivos de uma ampla gama de opções, descobrimos que o RNGD é uma solução altamente eficaz para a implantação de modelos Exaone”, disse Kijeong Jeon, chefe da LG AI Research. “O RNGD oferece uma combinação atraente de benefícios: desempenho superior no mundo real, TCO significativamente reduzido e integração notavelmente fácil”, acrescentou.

Assim como os sistemas NVIDIA RTX Pro Blackwell, os servidores RNGD da LG incluirão até oito aceleradores PCIe 5.0. Esses sistemas serão executados no que a FuriosaAI descreve como uma pilha de software altamente avançada, incluindo a biblioteca vLLM. A LG também oferecerá sua própria plataforma de IA de agente ChatExaone, adaptada para casos de uso corporativo. Ela combina diversas estruturas para análise de documentos, aprendizado profundo, análise de dados e RAG.

Fonte da imagem: FuriosaAI

A LG AI Research testou o ExaOne-32B em um servidor 4U refrigerado a ar com oito chips, desenvolvido em conjunto com a Supermicro. Cinco desses servidores cabem em um rack de 15 quilowatts. A LG AI Research testou hardware de diversos fornecedores na Coreia do Sul e em outros lugares, usando aceleradores NVIDIA A100 como base, disse Paik. “A LG AI Research também testou soluções em nuvem, mas eles disseram que a nossa era a única que atendia aos requisitos deles até o momento”, disse Paik.

O Register sugere que a escolha do acelerador NVIDIA A100, lançado em 2020, para comparação em vez de modelos mais recentes se deve ao fato de a LG AI Research estar mais interessada na eficiência energética do hardware do que no desempenho. E, como June Paik observou, embora os aceleradores NVIDIA certamente tenham se tornado mais potentes nos cinco anos desde o A100, isso ocorreu às custas do aumento do consumo de energia e da área do chip.

A LG AI supostamente utilizou quatro aceleradores PCIe RNGD, aproveitando o paralelismo tensorial para executar o modelo Exaone 32B com precisão de 16 bits. De acordo com Pike, a LG tinha metas de desempenho muito específicas que pretendia atingir ao validar o chip. Especificamente, as restrições incluíam o tempo até o primeiro token (TTFT) de cerca de 0,3 segundos para pequenas solicitações de 3 mil tokens, ou 4,5 segundos para solicitações maiores de 30 mil tokens. O resultado de 60 tokens/s é alcançado para uma janela de contexto de 4 mil tokens, ou 50 tokens/s para uma janela de contexto de 32 mil tokens.

De acordo com Pike, os testes foram conduzidos no modo BF16 porque o A100 comparado não possui suporte nativo a FP8, portanto, usar o RNGD no modo FP8 dobrará a eficiência de inferência e reduzirá o TTFT. Além disso, o servidor demonstrou um desempenho de inferência LLM 2,25 vezes maior por Watt em comparação com o A100, e um rack completo será capaz de gerar 3,75 vezes mais tokens do que um rack com A100 com o mesmo consumo de energia. O chip FuriosaAI RNGD oferece desempenho de 512 Tflops (FP8) a um TDP de 180 W.

Ao contrário dos aceleradores da NVIDIA, que são equipados com uma interconexão NVLink de alta velocidade (600 GB/s), a FuriosaAI utiliza uma interface PCIe 5.0 (128 GB/s). Para evitar gargalos e sobrecarga associados à interconexão, a FuriosaAI afirma que o compilador da empresa ajuda a otimizar o processo de troca de dados e a computação em si.

By admin

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *