A Qualcomm anunciou dois aceleradores de inferência de IA (para executar modelos de linguagem grandes pré-treinados) — o AI200 e o AI250 — que chegarão ao mercado em 2026 e 2027. Esses novos produtos foram projetados para competir com as soluções de montagem em rack da AMD e da Nvidia, oferecendo maior eficiência e menores custos operacionais para executar tarefas de IA generativa em larga escala.

Fonte da imagem: Qualcomm

Os aceleradores Qualcomm AI200 e AI250 são baseados em unidades de processamento neural (NPUs) Qualcomm Hexagon, otimizadas para cargas de trabalho de IA em data centers. A empresa vem aprimorando continuamente suas unidades de processamento neural (NPUs) Hexagon nos últimos anos, de modo que as versões mais recentes dos chips são equipadas com aceleradores escalares, vetoriais e tensores (em uma configuração 12+8+1). Eles suportam formatos de dados como INT2, INT4, INT8, INT16, FP8 e FP16, inferência microtiled para tráfego de memória reduzido, endereçamento de memória de 64 bits, virtualização e criptografia de modelo Gen AI para segurança adicional.

Os aceleradores AI200 representam o primeiro sistema de inferência para data centers da Qualcomm e oferecem até 768 GB de memória LPDDR on-chip. O sistema utilizará interfaces PCIe para escalonamento vertical e Ethernet para escalonamento horizontal. A potência estimada de um rack com aceleradores Qualcomm AI200 é de 160 kW. O sistema foi projetado para resfriamento líquido direto. O Qualcomm AI200 também oferece suporte à computação confidencial para implantações corporativas. A solução estará disponível em 2026.

O Qualcomm AI250, com lançamento previsto para o próximo ano, será lançado com uma nova arquitetura de memória que oferece mais de 10 vezes a taxa de transferência. Além disso, o sistema suportará inferência desagregada, permitindo que os recursos de memória sejam alocados dinamicamente entre os cartões. A Qualcomm o posiciona como uma solução mais eficiente e de alta largura de banda, otimizada para modelos de IA em larga escala em conversíveis. O sistema também manterá as mesmas características térmicas, de resfriamento, de segurança e de escalabilidade do AI200.

Além de desenvolver plataformas de hardware, a Qualcomm também anunciou o desenvolvimento de uma plataforma de software de ponta a ponta em hiperescala, otimizada para cargas de trabalho de inferência em larga escala. A plataforma suporta os principais kits de ferramentas de aprendizado de máquina e IA generativa, incluindo PyTorch, ONNX, vLLM, LangChain e CrewAI, garantindo a implantação perfeita do modelo. A pilha de software suportará serviços desagregados, computação confidencial e integração com um clique de modelos pré-treinados, afirma a empresa.

By admin

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *