A Qualcomm anunciou dois aceleradores de inferência de IA (para executar modelos de linguagem grandes pré-treinados) — o AI200 e o AI250 — que chegarão ao mercado em 2026 e 2027. Esses novos produtos foram projetados para competir com as soluções de montagem em rack da AMD e da Nvidia, oferecendo maior eficiência e menores custos operacionais para executar tarefas de IA generativa em larga escala.
Fonte da imagem: Qualcomm
Os aceleradores Qualcomm AI200 e AI250 são baseados em unidades de processamento neural (NPUs) Qualcomm Hexagon, otimizadas para cargas de trabalho de IA em data centers. A empresa vem aprimorando continuamente suas unidades de processamento neural (NPUs) Hexagon nos últimos anos, de modo que as versões mais recentes dos chips são equipadas com aceleradores escalares, vetoriais e tensores (em uma configuração 12+8+1). Eles suportam formatos de dados como INT2, INT4, INT8, INT16, FP8 e FP16, inferência microtiled para tráfego de memória reduzido, endereçamento de memória de 64 bits, virtualização e criptografia de modelo Gen AI para segurança adicional.
Os aceleradores AI200 representam o primeiro sistema de inferência para data centers da Qualcomm e oferecem até 768 GB de memória LPDDR on-chip. O sistema utilizará interfaces PCIe para escalonamento vertical e Ethernet para escalonamento horizontal. A potência estimada de um rack com aceleradores Qualcomm AI200 é de 160 kW. O sistema foi projetado para resfriamento líquido direto. O Qualcomm AI200 também oferece suporte à computação confidencial para implantações corporativas. A solução estará disponível em 2026.
O Qualcomm AI250, com lançamento previsto para o próximo ano, será lançado com uma nova arquitetura de memória que oferece mais de 10 vezes a taxa de transferência. Além disso, o sistema suportará inferência desagregada, permitindo que os recursos de memória sejam alocados dinamicamente entre os cartões. A Qualcomm o posiciona como uma solução mais eficiente e de alta largura de banda, otimizada para modelos de IA em larga escala em conversíveis. O sistema também manterá as mesmas características térmicas, de resfriamento, de segurança e de escalabilidade do AI200.
Além de desenvolver plataformas de hardware, a Qualcomm também anunciou o desenvolvimento de uma plataforma de software de ponta a ponta em hiperescala, otimizada para cargas de trabalho de inferência em larga escala. A plataforma suporta os principais kits de ferramentas de aprendizado de máquina e IA generativa, incluindo PyTorch, ONNX, vLLM, LangChain e CrewAI, garantindo a implantação perfeita do modelo. A pilha de software suportará serviços desagregados, computação confidencial e integração com um clique de modelos pré-treinados, afirma a empresa.
A Universidade Monash, na Austrália, em parceria com a NVIDIA, a Dell Technologies e a…
O governo do Reino Unido anunciou o Plano de Hardware de IA do Reino Unido.…
A GlobalSign, uma autoridade certificadora (AC) registrada na Bélgica e pertencente à corporação japonesa GMO…
As histórias otimistas da Apple sobre a implementação de tecnologias ambientais de ponta em toda…
Uma greve recente permitiu que os funcionários da área de memória da Samsung Electronics se…
Uma cópia de Super Mario Bros. em sua embalagem original foi vendida por um valor…