Kalray anunciou a disponibilidade comercial de seus novos aceleradores Turbocard4 (TC4). O novo produto se posiciona como uma solução para acelerar a operação de sistemas de visão computacional, ou como um acelerador para indexação “inteligente” de dados.
A bordo do acelerador, feito no formato FHFL, estão instalados quatro chips DPU Coolidge 2 com arquitetura proprietária Kalray MPPA. Esses processadores foram anunciados no verão passado como DPUs energeticamente eficientes com desempenho de até 1,5 Tflops no modo FP32 e 50 Tops no modo INT8, característico de inferência.
A escolha dos mercados não é acidental: a visão computacional é hoje uma indústria em rápido crescimento, avaliada em mais de US$ 20 bilhões em 2023, e esse número promete crescer para US$ 175 bilhões até 2032. Não há nada a dizer sobre a indexação de dados para IA generativa – há um boom nessas tecnologias no estaleiro e o volume de conjuntos de dados está crescendo constantemente. Tais conjuntos de dados requerem um pré-processamento eficaz, caso contrário, o tempo crescente necessário para buscar os dados necessários prejudicará o desempenho do treinamento e da inferência.
É interessante que o TC4 seja produzido na Europa, na fábrica francesa Asteelflash, que já recebeu a primeira encomenda no valor de mais de 1 milhão de dólares. Pelas perspectivas das áreas escolhidas, não deveria ser surpreendente que a iniciativa europeia de Kalray e Asteelflash é apoiado pelo governo francês como parte do programa CARAIBE. Já em 2025, está previsto aumentar a taxa de produção de aceleradores TC4 de centenas para vários milhares por mês.
Coolidge 2, segundo os criadores, é uma solução universal baseada na arquitetura VLIW. Possui 80 núcleos com frequência de até 1,2 GHz, e cada núcleo possui uma FPU (IEEE 754-2008). Existem otimizações para operações matriciais e funções transcendentais. O processador é dividido em 5 clusters de 16 núcleos, cada cluster possui um núcleo de controle adicional, que também é responsável pelas funções de segurança. Coolidge 2 é complementado por um cache de 8 MB, um controlador de memória DDR4-3200 de canal duplo e um par de interfaces 100GbE com suporte RoCE. O chip suporta os formatos INT8, FP16, FP32 e até FP64.
Como quatro Coolidge 2 estão rodando no Turbocard4, estamos falando de 6 Tflops para FP32, 100 Tflops para FP16 e 200 Tops para INT8 com pacote térmico em torno de 120 W. Em termos de suporte de software, Kalray suporta suas soluções com um SDK baseado em padrões abertos. Linux e RTOS são suportados.