Os engenheiros da DeepSeek introduziram um novo modelo experimental, V3.2-exp, que oferece custo de inferência 50% menor e acelerações significativas para cenários de longo contexto.

Fonte da imagem: DeepSeek/TechCrunch
“Como um passo intermediário em direção à arquitetura de próxima geração, a V3.2-Exp complementa a V3.1-Terminus com a introdução do DeepSeek Sparse Attention, um mecanismo de atenção esparsa projetado para explorar e validar otimizações para desempenho de treinamento e inferência em cenários de longo contexto”, anunciou a empresa em uma publicação na plataforma Hugging Face, observando em uma publicação nas redes sociais que os preços da API foram reduzidos em mais de 50%.
Usando o DeepSeek Sparse Attention (DSA), que atua como um filtro inteligente, o modelo seleciona os fragmentos de contexto mais importantes, a partir dos quais utiliza um sistema de seleção de tokens de granularidade fina para selecionar tokens específicos para carregamento na janela de atenção limitada do módulo.
O método combina compressão de tokens de granularidade grossa com seleção de granularidade fina, garantindo que o modelo não perca o contexto mais amplo. A DeepSeek afirma que o novo mecanismo difere da tecnologia Native Sparse Attention, introduzida no início deste ano, e pode ser modificado para modelos pré-treinados.
Em benchmarks, o V3.2-Exp apresenta desempenho equivalente ao da versão anterior do modelo de IA. Em testes de raciocínio, codificação e uso de ferramentas, as diferenças foram mínimas — frequentemente dentro de um ou dois pontos —, enquanto os ganhos de desempenho foram significativos, de acordo com o techstartups.com. O modelo apresentou desempenho 2 a 3 vezes mais rápido para inferência de longo contexto, reduziu o consumo de memória em 30 a 40% e dobrou a eficiência do treinamento. Para os desenvolvedores, isso significa tempos de resposta mais rápidos, custos de infraestrutura reduzidos e um caminho de implantação mais tranquilo.
Para operações de longo contexto, as vantagens do sistema são bastante significativas.O TechCrunch observou que serão necessários mais testes para avaliar o modelo de forma mais confiável, mas, como é de código aberto e está disponível gratuitamente na plataforma Hugging Face, os usuários podem avaliar o novo desenvolvimento do DeepSeek por meio de benchmarks.
