O novo modelo de IA da DeepSeek tornará o trabalho com contexto de longo prazo duas vezes mais barato e rápido.

Os engenheiros da DeepSeek introduziram um novo modelo experimental, V3.2-exp, que oferece custo de inferência 50% menor e acelerações significativas para cenários de longo contexto.

Fonte da imagem: DeepSeek/TechCrunch

“Como um passo intermediário em direção à arquitetura de próxima geração, a V3.2-Exp complementa a V3.1-Terminus com a introdução do DeepSeek Sparse Attention, um mecanismo de atenção esparsa projetado para explorar e validar otimizações para desempenho de treinamento e inferência em cenários de longo contexto”, anunciou a empresa em uma publicação na plataforma Hugging Face, observando em uma publicação nas redes sociais que os preços da API foram reduzidos em mais de 50%.

Usando o DeepSeek Sparse Attention (DSA), que atua como um filtro inteligente, o modelo seleciona os fragmentos de contexto mais importantes, a partir dos quais utiliza um sistema de seleção de tokens de granularidade fina para selecionar tokens específicos para carregamento na janela de atenção limitada do módulo.

O método combina compressão de tokens de granularidade grossa com seleção de granularidade fina, garantindo que o modelo não perca o contexto mais amplo. A DeepSeek afirma que o novo mecanismo difere da tecnologia Native Sparse Attention, introduzida no início deste ano, e pode ser modificado para modelos pré-treinados.

Em benchmarks, o V3.2-Exp apresenta desempenho equivalente ao da versão anterior do modelo de IA. Em testes de raciocínio, codificação e uso de ferramentas, as diferenças foram mínimas — frequentemente dentro de um ou dois pontos —, enquanto os ganhos de desempenho foram significativos, de acordo com o techstartups.com. O modelo apresentou desempenho 2 a 3 vezes mais rápido para inferência de longo contexto, reduziu o consumo de memória em 30 a 40% e dobrou a eficiência do treinamento. Para os desenvolvedores, isso significa tempos de resposta mais rápidos, custos de infraestrutura reduzidos e um caminho de implantação mais tranquilo.

Para operações de longo contexto, as vantagens do sistema são bastante significativas.O TechCrunch observou que serão necessários mais testes para avaliar o modelo de forma mais confiável, mas, como é de código aberto e está disponível gratuitamente na plataforma Hugging Face, os usuários podem avaliar o novo desenvolvimento do DeepSeek por meio de benchmarks.

admin

Postagens recentes

As montadoras globais estão abandonando a ideia de uma transição completa para a tração elétrica.

A indústria automotiva global está passando por uma grande transformação. Pelo menos 12 grandes montadoras…

1 hora atrás

A Microsoft prometeu tornar o Windows 11 “mais tranquilo e calmo”.

A Microsoft confirmou que reduzirá o número de anúncios e recomendações no Windows 11 para…

5 horas atrás

A Nokia já está se preparando para o desenvolvimento do Wi-Fi 9.

A Nokia delineou sua visão para o futuro padrão sem fio Wi-Fi 9, projetado para…

10 horas atrás

A Apple não abandonou os planos de lançar um iPad mais acessível com o chip A18 nesta primavera.

Contrariando as expectativas, os anúncios da Apple em março não mencionaram um iPad básico com…

11 horas atrás

A LG iniciou a produção em massa de telas para laptops com taxa de atualização variável de 1 a 120 Hz.

A LG Display anunciou o início da produção em massa dos primeiros painéis LCD do…

13 horas atrás

A LG iniciou a produção em massa de telas para laptops com taxa de atualização variável de 1 a 120 Hz.

A LG Display anunciou o início da produção em massa dos primeiros painéis LCD do…

13 horas atrás