A empresa chinesa DeepSeek demonstrou inicialmente um sucesso impressionante no treinamento de seus modelos de linguagem usando recursos computacionais limitados, mas as sanções dos EUA a impediram de avançar em um ritmo constante. Como observa o Financial Times, a empresa teve que adiar o lançamento de um novo modelo de linguagem devido à baixa eficiência dos aceleradores de computação da Huawei que utilizava.

Fonte da imagem: Huawei Technologies

Após o lançamento do modelo de linguagem R1 com grande sucesso em janeiro deste ano, a empresa chinesa recebeu recomendações das autoridades locais para migrar para os aceleradores Huawei Ascend. Como se sabe, muitos desenvolvedores de IA chineses enfrentam tais recomendações e, há algum tempo, são obrigados a apresentar justificativas sólidas para continuar comprando os aceleradores Nvidia.

A DeepSeek encontrou problemas técnicos ao utilizar aceleradores da Huawei para treinar seus modelos de linguagem e, como resultado, optou por reorientá-los para o trabalho de inferência e continuar o treinamento usando aceleradores da Nvidia. O lançamento do modelo de linguagem R2 estava originalmente previsto para maio, mas a estreia teve que ser adiada devido a esses problemas. Esse atraso afetou negativamente a posição competitiva da DeepSeek.

Os representantes da Huawei estavam cientes dos problemas do DeepSeek e, portanto, enviaram uma equipe de especialistas para auxiliar os desenvolvedores. No entanto, não houve progresso no treinamento do modelo R2 nos chips da Huawei. Mesmo a adaptação dos chips desta marca para trabalhar com a formação de conclusões lógicas (inferências) ainda não foi concluída. A gerência do DeepSeek acredita que o progresso atual no desenvolvimento do R2 é insuficiente e, portanto, levará mais tempo para que o modelo seja implementado. No entanto, algumas fontes esperam que o R2 seja lançado em breve.

Os concorrentes não estão dormindo; o próprio Alibaba tentou adotar as principais soluções conceituais do DeepSeek em seu modelo Qwen3, mas tornou seu desenvolvimento mais eficiente. Especialistas esperam que modelos de linguagem bem-sucedidos treinados em chips da Huawei ainda apareçam com o tempo.

admin

Postagens recentes

Conforme as cartas forem lançadas, conforme a rede ditar: a AWS está implementando uma arquitetura de rede RNG quase aleatória em seus data centers.

A AWS publicou uma descrição técnica da arquitetura de rede de data center que implementará…

1 dia atrás

O chefe da NASA afirma que os voos do foguete New Glenn não serão retomados antes de 2028, eliminando a Blue Origin da corrida lunar.

Durante um teste estático de ignição em 29 de maio de 2026, o foguete New…

1 dia atrás

Foi anunciado o sucessor espiritual de Zeus: Master of Olympus – o jogo de estratégia de construção de cidades Theos: Cities of Myth, onde história e mito se entrelaçam.

A editora Dotemu (Ninja Gaiden: Ragebound, Marvel Cosmic Invasion) e a Triskell Interactive, desenvolvedora de…

1 dia atrás

Plataforma de referência de IA Qualcomm Dragonwing IQ10 para robótica é apresentada.

Cristiano Amon, CEO da Qualcomm, apresentou a plataforma robótica Dragonwing IQ10 atualizada na Computex 2026.…

1 dia atrás

O RPG infernal baseado em turnos, Entropy, do criador de Dread Delusion, recebeu uma demo e uma data de lançamento no Acesso Antecipado do Steam.

A editora DreadXP e o estúdio britânico Lovely Hellplace (Dread Delusion) anunciaram a data de…

1 dia atrás