O bilionário chinês e o proprietário do fundo de hedge Liang Wenfeng lançaram a startup Deepseek no campo da inteligência artificial, que desenvolve modelos avançados com orçamento limitado e recursos técnicos e também conta como isso pode ser feito. A empresa estava à frente dos líderes do mercado americano e fez uma verdadeira comoção, escreve o Financial Times.

Fonte da imagem: Nguyen Dang Hoang Nhu / unsplash.com

Nesta semana, a Deepseek lançou o modelo “raciocínio” do AI R1 e publicou instruções sobre como criar um modelo de idioma grande com custos mínimos que podem aprender e melhorar independentemente sem controle de uma pessoa. Os pioneiros no desenvolvimento de modelos de “raciocínio” que imitam as habilidades cognitivas de uma pessoa são OpenAI e Google DeepMind. Em dezembro, a Openai lançou a versão completa de sua rede neural O1, mas não revelou como ela liderou seu desenvolvimento. A produção da Deepseek R1 levantou a questão de se as empresas americanas com projetos com projetos de IA, incluindo meta✴ e antropia, podem manter uma vantagem tecnológica.

Em 2021, Liang Wenfeng começou a comprar milhares de GPUs Nvidia para seu projeto paralelo de IA, sendo seu principal local de trabalho a High-Flyer Foundation. Na época, suas ações eram vistas como o comportamento excêntrico de um bilionário em busca de um novo hobby. Ele não foi levado a sério quando falou sobre o lançamento de um cluster de 10.000 aceleradores Nvidia, e ele mesmo não conseguiu formular claramente seus objetivos – ele simplesmente afirmou: “Eu quero construir isso, e isso mudará as regras do jogo”. Acreditava-se que apenas gigantes como ByteDance e Alibaba poderiam fazer isso. Ele ganhou bilhões na High-Flyer usando IA e algoritmos para identificar padrões que poderiam afetar os preços das ações. Sua equipe obteve sucesso usando chips Nvidia na negociação de ações. Em 2023, Liang Wenfeng lançou a startup DeepSeek e anunciou sua intenção de criar IA de nível humano.

Fonte da imagem: Stefan Cosma/unsplash.com

As sanções americanas que limitavam o acesso das empresas chinesas aos aceleradores de IA não atrapalharam o trabalho da empresa – seus engenheiros já sabiam “como desbloquear o potencial dessas GPUs, mesmo que não sejam as mais recentes”. O que torna o DeepSeek especialmente perigoso é que ele está disposto a compartilhar suas conquistas em vez de ocultá-las para obter ganhos comerciais. A empresa não levantou recursos de fontes externas e não tomou medidas significativas para monetizar seus modelos; seu campo é pesquisa e trabalho de engenharia, semelhante ao DeepMind inicial. Liang caracteriza a DeepSeek como uma empresa “local”, composta por PhDs das principais universidades chinesas, em vez de instituições americanas; e no ano passado ele disse em entrevista que não havia ninguém na equipe principal que tivesse retornado do exterior.

Para treinar um de seus modelos com 671 bilhões de parâmetros, a DeepSeek usou apenas 2.048 aceleradores Nvidia H800 AI e gastou US$ 5,6 milhões, uma fração do que a OpenAI e o Google gastam em sistemas de treinamento de tamanho comparável. A China tem muitos especialistas que sabem como treinar e executar modelos de IA com recursos computacionais limitados, admitem os especialistas; mas não há garantia, continuam eles, de que a DeepSeek será capaz de permanecer competitiva à medida que a indústria evolui. Ao mesmo tempo, a rentabilidade da empresa High-Flyer, à custa da qual existe principalmente o DeepSeek, diminuiu no final de 2024, porque o seu chefe está agora mais interessado em tecnologias de IA.

avalanche

Postagens recentes

A AMD apresentou o Ryzen AI Pro 400 para dispositivos móveis, destinado a laptops empresariais e estações de trabalho móveis.

Além dos processadores para desktop Ryzen AI 400 e Ryzen AI Pro 400 para a…

18 minutos atrás

AMD revela o Ryzen AI 400 para Socket AM5 — até 8 núcleos Zen 5, gráficos RDNA 3.5 e uma NPU de 50 TOPS.

Na MWC 2026, a AMD confirmou o lançamento dos processadores para desktops Ryzen AI 400…

46 minutos atrás

NVIDIA, Ericsson, Nokia e parceiros irão impulsionar o 6G utilizando IA e plataformas abertas.

A NVIDIA anunciou sua intenção de trabalhar com parceiros para desenvolver redes móveis 6G utilizando…

1 hora atrás

Investigadores descobriram que contrabandistas compravam abertamente aceleradores de IA da Nvidia nos EUA para entrega na China.

Até recentemente, acreditava-se que países terceiros desempenhavam um papel fundamental no contrabando de aceleradores de…

1 hora atrás

Uma disputa de marca registrada obrigou a Take-Two a atualizar seus números de vendas de GTA: Vice City Stories pela primeira vez em 18 anos.

A Take-Two Interactive, editora da franquia, divulga regularmente os números de vendas dos jogos GTA,…

2 horas atrás