O bilionário chinês e o proprietário do fundo de hedge Liang Wenfeng lançaram a startup Deepseek no campo da inteligência artificial, que desenvolve modelos avançados com orçamento limitado e recursos técnicos e também conta como isso pode ser feito. A empresa estava à frente dos líderes do mercado americano e fez uma verdadeira comoção, escreve o Financial Times.
Nesta semana, a Deepseek lançou o modelo “raciocínio” do AI R1 e publicou instruções sobre como criar um modelo de idioma grande com custos mínimos que podem aprender e melhorar independentemente sem controle de uma pessoa. Os pioneiros no desenvolvimento de modelos de “raciocínio” que imitam as habilidades cognitivas de uma pessoa são OpenAI e Google DeepMind. Em dezembro, a Openai lançou a versão completa de sua rede neural O1, mas não revelou como ela liderou seu desenvolvimento. A produção da Deepseek R1 levantou a questão de se as empresas americanas com projetos com projetos de IA, incluindo meta✴ e antropia, podem manter uma vantagem tecnológica.
Em 2021, Liang Wenfeng começou a comprar milhares de GPUs Nvidia para seu projeto paralelo de IA, sendo seu principal local de trabalho a High-Flyer Foundation. Na época, suas ações eram vistas como o comportamento excêntrico de um bilionário em busca de um novo hobby. Ele não foi levado a sério quando falou sobre o lançamento de um cluster de 10.000 aceleradores Nvidia, e ele mesmo não conseguiu formular claramente seus objetivos – ele simplesmente afirmou: “Eu quero construir isso, e isso mudará as regras do jogo”. Acreditava-se que apenas gigantes como ByteDance e Alibaba poderiam fazer isso. Ele ganhou bilhões na High-Flyer usando IA e algoritmos para identificar padrões que poderiam afetar os preços das ações. Sua equipe obteve sucesso usando chips Nvidia na negociação de ações. Em 2023, Liang Wenfeng lançou a startup DeepSeek e anunciou sua intenção de criar IA de nível humano.
As sanções americanas que limitavam o acesso das empresas chinesas aos aceleradores de IA não atrapalharam o trabalho da empresa – seus engenheiros já sabiam “como desbloquear o potencial dessas GPUs, mesmo que não sejam as mais recentes”. O que torna o DeepSeek especialmente perigoso é que ele está disposto a compartilhar suas conquistas em vez de ocultá-las para obter ganhos comerciais. A empresa não levantou recursos de fontes externas e não tomou medidas significativas para monetizar seus modelos; seu campo é pesquisa e trabalho de engenharia, semelhante ao DeepMind inicial. Liang caracteriza a DeepSeek como uma empresa “local”, composta por PhDs das principais universidades chinesas, em vez de instituições americanas; e no ano passado ele disse em entrevista que não havia ninguém na equipe principal que tivesse retornado do exterior.
Para treinar um de seus modelos com 671 bilhões de parâmetros, a DeepSeek usou apenas 2.048 aceleradores Nvidia H800 AI e gastou US$ 5,6 milhões, uma fração do que a OpenAI e o Google gastam em sistemas de treinamento de tamanho comparável. A China tem muitos especialistas que sabem como treinar e executar modelos de IA com recursos computacionais limitados, admitem os especialistas; mas não há garantia, continuam eles, de que a DeepSeek será capaz de permanecer competitiva à medida que a indústria evolui. Ao mesmo tempo, a rentabilidade da empresa High-Flyer, à custa da qual existe principalmente o DeepSeek, diminuiu no final de 2024, porque o seu chefe está agora mais interessado em tecnologias de IA.