O bilionário chinês e o proprietário do fundo de hedge Liang Wenfeng lançaram a startup Deepseek no campo da inteligência artificial, que desenvolve modelos avançados com orçamento limitado e recursos técnicos e também conta como isso pode ser feito. A empresa estava à frente dos líderes do mercado americano e fez uma verdadeira comoção, escreve o Financial Times.

Fonte da imagem: Nguyen Dang Hoang Nhu / unsplash.com

Nesta semana, a Deepseek lançou o modelo “raciocínio” do AI R1 e publicou instruções sobre como criar um modelo de idioma grande com custos mínimos que podem aprender e melhorar independentemente sem controle de uma pessoa. Os pioneiros no desenvolvimento de modelos de “raciocínio” que imitam as habilidades cognitivas de uma pessoa são OpenAI e Google DeepMind. Em dezembro, a Openai lançou a versão completa de sua rede neural O1, mas não revelou como ela liderou seu desenvolvimento. A produção da Deepseek R1 levantou a questão de se as empresas americanas com projetos com projetos de IA, incluindo meta✴ e antropia, podem manter uma vantagem tecnológica.

Em 2021, Liang Wenfeng começou a comprar milhares de GPUs Nvidia para seu projeto paralelo de IA, sendo seu principal local de trabalho a High-Flyer Foundation. Na época, suas ações eram vistas como o comportamento excêntrico de um bilionário em busca de um novo hobby. Ele não foi levado a sério quando falou sobre o lançamento de um cluster de 10.000 aceleradores Nvidia, e ele mesmo não conseguiu formular claramente seus objetivos – ele simplesmente afirmou: “Eu quero construir isso, e isso mudará as regras do jogo”. Acreditava-se que apenas gigantes como ByteDance e Alibaba poderiam fazer isso. Ele ganhou bilhões na High-Flyer usando IA e algoritmos para identificar padrões que poderiam afetar os preços das ações. Sua equipe obteve sucesso usando chips Nvidia na negociação de ações. Em 2023, Liang Wenfeng lançou a startup DeepSeek e anunciou sua intenção de criar IA de nível humano.

Fonte da imagem: Stefan Cosma/unsplash.com

As sanções americanas que limitavam o acesso das empresas chinesas aos aceleradores de IA não atrapalharam o trabalho da empresa – seus engenheiros já sabiam “como desbloquear o potencial dessas GPUs, mesmo que não sejam as mais recentes”. O que torna o DeepSeek especialmente perigoso é que ele está disposto a compartilhar suas conquistas em vez de ocultá-las para obter ganhos comerciais. A empresa não levantou recursos de fontes externas e não tomou medidas significativas para monetizar seus modelos; seu campo é pesquisa e trabalho de engenharia, semelhante ao DeepMind inicial. Liang caracteriza a DeepSeek como uma empresa “local”, composta por PhDs das principais universidades chinesas, em vez de instituições americanas; e no ano passado ele disse em entrevista que não havia ninguém na equipe principal que tivesse retornado do exterior.

Para treinar um de seus modelos com 671 bilhões de parâmetros, a DeepSeek usou apenas 2.048 aceleradores Nvidia H800 AI e gastou US$ 5,6 milhões, uma fração do que a OpenAI e o Google gastam em sistemas de treinamento de tamanho comparável. A China tem muitos especialistas que sabem como treinar e executar modelos de IA com recursos computacionais limitados, admitem os especialistas; mas não há garantia, continuam eles, de que a DeepSeek será capaz de permanecer competitiva à medida que a indústria evolui. Ao mesmo tempo, a rentabilidade da empresa High-Flyer, à custa da qual existe principalmente o DeepSeek, diminuiu no final de 2024, porque o seu chefe está agora mais interessado em tecnologias de IA.

avalanche

Postagens recentes

As vendas de Ready or Not atingiram 13 milhões — o jogo para PC continua vendendo mesmo em meio ao escândalo de censura

Os desenvolvedores do estúdio irlandês Void Interactive compartilharam informações sobre os novos sucessos de seu…

33 minutos atrás

Calendário de lançamentos – 8 a 14 de setembro: Borderlands 4, Shape of Dreams e Katanaut

Laptops HONOR MagicBook: tecnologia, design e desempenho para qualquer tarefa

1 hora atrás

Fones de ouvido Nothing Ear (3) ganham data de anúncio oficial

A Nothing, com sede em Londres, anunciou oficialmente a data de lançamento de seus novos…

2 horas atrás

Google adiciona suporte a arquivos de áudio ao Gemini para todas as plataformas, incluindo iOS

O Google adicionou a capacidade de baixar arquivos de áudio no aplicativo Gemini em todas…

3 horas atrás

Sapphire lança placas-mãe brancas PURE B850A WIFI e PURE B850M WIFI para Ryzen 9000

A Sapphire expandiu sua linha de placas-mãe com dois novos modelos projetados para os processadores…

3 horas atrás