A empresa chinesa DeepSeek introduziu um poderoso modelo aberto de inteligência artificial DeepSeek V3 – a licença permite que ele seja baixado, modificado e usado gratuitamente na maioria dos projetos, inclusive comerciais.
DeepSeek V3 lida com uma variedade de tarefas de processamento de texto, incluindo redação de artigos, e-mails, tradução e geração de código. O modelo supera a maioria dos análogos abertos e fechados, como mostram os resultados dos testes realizados pelo desenvolvedor. Assim, em tarefas relacionadas à programação acabou sendo mais forte que Meta✴ Llama 3.1 405B, OpenAI GPT-4o e Alibaba Qwen 2.5 72B; O DeepSeek V3 também teve um desempenho melhor que seus concorrentes no teste Aider Polyglot, que testa, entre outras coisas, sua capacidade de gerar código para projetos existentes.
O modelo foi treinado em um conjunto de dados de 14,8 trilhões de projetos; Quando implantado na plataforma Hugging Face, o DeepSeek V3 mostrou um tamanho de 685 bilhões de parâmetros – cerca de 1,6 vezes mais que o Llama 3.1 405B, que, como se pode imaginar, possui 405 bilhões de parâmetros. Normalmente, o número de parâmetros, ou seja, variáveis internas que os modelos utilizam para prever respostas e tomar decisões, correlaciona-se com a habilidade do modelo: quanto mais parâmetros, mais capaz ele é. Mas a execução de tais sistemas de IA requer mais recursos computacionais.
O DeepSeek V3 foi treinado em dois meses em um data center em aceleradores Nvidia H800 – suas entregas para a China agora são proibidas pelas sanções americanas. O custo de treinamento do modelo, afirma o desenvolvedor, foi de US$ 5,5 milhões, o que é significativamente inferior às despesas da OpenAI para os mesmos fins. Ao mesmo tempo, o DeepSeek V3 é politicamente verificado – recusa-se a responder a perguntas que Pequim oficial considera sensíveis.
Em novembro, o mesmo desenvolvedor apresentou o modelo DeepSeek-R1, um análogo do “raciocínio” OpenAI o1. Um dos investidores da DeepSeek é o fundo de hedge chinês High-Flyer Capital Management, que toma decisões usando IA. Possui vários clusters próprios para modelos de treinamento. Um dos mais recentes, segundo alguns relatórios, contém 10.000 aceleradores Nvidia A100 e seu custo foi de 1 bilhão de yuans (US$ 138 milhões). A High-Flyer visa ajudar a DeepSeek a desenvolver IA “superinteligente” que superará os humanos.
A Comissão Federal de Comércio dos EUA (FTC) lançou uma investigação sobre a Microsoft, suspeitando…
O presidente eleito dos EUA, Donald Trump, tomará posse oficialmente em 20 de janeiro, mas…
A NVIDIA lançou os novos aceleradores GB300 e B300 apenas seis meses após o lançamento…
O governo sul-coreano aprovou a construção do maior cluster de produção de semicondutores do mundo…
Desde meados de dezembro, os invasores realizaram uma série de ataques de hackers, como resultado…
Um vazamento no ano passado revelou que a Insomniac Games estava desenvolvendo um jogo multiplayer…