Os chineses apresentaram o modelo aberto de IA DeepSeek V3 – é mais rápido que o GPT-4o e seu treinamento era muito mais barato

A empresa chinesa DeepSeek introduziu um poderoso modelo aberto de inteligência artificial DeepSeek V3 – a licença permite que ele seja baixado, modificado e usado gratuitamente na maioria dos projetos, inclusive comerciais.

Fonte da imagem: e máquinas/unsplash.com

DeepSeek V3 lida com uma variedade de tarefas de processamento de texto, incluindo redação de artigos, e-mails, tradução e geração de código. O modelo supera a maioria dos análogos abertos e fechados, como mostram os resultados dos testes realizados pelo desenvolvedor. Assim, em tarefas relacionadas à programação acabou sendo mais forte que Meta✴ Llama 3.1 405B, OpenAI GPT-4o e Alibaba Qwen 2.5 72B; O DeepSeek V3 também teve um desempenho melhor que seus concorrentes no teste Aider Polyglot, que testa, entre outras coisas, sua capacidade de gerar código para projetos existentes.

O modelo foi treinado em um conjunto de dados de 14,8 trilhões de projetos; Quando implantado na plataforma Hugging Face, o DeepSeek V3 mostrou um tamanho de 685 bilhões de parâmetros – cerca de 1,6 vezes mais que o Llama 3.1 405B, que, como se pode imaginar, possui 405 bilhões de parâmetros. Normalmente, o número de parâmetros, ou seja, variáveis ​​internas que os modelos utilizam para prever respostas e tomar decisões, correlaciona-se com a habilidade do modelo: quanto mais parâmetros, mais capaz ele é. Mas a execução de tais sistemas de IA requer mais recursos computacionais.

O DeepSeek V3 foi treinado em dois meses em um data center em aceleradores Nvidia H800 – suas entregas para a China agora são proibidas pelas sanções americanas. O custo de treinamento do modelo, afirma o desenvolvedor, foi de US$ 5,5 milhões, o que é significativamente inferior às despesas da OpenAI para os mesmos fins. Ao mesmo tempo, o DeepSeek V3 é politicamente verificado – recusa-se a responder a perguntas que Pequim oficial considera sensíveis.

Em novembro, o mesmo desenvolvedor apresentou o modelo DeepSeek-R1, um análogo do “raciocínio” OpenAI o1. Um dos investidores da DeepSeek é o fundo de hedge chinês High-Flyer Capital Management, que toma decisões usando IA. Possui vários clusters próprios para modelos de treinamento. Um dos mais recentes, segundo alguns relatórios, contém 10.000 aceleradores Nvidia A100 e seu custo foi de 1 bilhão de yuans (US$ 138 milhões). A High-Flyer visa ajudar a DeepSeek a desenvolver IA “superinteligente” que superará os humanos.

avalanche

Postagens recentes

A Terra é visível pela vigia: o comandante da missão lunar Artemis II enviou fotos deslumbrantes do nosso planeta.

Há algumas horas, a espaçonave Orion e sua tripulação concluíram com sucesso uma manobra de…

22 minutos atrás

A MSI lançou o adaptador PCIe sem fio Herald BE9400 com suporte para Wi-Fi 7 e Bluetooth 5.4.

A MSI lançou o adaptador sem fio Herald BE9400 como uma placa de expansão PCIe,…

22 minutos atrás

A comédia retrofuturista Breathedge 2 passou por uma reformulação completa da jogabilidade e chegará ao Acesso Antecipado do Steam.

O estúdio russo RedRuins Softworks, com o apoio da editora HypeTrain Digital, anunciou uma reformulação…

22 minutos atrás

State of Decay 3 ressuscitou e está se preparando para um alfa público seis anos após seu anúncio.

O estúdio americano Undead Labs, parte da Xbox Game Studios, divulgou as primeiras notícias em…

1 hora atrás

O modelo de IA Claude descobriu uma vulnerabilidade e desenvolveu um exploit funcional para o FreeBSD.

O modelo de IA Claude, em conjunto com o pesquisador Nicholas Carlini, criou autonomamente dois…

2 horas atrás

A Asus economizou na embalagem, fazendo com que monitores OLED de US$ 1.299 chegassem rachados.

O Asus ROG Swift OLED PG32UCDM Gen3 (PG32UCDM3) é um dos melhores e mais caros…

2 horas atrás