Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes NeuraisMercado de tecnologia e TI. notícia

Os chineses apresentaram o modelo aberto de IA DeepSeek V3 – é mais rápido que o GPT-4o e seu treinamento era muito mais barato

A empresa chinesa DeepSeek introduziu um poderoso modelo aberto de inteligência artificial DeepSeek V3 – a licença permite que ele seja baixado, modificado e usado gratuitamente na maioria dos projetos, inclusive comerciais.

Fonte da imagem: e máquinas/unsplash.com

DeepSeek V3 lida com uma variedade de tarefas de processamento de texto, incluindo redação de artigos, e-mails, tradução e geração de código. O modelo supera a maioria dos análogos abertos e fechados, como mostram os resultados dos testes realizados pelo desenvolvedor. Assim, em tarefas relacionadas à programação acabou sendo mais forte que Meta✴ Llama 3.1 405B, OpenAI GPT-4o e Alibaba Qwen 2.5 72B; O DeepSeek V3 também teve um desempenho melhor que seus concorrentes no teste Aider Polyglot, que testa, entre outras coisas, sua capacidade de gerar código para projetos existentes.

O modelo foi treinado em um conjunto de dados de 14,8 trilhões de projetos; Quando implantado na plataforma Hugging Face, o DeepSeek V3 mostrou um tamanho de 685 bilhões de parâmetros – cerca de 1,6 vezes mais que o Llama 3.1 405B, que, como se pode imaginar, possui 405 bilhões de parâmetros. Normalmente, o número de parâmetros, ou seja, variáveis internas que os modelos utilizam para prever respostas e tomar decisões, correlaciona-se com a habilidade do modelo: quanto mais parâmetros, mais capaz ele é. Mas a execução de tais sistemas de IA requer mais recursos computacionais.

O DeepSeek V3 foi treinado em dois meses em um data center em aceleradores Nvidia H800 – suas entregas para a China agora são proibidas pelas sanções americanas. O custo de treinamento do modelo, afirma o desenvolvedor, foi de US$ 5,5 milhões, o que é significativamente inferior às despesas da OpenAI para os mesmos fins. Ao mesmo tempo, o DeepSeek V3 é politicamente verificado – recusa-se a responder a perguntas que Pequim oficial considera sensíveis.

Em novembro, o mesmo desenvolvedor apresentou o modelo DeepSeek-R1, um análogo do “raciocínio” OpenAI o1. Um dos investidores da DeepSeek é o fundo de hedge chinês High-Flyer Capital Management, que toma decisões usando IA. Possui vários clusters próprios para modelos de treinamento. Um dos mais recentes, segundo alguns relatórios, contém 10.000 aceleradores Nvidia A100 e seu custo foi de 1 bilhão de yuans (US$ 138 milhões). A High-Flyer visa ajudar a DeepSeek a desenvolver IA “superinteligente” que superará os humanos.

avalanche

Próximo Samsung perdeu o pedido da Qualcomm para produzir chips Snapdragon 8 Elite de segunda geração de 3nm »

Anterior « Rambler se transformará completamente em um portal de IA baseado em GigaChat

Deixar comentário

Publicado por

avalanche

2 anos atrás

Postagens recentes

Carros, motos, veículos

As vendas de veículos elétricos da Tesla aumentaram repentinamente no segundo trimestre.

A Tesla entregou mais de 480.000 veículos elétricos no segundo trimestre deste ano, um aumento…

28 minutos atrás

Vírus, cavalos de Troia, vulnerabilidades de software, problemas de segurança

O navegador Opera recebeu proteção avançada contra comandos maliciosos inseridos através da área de transferência.

Os desenvolvedores do navegador Opera anunciaram um novo recurso de segurança chamado Paste Protect, projetado…

28 minutos atrás

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

“Se você não conseguir, nós ensinaremos; se você não quiser, nós o obrigaremos”: a Microsoft mobiliza 6.000 funcionários para ajudar os clientes a implementar IA.

As gigantes da tecnologia estão investindo tanto em inteligência artificial que continuam a alcançar seus…

28 minutos atrás

Vírus, cavalos de Troia, vulnerabilidades de software, problemas de segurança

O governo dos EUA foi novamente alvo de um ataque cibernético: hackers infiltraram-se em uma plataforma federal de compartilhamento de informações.

O Departamento de Segurança Interna dos EUA está investigando uma violação da Rede de Informações…

28 minutos atrás

Notícias da rede

Uma fonte confiável negou o fechamento da Obsidian Entertainment e o trabalho do estúdio em um novo Fallout.

A notícia da Game Business sobre o destino da Obsidian Entertainment alarmou os fãs do…

28 minutos atrás

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

Inteligência Artificial se mostra cara demais: Empresas cortam acesso de funcionários ao ChatGPT e ao Claude.

Fontes bem informadas estão revelando as iminentes consequências negativas da adoção acelerada da IA e…

1 hora atrás

Os chineses apresentaram o modelo aberto de IA DeepSeek V3 – é mais rápido que o GPT-4o e seu treinamento era muito mais barato

Conteúdo relacionado

Postagens recentes

As vendas de veículos elétricos da Tesla aumentaram repentinamente no segundo trimestre.

O navegador Opera recebeu proteção avançada contra comandos maliciosos inseridos através da área de transferência.

“Se você não conseguir, nós ensinaremos; se você não quiser, nós o obrigaremos”: a Microsoft mobiliza 6.000 funcionários para ajudar os clientes a implementar IA.

O governo dos EUA foi novamente alvo de um ataque cibernético: hackers infiltraram-se em uma plataforma federal de compartilhamento de informações.

Uma fonte confiável negou o fechamento da Obsidian Entertainment e o trabalho do estúdio em um novo Fallout.

Inteligência Artificial se mostra cara demais: Empresas cortam acesso de funcionários ao ChatGPT e ao Claude.