A startup chinesa DeepSeek ganhou as manchetes no início deste ano quando lançou seu modelo de raciocínio R1, que foi capaz de competir com modelos de IA de gigantes da tecnologia americana, apesar de seu orçamento modesto. Agora, a DeepSeek publicou um artigo em colaboração com pesquisadores da Universidade Tsinghua detalhando uma nova abordagem para treinar modelos de reforço que podem melhorar significativamente seu desempenho. Isso foi relatado pelo recurso SCMP.

Fonte da imagem: Solen Feyissa/unsplash.com

De acordo com a publicação, o novo método visa ajudar os modelos de IA a corresponderem melhor às preferências humanas usando um mecanismo de recompensa para respostas mais precisas e compreensíveis. O aprendizado por reforço provou ser eficaz na aceleração da resolução de problemas de IA em domínios e aplicações limitados. No entanto, seu uso para tarefas mais gerais provou ser menos eficaz. A equipe do DeepSeek está tentando resolver esse problema combinando modelagem de recompensa generativa (GRM) e o chamado ajuste de autocrítica baseado em princípios. Conforme afirmado no artigo, uma nova abordagem para melhorar as capacidades de raciocínio de grandes modelos de linguagem (LLMs) superou os métodos existentes, conforme verificado pela validação do modelo em vários benchmarks, e alcançou o mais alto desempenho para consultas gerais usando menos recursos computacionais.

Os novos modelos são chamados DeepSeek-GRM, uma abreviação de Generalist Reward Modeling. A empresa disse que os novos modelos serão de código aberto, mas nenhuma data de lançamento foi anunciada ainda. No mês passado, a Reuters informou, citando pessoas familiarizadas com o assunto, que a empresa também lançaria o DeepSeek-R2, um sucessor do modelo de raciocínio R1, em abril.

Outros desenvolvedores líderes de IA, incluindo o Alibaba Group Holding da China e a OpenAI, sediada em São Francisco, também estão trabalhando para melhorar o raciocínio e as capacidades de autoaperfeiçoamento dos modelos de IA, observou a Bloomberg.

avalanche

Postagens recentes

A Lian Li lançou um sistema de refrigeração líquida com tela curva de 6,67 polegadas – o HydroShift II OLED Curved 360 AIO.

A Lian Li apresentou o sistema de refrigeração líquida AIO HydroShift II OLED Curved 360.…

1 hora atrás

A Sony admitiu que ainda não decidiu quando e a que preço lançará o PlayStation 6.

A Sony ainda não definiu a data de lançamento nem o preço do PlayStation de…

1 hora atrás

O primeiro teste de ignição da nova versão do foguete Super Heavy foi concluído e a SpaceX está pronta para lançar a Starship V3.

A SpaceX realizou um teste crucial de ignição a quente da nova versão do seu…

2 horas atrás

O modelo de IA GPT-5.5 da OpenAI revelou-se de 1,5 a 2 vezes mais caro que seu antecessor.

No mundo da alta tecnologia, não apenas os chips de memória estão ficando mais caros,…

2 horas atrás

A sonda Psyche da NASA se aproximará de Marte em uma missão rumo ao seu alvo final: um asteroide avaliado em trilhões de dólares.

A missão interplanetária Psyche da NASA, com destino ao asteroide metálico de mesmo nome no…

4 horas atrás