A Apple desenvolveu uma IA que considera várias opções de resposta em paralelo e produz a melhor delas.

Pesquisadores da Apple, em conjunto com cientistas da Universidade da Califórnia, em San Diego, desenvolveram uma nova estrutura, LaDiR, que aprimora a qualidade da resposta de modelos de linguagem em larga escala (LLMs). A ideia central do sistema é permitir que redes neurais testem múltiplas opções de raciocínio em paralelo antes de produzir um resultado final.

A estrutura, chamada LaDiR (Latent Diffusion Enhances LLMs for Text Reasoning), combina abordagens de difusão e autorregressivas para a geração de texto. Durante a fase de raciocínio, o modelo usa difusão para processar simultaneamente múltiplos tokens e gera a resposta final usando um método autorregressivo, um token por vez. No entanto, como observa o 9to5Mac, o LaDiR não é uma rede neural independente, mas sim atua como uma superestrutura para modelos de linguagem existentes, modificando seus algoritmos de raciocínio.

Fonte da imagem: 9to5mac.com

O mecanismo da estrutura baseia-se na geração de unidades de raciocínio ocultas, que inicialmente representam ruído aleatório e são gradualmente refinadas em etapas logicamente coerentes. O LaDiR inicia vários desses caminhos paralelos simultaneamente, cada um desenvolvendo seu próprio processo de difusão, enquanto um mecanismo especial estimula os ramos a explorar diferentes possibilidades para que não convirjam para a mesma solução prematuramente. Quando o modelo determina que o processo de raciocínio está completo, ele passa para a geração sequencial da resposta final.

Para testar sua eficácia, os pesquisadores aplicaram o LaDiR ao modelo Meta✴LLaMA 3.1 8B para problemas matemáticos e resolução de quebra-cabeças, bem como ao Qwen3-8B-Base para geração de código. No teste matemático, a estrutura demonstrou maior precisão em comparação com as abordagens existentes, fornecendo resultados confiáveis ​​mesmo em problemas complexos e não padronizados. Ao mesmo tempo, no benchmark HumanEval, o sistema produziu um código mais robusto, superando significativamente o ajuste fino padrão, especialmente na resolução de problemas difíceis.

Fonte da imagem: 9to5mac.com

Em tarefas de planejamento, como o jogo Contagem Regressiva, o LaDiR explorou uma gama mais ampla de respostas corretas do que qualquer modelo de referência e encontrou soluções corretas com mais confiabilidade do que qualquer sistema de IA de propósito geral. No entanto, em tarefas que exigem alta precisão na primeira tentativa, a estrutura ainda superou modelos especializados, adaptados a tarefas específicas e restritas. Apesar da complexidade técnica de alguns aspectos do estudo, os autores observam que a abordagem proposta abre novas perspectivas para aprimorar a qualidade da geração de texto e a lógica dos modelos de linguagem.

admin

Compartilhar
Publicado por
admin

Postagens recentes

“Eu fui um tolo”: Elon Musk lamentou no tribunal sua decisão de dar dinheiro aos fundadores da OpenAI.

O processo judicial entre a OpenAI e Elon Musk, um dos fundadores da startup, está…

20 minutos atrás

A Cloudflare classificou seu aplicativo de mensagens Max como spyware e malware, e os desenvolvedores responderam.

Na Cloudflare Radar, uma plataforma pertencente à Cloudflare, uma das maiores provedoras de serviços de…

37 minutos atrás

“Melhor jogar o primeiro jogo”: o shooter Industria 2 decepcionou os jogadores e foi lançado no Steam com uma avaliação de 56%.

A Bleakmill Studios, com o apoio da Headup, lançou o jogo de tiro e terror…

50 minutos atrás

Lumai anuncia servidores de IA óptica Iris com aceleradores de inferência fotônica.

A startup britânica de IA, Lumai, anunciou a família Lumai Iris de servidores de inferência…

1 hora atrás