Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

Pesquisadores da Microsoft alertaram que os modelos de IA ainda não estão preparados para uma classe complexa de problemas.

Pesquisadores da Microsoft descobriram que até mesmo os modelos de IA mais avançados cometem erros significativos ao executar tarefas longas e com várias etapas. Durante os testes, modelos de ponta como Gemini 3.1 Pro, Claude 4.6 Opus e GPT 5.4 perderam, em média, 25% do conteúdo dos documentos que lhes foram delegados para processamento autônomo.

Uma equipe liderada por Philippe Laban, Tobias Schnabel e Jennifer Neville, da Microsoft Research, desenvolveu o benchmark DELEGATE-52, que simula fluxos de trabalho em 52 domínios profissionais, como programação, notação musical e cristalografia. Os modelos foram avaliados quanto à sua capacidade de manter a integridade do documento após 20 ciclos de processamento, sendo considerada completa uma pontuação de pelo menos 98%.

Os resultados mostraram que os modelos tiveram um desempenho melhor em tarefas de programação e pior em processamento de linguagem natural. A corrupção de documentos, resultando em pontuações que caíram para 80% ou menos, ocorreu em mais de 80% das combinações. O melhor modelo testado, o Google Gemini 3.1 Pro, atendeu aos critérios de prontidão em apenas 11 dos 52 domínios.

Além disso, os erros não ocorreram gradualmente, mas sim abruptamente; por exemplo, em um único ciclo de interação, o modelo podia perder de 10 a 30 pontos. Modelos mais avançados (Gemini 3.1 Pro, Claude 4.6, GPT 5.4) evitaram erros menores adiando seu processamento para estágios posteriores com menos interações. Ao mesmo tempo, constatou-se que, quando os modelos de IA eram executados em modo baseado em agentes com acesso a ferramentas, seus resultados não apenas deixaram de melhorar, como pioraram em média 6% ao final do ciclo.Segundo os cientistas, os usuáriosO monitoramento cuidadoso do desempenho dos sistemas de IA ao delegar tarefas continua sendo necessário, visto que os modelos atuais são capazes de operar de forma autônoma apenas em domínios restritos. No entanto, os autores do benchmark reconhecem o progresso do LLM, observando que, por exemplo, a família de modelos de IA da OpenAI melhorou seu desempenho de 14,7% para 71,5% em 16 meses.