Pesquisadores da Microsoft alertaram que os modelos de IA ainda não estão preparados para uma classe complexa de problemas.

Pesquisadores da Microsoft descobriram que até mesmo os modelos de IA mais avançados cometem erros significativos ao executar tarefas longas e com várias etapas. Durante os testes, modelos de ponta como Gemini 3.1 Pro, Claude 4.6 Opus e GPT 5.4 perderam, em média, 25% do conteúdo dos documentos que lhes foram delegados para processamento autônomo.

Uma equipe liderada por Philippe Laban, Tobias Schnabel e Jennifer Neville, da Microsoft Research, desenvolveu o benchmark DELEGATE-52, que simula fluxos de trabalho em 52 domínios profissionais, como programação, notação musical e cristalografia. Os modelos foram avaliados quanto à sua capacidade de manter a integridade do documento após 20 ciclos de processamento, sendo considerada completa uma pontuação de pelo menos 98%.

Os resultados mostraram que os modelos tiveram um desempenho melhor em tarefas de programação e pior em processamento de linguagem natural. A corrupção de documentos, resultando em pontuações que caíram para 80% ou menos, ocorreu em mais de 80% das combinações. O melhor modelo testado, o Google Gemini 3.1 Pro, atendeu aos critérios de prontidão em apenas 11 dos 52 domínios.

Além disso, os erros não ocorreram gradualmente, mas sim abruptamente; por exemplo, em um único ciclo de interação, o modelo podia perder de 10 a 30 pontos. Modelos mais avançados (Gemini 3.1 Pro, Claude 4.6, GPT 5.4) evitaram erros menores adiando seu processamento para estágios posteriores com menos interações. Ao mesmo tempo, constatou-se que, quando os modelos de IA eram executados em modo baseado em agentes com acesso a ferramentas, seus resultados não apenas deixaram de melhorar, como pioraram em média 6% ao final do ciclo.Segundo os cientistas, os usuáriosO monitoramento cuidadoso do desempenho dos sistemas de IA ao delegar tarefas continua sendo necessário, visto que os modelos atuais são capazes de operar de forma autônoma apenas em domínios restritos. No entanto, os autores do benchmark reconhecem o progresso do LLM, observando que, por exemplo, a família de modelos de IA da OpenAI melhorou seu desempenho de 14,7% para 71,5% em 16 meses.

admin

Compartilhar
Publicado por
admin

Postagens recentes

A OpenAI integrará o modelo de voz Bidi 1 ao ChatGPT, que poderá falar e ouvir simultaneamente.

A OpenAI pretende transformar o ChatGPT em um superaplicativo, e outra grande atualização está atualmente…

25 minutos atrás

A Microsoft quebrou o sistema de conversas por e-mail no Outlook para macOS, mas prometeu corrigir o problema.

Na atualização mais recente do Outlook para macOS, versão 16.110, compilação 26061317, a Microsoft desativou…

25 minutos atrás

Electronic Arts: A IA generativa levou a um aumento na criatividade dos desenvolvedores.

A Electronic Arts, editora e desenvolvedora americana, reconheceu a IA generativa como a base de…

25 minutos atrás

A OneXPlayer definiu o preço do console de jogos portátil OneXPlayer 3, equipado com um processador Intel Arc G3 Extreme, a partir de US$ 1.399.

A OneXPlayer lançou uma campanha de financiamento coletivo para seu novo console portátil OneXPlayer 3,…

47 minutos atrás

O Google trouxe o Telegram de volta para a seção indiana da Play Store, enquanto a Apple está ficando para trás.

O Google reinstalou o aplicativo Telegram na Play Store indiana após uma proibição temporária que…

1 hora atrás