Pesquisadores da Microsoft alertaram que os modelos de IA ainda não estão preparados para uma classe complexa de problemas.

Pesquisadores da Microsoft descobriram que até mesmo os modelos de IA mais avançados cometem erros significativos ao executar tarefas longas e com várias etapas. Durante os testes, modelos de ponta como Gemini 3.1 Pro, Claude 4.6 Opus e GPT 5.4 perderam, em média, 25% do conteúdo dos documentos que lhes foram delegados para processamento autônomo.

Uma equipe liderada por Philippe Laban, Tobias Schnabel e Jennifer Neville, da Microsoft Research, desenvolveu o benchmark DELEGATE-52, que simula fluxos de trabalho em 52 domínios profissionais, como programação, notação musical e cristalografia. Os modelos foram avaliados quanto à sua capacidade de manter a integridade do documento após 20 ciclos de processamento, sendo considerada completa uma pontuação de pelo menos 98%.

Os resultados mostraram que os modelos tiveram um desempenho melhor em tarefas de programação e pior em processamento de linguagem natural. A corrupção de documentos, resultando em pontuações que caíram para 80% ou menos, ocorreu em mais de 80% das combinações. O melhor modelo testado, o Google Gemini 3.1 Pro, atendeu aos critérios de prontidão em apenas 11 dos 52 domínios.

Além disso, os erros não ocorreram gradualmente, mas sim abruptamente; por exemplo, em um único ciclo de interação, o modelo podia perder de 10 a 30 pontos. Modelos mais avançados (Gemini 3.1 Pro, Claude 4.6, GPT 5.4) evitaram erros menores adiando seu processamento para estágios posteriores com menos interações. Ao mesmo tempo, constatou-se que, quando os modelos de IA eram executados em modo baseado em agentes com acesso a ferramentas, seus resultados não apenas deixaram de melhorar, como pioraram em média 6% ao final do ciclo.Segundo os cientistas, os usuáriosO monitoramento cuidadoso do desempenho dos sistemas de IA ao delegar tarefas continua sendo necessário, visto que os modelos atuais são capazes de operar de forma autônoma apenas em domínios restritos. No entanto, os autores do benchmark reconhecem o progresso do LLM, observando que, por exemplo, a família de modelos de IA da OpenAI melhorou seu desempenho de 14,7% para 71,5% em 16 meses.

admin

Compartilhar
Publicado por
admin

Postagens recentes

O Google poderá apresentar um novo modelo de geração de vídeo Omni no I/O 2026.

O novo modelo Gemini Omni do Google já fez suas primeiras aparições, demonstrando resultados impressionantes…

1 hora atrás

O iOS 26.5 traz criptografia de ponta a ponta para mensagens RCS multiplataforma.

A Apple lançou o iOS 26.5 para o público após seis semanas de testes beta.…

1 hora atrás

A Meta✴ teve que estender a vida útil de seus servidores devido à falta de memória.

A Meta✴ foi obrigada a estender a vida útil de alguns de seus servidores de…

6 horas atrás

A AST SpaceMobile aumentou em quase cinco vezes a velocidade da internet via satélite para smartphones.

A startup AST SpaceMobile, sediada no Texas e cuja futura constelação de satélites competirá com…

7 horas atrás

Calendário de lançamentos de 11 a 17 de maio: Subnautica 2, Outbound, Directive 8020 e Black Jacket.

Meados de maio se mostrou uma semana surpreendentemente forte. O principal lançamento da semana é…

8 horas atrás

O Google descobriu e bloqueou, pela primeira vez, uma vulnerabilidade de IA que permitia quebrar a autenticação de dois fatores (2FA).

O Google descobriu e bloqueou, pela primeira vez, uma vulnerabilidade zero-day (um método de ataque…

8 horas atrás