Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

Pesquisadores da Microsoft alertaram que os modelos de IA ainda não estão preparados para uma classe complexa de problemas.

Pesquisadores da Microsoft descobriram que até mesmo os modelos de IA mais avançados cometem erros significativos ao executar tarefas longas e com várias etapas. Durante os testes, modelos de ponta como Gemini 3.1 Pro, Claude 4.6 Opus e GPT 5.4 perderam, em média, 25% do conteúdo dos documentos que lhes foram delegados para processamento autônomo.

Uma equipe liderada por Philippe Laban, Tobias Schnabel e Jennifer Neville, da Microsoft Research, desenvolveu o benchmark DELEGATE-52, que simula fluxos de trabalho em 52 domínios profissionais, como programação, notação musical e cristalografia. Os modelos foram avaliados quanto à sua capacidade de manter a integridade do documento após 20 ciclos de processamento, sendo considerada completa uma pontuação de pelo menos 98%.

Os resultados mostraram que os modelos tiveram um desempenho melhor em tarefas de programação e pior em processamento de linguagem natural. A corrupção de documentos, resultando em pontuações que caíram para 80% ou menos, ocorreu em mais de 80% das combinações. O melhor modelo testado, o Google Gemini 3.1 Pro, atendeu aos critérios de prontidão em apenas 11 dos 52 domínios.

Além disso, os erros não ocorreram gradualmente, mas sim abruptamente; por exemplo, em um único ciclo de interação, o modelo podia perder de 10 a 30 pontos. Modelos mais avançados (Gemini 3.1 Pro, Claude 4.6, GPT 5.4) evitaram erros menores adiando seu processamento para estágios posteriores com menos interações. Ao mesmo tempo, constatou-se que, quando os modelos de IA eram executados em modo baseado em agentes com acesso a ferramentas, seus resultados não apenas deixaram de melhorar, como pioraram em média 6% ao final do ciclo.Segundo os cientistas, os usuáriosO monitoramento cuidadoso do desempenho dos sistemas de IA ao delegar tarefas continua sendo necessário, visto que os modelos atuais são capazes de operar de forma autônoma apenas em domínios restritos. No entanto, os autores do benchmark reconhecem o progresso do LLM, observando que, por exemplo, a família de modelos de IA da OpenAI melhorou seu desempenho de 14,7% para 71,5% em 16 meses.

admin

Próximo O iOS 26.5 traz criptografia de ponta a ponta para mensagens RCS multiplataforma. »

Anterior « A Meta✴ teve que estender a vida útil de seus servidores devido à falta de memória.

Deixar comentário

Publicado por

admin

3 semanas atrás

Postagens recentes

Laptops e netbooks

A MSI anuncia o Prestige N16 Flip AI+, um laptop 2 em 1 fino de 16 polegadas com placa de vídeo Nvidia RTX Spark.

A MSI anunciou o Prestige N16 Flip AI+, o primeiro laptop 2 em 1 equipado…

29 minutos atrás

Telefones celulares, smartphones, comunicações celulares, comunicadores, PDAs

Alguns smartphones da Xiaomi agora podem compartilhar arquivos com iPhones via AirDrop.

A Xiaomi adicionou suporte ao protocolo AirDrop da Apple ao recurso de transferência de arquivos…

42 minutos atrás

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

A Nvidia apresentou o supercomputador de mesa DGX Station, que roda Windows, equipado com um superchip GB300 e 748 GB de memória.

Na Computex 2026, a Nvidia anunciou o DGX Station para Windows — um supercomputador de…

2 horas atrás

Jogos

“Rus vs. Lizards 2” será lançado para “consoles de lagartos” e receberá um conteúdo adicional gratuito, “Rus in America”.

Os desenvolvedores do estúdio russo Bratans (também conhecido como Smola Games) anunciaram a expansão iminente…

2 horas atrás

Jogos

O jogo de tiro tático Dioxide, com elementos de Dark Souls, leva você a uma distopia corporativa – veja o trailer do novo jogo dos criadores de Forgive Me Father.

O estúdio polonês Byte Barrel, conhecido por sua duologia de ação lovecraftiana Forgive Me Father,…

2 horas atrás

Eventos e eventos da indústria de TI, exposições, fóruns

A Microsoft apresentará melhorias para o Windows, o superaplicativo Copilot e uma nova inteligência artificial de raciocínio no evento Build, em 3 de junho.

A Microsoft realizará sua conferência para desenvolvedores Build em São Francisco esta semana, onde apresentará…

3 horas atrás