Testes independentes revelaram os pontos fortes e fracos do modelo de IA Claude Mythos Preview, desde a auditoria de código até a precisão visual.

O modelo de IA Mythos da Anthropic confirmou sua reputação como a melhor ferramenta de detecção de vulnerabilidades, mas seus resultados em outras tarefas têm sido mistos. A XBOW, empresa que desenvolve ferramentas de IA para testes de segurança de sistemas, realizou uma série de testes independentes do Mythos Preview.

Fonte da imagem: anthropic.com

A XBOW relata que o Mythos Preview representa uma melhoria significativa em relação a todos os modelos existentes, independentemente do fornecedor. O modelo se destaca na detecção de problemas quando testado em um sistema em produção com acesso ao código-fonte, mas apresenta desempenho inferior ao analisar o código isoladamente. Vinte anos atrás, o cientista da computação americano Gary McGraw observou que os erros de software surgem na interseção de bugs de codificação e falhas arquiteturais: encontrar falhas arquiteturais simplesmente examinando o código linha por linha requer uma compreensão mais profunda do sistema. A XBOW enfatiza que, embora qualquer modelo de IA possa detectar algo interessante, “algo” não é o mesmo que “tudo”.

Em sua avaliação de desempenho — sua capacidade de distinguir vulnerabilidades reais de falsos positivos — o Mythos se saiu melhor do que seus antecessores na rejeição de falsos positivos, mas às vezes deixou de detectar vulnerabilidades reais quando as evidências formalmente não atendiam aos seus critérios. O modelo alcança seus melhores resultados com consultas formuladas com precisão. O Mythos demonstrou grande força em engenharia reversa (reconstrução da lógica do programa sem acesso ao código-fonte) e análise de código nativo. A XBOW concluiu que o modelo é capaz de triar — priorizar e filtrar — tanto os seus próprios resultados quanto os dos concorrentes, além de compreender firmwares não padronizados. Testes de interação com a interface visual mostraram que o modelo nem sempre captura com precisão as coordenadas dos elementos da tela, mas é eficaz na seleção de ações no navegador: ele identifica corretamente o elemento desejado e clica no local certo.

RestanteA questão do custo. A XBOW observa que o Mythos Preview não é apenas mais um modelo, é um verdadeiro titã, mas titãs são grandes, e grande significa caro. A Anthropic afirmou que o Mythos será cinco vezes mais caro que o Opus. A XBOW testou se era possível executar o modelo mais barato por mais tempo e ainda alcançar uma precisão comparável, e a resposta foi sim. Quando normalizado pelo custo de tempo de execução, o Mythos Preview não parece um desperdício se alta precisão for necessária, mas a XBOW não alcançou o melhor desempenho da categoria em benchmarks. Na varredura de vulnerabilidades web com um orçamento de tokens fixo, o Mythos supera o Opus 4.6, mas fica atrás do GPT 5.5.

Principais conclusões: O Mythos é extremamente poderoso para auditoria de código-fonte; é bom, mas menos convincente, na confirmação da funcionalidade de exploits descobertos. O modelo tende a ser literal em suas avaliações e superestima a importância prática das descobertas, mas é forte em código nativo e engenharia reversa. A XBOW conclui que o Mythos Preview encontra vulnerabilidades potenciais de forma confiável, especialmente no código-fonte, e demonstra resultados sólidos em tarefas relacionadas à web, código nativo e engenharia reversa.

Testes independentes revelaram os pontos fortes e fracos do modelo de IA Claude Mythos Preview, desde a auditoria de código até a precisão visual.

Byadmin

By admin

Veja Mais

Malta tornou-se o primeiro país cujos cidadãos receberão uma assinatura gratuita de um ano do ChatGPT Plus.

Os vídeos curtos do YouTube ganharam popularidade nas smart TVs, com 2 bilhões de horas de visualização por mês.

O Google explicou por que reduziu em um terço o armazenamento gratuito na nuvem para novos usuários do Gmail.

Deixe um comentário Cancelar resposta