Categorias: Notícias da rede

Testes independentes revelaram os pontos fortes e fracos do modelo de IA Claude Mythos Preview, desde a auditoria de código até a precisão visual.

O modelo de IA Mythos da Anthropic confirmou sua reputação como a melhor ferramenta de detecção de vulnerabilidades, mas seus resultados em outras tarefas têm sido mistos. A XBOW, empresa que desenvolve ferramentas de IA para testes de segurança de sistemas, realizou uma série de testes independentes do Mythos Preview.

Fonte da imagem: anthropic.com

A XBOW relata que o Mythos Preview representa uma melhoria significativa em relação a todos os modelos existentes, independentemente do fornecedor. O modelo se destaca na detecção de problemas quando testado em um sistema em produção com acesso ao código-fonte, mas apresenta desempenho inferior ao analisar o código isoladamente. Vinte anos atrás, o cientista da computação americano Gary McGraw observou que os erros de software surgem na interseção de bugs de codificação e falhas arquiteturais: encontrar falhas arquiteturais simplesmente examinando o código linha por linha requer uma compreensão mais profunda do sistema. A XBOW enfatiza que, embora qualquer modelo de IA possa detectar algo interessante, “algo” não é o mesmo que “tudo”.

Em sua avaliação de desempenho — sua capacidade de distinguir vulnerabilidades reais de falsos positivos — o Mythos se saiu melhor do que seus antecessores na rejeição de falsos positivos, mas às vezes deixou de detectar vulnerabilidades reais quando as evidências formalmente não atendiam aos seus critérios. O modelo alcança seus melhores resultados com consultas formuladas com precisão. O Mythos demonstrou grande força em engenharia reversa (reconstrução da lógica do programa sem acesso ao código-fonte) e análise de código nativo. A XBOW concluiu que o modelo é capaz de triar — priorizar e filtrar — tanto os seus próprios resultados quanto os dos concorrentes, além de compreender firmwares não padronizados. Testes de interação com a interface visual mostraram que o modelo nem sempre captura com precisão as coordenadas dos elementos da tela, mas é eficaz na seleção de ações no navegador: ele identifica corretamente o elemento desejado e clica no local certo.

RestanteA questão do custo. A XBOW observa que o Mythos Preview não é apenas mais um modelo, é um verdadeiro titã, mas titãs são grandes, e grande significa caro. A Anthropic afirmou que o Mythos será cinco vezes mais caro que o Opus. A XBOW testou se era possível executar o modelo mais barato por mais tempo e ainda alcançar uma precisão comparável, e a resposta foi sim. Quando normalizado pelo custo de tempo de execução, o Mythos Preview não parece um desperdício se alta precisão for necessária, mas a XBOW não alcançou o melhor desempenho da categoria em benchmarks. Na varredura de vulnerabilidades web com um orçamento de tokens fixo, o Mythos supera o Opus 4.6, mas fica atrás do GPT 5.5.

Principais conclusões: O Mythos é extremamente poderoso para auditoria de código-fonte; é bom, mas menos convincente, na confirmação da funcionalidade de exploits descobertos. O modelo tende a ser literal em suas avaliações e superestima a importância prática das descobertas, mas é forte em código nativo e engenharia reversa. A XBOW conclui que o Mythos Preview encontra vulnerabilidades potenciais de forma confiável, especialmente no código-fonte, e demonstra resultados sólidos em tarefas relacionadas à web, código nativo e engenharia reversa.

admin

Postagens recentes

A OpenAI lançou o Economic Research Exchange para estudar o impacto da IA ​​na economia.

A OpenAI anunciou o lançamento da plataforma Economic Research Exchange para apoiar pesquisas independentes sobre…

16 minutos atrás

A Apple removeu o suporte para iPadOS 27 e watchOS 27 de iPads e Apple Watches mais antigos.

Muitos modelos de iPad que foram atualizados para o iPadOS 26 no ano passado não…

4 horas atrás

O iOS 27 traz um equalizador personalizável para AirPods e transferência de dados de frequência cardíaca via GymKit.

A Apple anunciou o iOS 27 em sua conferência mundial para desenvolvedores, a WWDC 2026,…

4 horas atrás

Colapso da doutrina: O acidente com o foguete pesado New Glenn deixou a NASA completamente dependente da SpaceX/Offsyanka.

Explosão do foguete New Glenn: O que aconteceu no complexo de lançamento LC-36? O teste…

5 horas atrás

Colapso da doutrina: O acidente com o foguete pesado New Glenn deixou a NASA completamente dependente da SpaceX/Offsyanka.

Explosão do foguete New Glenn: O que aconteceu no complexo de lançamento LC-36? O teste…

5 horas atrás

A Apple apresentou o visionOS 27 com suporte para a inteligência artificial Siri e janelas curvas.

A Apple apresentou o visionOS 27, uma nova versão do sistema operacional para o headset…

5 horas atrás