Categorias: Notícias da rede

Testes independentes revelaram os pontos fortes e fracos do modelo de IA Claude Mythos Preview, desde a auditoria de código até a precisão visual.

O modelo de IA Mythos da Anthropic confirmou sua reputação como a melhor ferramenta de detecção de vulnerabilidades, mas seus resultados em outras tarefas têm sido mistos. A XBOW, empresa que desenvolve ferramentas de IA para testes de segurança de sistemas, realizou uma série de testes independentes do Mythos Preview.

Fonte da imagem: anthropic.com

A XBOW relata que o Mythos Preview representa uma melhoria significativa em relação a todos os modelos existentes, independentemente do fornecedor. O modelo se destaca na detecção de problemas quando testado em um sistema em produção com acesso ao código-fonte, mas apresenta desempenho inferior ao analisar o código isoladamente. Vinte anos atrás, o cientista da computação americano Gary McGraw observou que os erros de software surgem na interseção de bugs de codificação e falhas arquiteturais: encontrar falhas arquiteturais simplesmente examinando o código linha por linha requer uma compreensão mais profunda do sistema. A XBOW enfatiza que, embora qualquer modelo de IA possa detectar algo interessante, “algo” não é o mesmo que “tudo”.

Em sua avaliação de desempenho — sua capacidade de distinguir vulnerabilidades reais de falsos positivos — o Mythos se saiu melhor do que seus antecessores na rejeição de falsos positivos, mas às vezes deixou de detectar vulnerabilidades reais quando as evidências formalmente não atendiam aos seus critérios. O modelo alcança seus melhores resultados com consultas formuladas com precisão. O Mythos demonstrou grande força em engenharia reversa (reconstrução da lógica do programa sem acesso ao código-fonte) e análise de código nativo. A XBOW concluiu que o modelo é capaz de triar — priorizar e filtrar — tanto os seus próprios resultados quanto os dos concorrentes, além de compreender firmwares não padronizados. Testes de interação com a interface visual mostraram que o modelo nem sempre captura com precisão as coordenadas dos elementos da tela, mas é eficaz na seleção de ações no navegador: ele identifica corretamente o elemento desejado e clica no local certo.

RestanteA questão do custo. A XBOW observa que o Mythos Preview não é apenas mais um modelo, é um verdadeiro titã, mas titãs são grandes, e grande significa caro. A Anthropic afirmou que o Mythos será cinco vezes mais caro que o Opus. A XBOW testou se era possível executar o modelo mais barato por mais tempo e ainda alcançar uma precisão comparável, e a resposta foi sim. Quando normalizado pelo custo de tempo de execução, o Mythos Preview não parece um desperdício se alta precisão for necessária, mas a XBOW não alcançou o melhor desempenho da categoria em benchmarks. Na varredura de vulnerabilidades web com um orçamento de tokens fixo, o Mythos supera o Opus 4.6, mas fica atrás do GPT 5.5.

Principais conclusões: O Mythos é extremamente poderoso para auditoria de código-fonte; é bom, mas menos convincente, na confirmação da funcionalidade de exploits descobertos. O modelo tende a ser literal em suas avaliações e superestima a importância prática das descobertas, mas é forte em código nativo e engenharia reversa. A XBOW conclui que o Mythos Preview encontra vulnerabilidades potenciais de forma confiável, especialmente no código-fonte, e demonstra resultados sólidos em tarefas relacionadas à web, código nativo e engenharia reversa.

admin

Postagens recentes

Malta tornou-se o primeiro país cujos cidadãos receberão uma assinatura gratuita de um ano do ChatGPT Plus.

A OpenAI firmou um acordo com o governo maltês que fornecerá a todos os cidadãos…

1 hora atrás

Subnautica 2 – Bom no fundo do mar. Prévia / Jogos

Unknown Worlds Entertainment 14 de maio de 2026 (Acesso Antecipado) Jogado no PC O gênero…

8 horas atrás

A Samsung está preparando SSDs Nearline de petabytes — alta capacidade, mas não muito confiáveis.

A Scality, especialista em armazenamento definido por software (SDS), revelou detalhes de uma nova classe…

14 horas atrás

Os geoengenheiros da Stardust propuseram resfriar a Terra pulverizando uma “areia” refletora especial na estratosfera.

A Stardust Solutions, empresa especializada em tecnologias de geoengenharia, propôs uma solução que, segundo ela,…

14 horas atrás

Robôs humanoides da Figure AI aprenderam a separar encomendas 24 horas por dia.

A Figure AI relatou que, durante os testes, seus robôs humanoides operaram por mais de…

16 horas atrás

Os EUA suspeitam que a Arm pratique comportamento anticoncorrencial.

A Comissão Federal de Comércio dos EUA (FTC, na sigla em inglês) iniciou uma investigação…

16 horas atrás