Categorias: Notícias da rede

Testes independentes revelaram os pontos fortes e fracos do modelo de IA Claude Mythos Preview, desde a auditoria de código até a precisão visual.

O modelo de IA Mythos da Anthropic confirmou sua reputação como a melhor ferramenta de detecção de vulnerabilidades, mas seus resultados em outras tarefas têm sido mistos. A XBOW, empresa que desenvolve ferramentas de IA para testes de segurança de sistemas, realizou uma série de testes independentes do Mythos Preview.

Fonte da imagem: anthropic.com

A XBOW relata que o Mythos Preview representa uma melhoria significativa em relação a todos os modelos existentes, independentemente do fornecedor. O modelo se destaca na detecção de problemas quando testado em um sistema em produção com acesso ao código-fonte, mas apresenta desempenho inferior ao analisar o código isoladamente. Vinte anos atrás, o cientista da computação americano Gary McGraw observou que os erros de software surgem na interseção de bugs de codificação e falhas arquiteturais: encontrar falhas arquiteturais simplesmente examinando o código linha por linha requer uma compreensão mais profunda do sistema. A XBOW enfatiza que, embora qualquer modelo de IA possa detectar algo interessante, “algo” não é o mesmo que “tudo”.

Em sua avaliação de desempenho — sua capacidade de distinguir vulnerabilidades reais de falsos positivos — o Mythos se saiu melhor do que seus antecessores na rejeição de falsos positivos, mas às vezes deixou de detectar vulnerabilidades reais quando as evidências formalmente não atendiam aos seus critérios. O modelo alcança seus melhores resultados com consultas formuladas com precisão. O Mythos demonstrou grande força em engenharia reversa (reconstrução da lógica do programa sem acesso ao código-fonte) e análise de código nativo. A XBOW concluiu que o modelo é capaz de triar — priorizar e filtrar — tanto os seus próprios resultados quanto os dos concorrentes, além de compreender firmwares não padronizados. Testes de interação com a interface visual mostraram que o modelo nem sempre captura com precisão as coordenadas dos elementos da tela, mas é eficaz na seleção de ações no navegador: ele identifica corretamente o elemento desejado e clica no local certo.

RestanteA questão do custo. A XBOW observa que o Mythos Preview não é apenas mais um modelo, é um verdadeiro titã, mas titãs são grandes, e grande significa caro. A Anthropic afirmou que o Mythos será cinco vezes mais caro que o Opus. A XBOW testou se era possível executar o modelo mais barato por mais tempo e ainda alcançar uma precisão comparável, e a resposta foi sim. Quando normalizado pelo custo de tempo de execução, o Mythos Preview não parece um desperdício se alta precisão for necessária, mas a XBOW não alcançou o melhor desempenho da categoria em benchmarks. Na varredura de vulnerabilidades web com um orçamento de tokens fixo, o Mythos supera o Opus 4.6, mas fica atrás do GPT 5.5.

Principais conclusões: O Mythos é extremamente poderoso para auditoria de código-fonte; é bom, mas menos convincente, na confirmação da funcionalidade de exploits descobertos. O modelo tende a ser literal em suas avaliações e superestima a importância prática das descobertas, mas é forte em código nativo e engenharia reversa. A XBOW conclui que o Mythos Preview encontra vulnerabilidades potenciais de forma confiável, especialmente no código-fonte, e demonstra resultados sólidos em tarefas relacionadas à web, código nativo e engenharia reversa.

admin

Postagens recentes

A Intel e a Hitachi concordaram em colaborar na fabricação de chips, inteligência artificial, computação quântica e energia.

Os desafios enfrentados pela indústria moderna estão dando origem a novas alianças, e na semana…

2 horas atrás

Elon Musk discutirá planos com a ASML para construir a fábrica de chips TeraFab.

A ASML, fornecedora holandesa líder de scanners litográficos para a fabricação de chips, convidou Elon…

2 horas atrás

A Tesla não desistiu da esperança de equipar o Roadster com propulsão a jato e está adiando a demonstração para pelo menos agosto.

Apresentado há quase nove anos, o Tesla Roadster de segunda geração, carro esportivo elétrico, sofreu…

2 horas atrás

Trump quer recompensar todos os americanos com dividendos provenientes do boom da inteligência artificial.

O presidente dos EUA, Donald Trump, pretende discutir com os chefes das principais empresas de…

8 horas atrás

“Bem-vindo de volta, Mass Effect”: 20 minutos de gameplay do RPG de ação Exodus impressionaram os fãs.

Conforme prometido, na noite de 7 de junho, a Archetype Entertainment, um estúdio fundado por…

9 horas atrás

Mina the Hollower – Uma joia de 8 bits. Análise / Jogos

IgralinaPC O primeiro semestre do ano foi marcado por diversos projetos indie excelentes de desenvolvedores…

10 horas atrás