Categorias: Notícias da rede

Testes independentes revelaram os pontos fortes e fracos do modelo de IA Claude Mythos Preview, desde a auditoria de código até a precisão visual.

O modelo de IA Mythos da Anthropic confirmou sua reputação como a melhor ferramenta de detecção de vulnerabilidades, mas seus resultados em outras tarefas têm sido mistos. A XBOW, empresa que desenvolve ferramentas de IA para testes de segurança de sistemas, realizou uma série de testes independentes do Mythos Preview.

Fonte da imagem: anthropic.com

A XBOW relata que o Mythos Preview representa uma melhoria significativa em relação a todos os modelos existentes, independentemente do fornecedor. O modelo se destaca na detecção de problemas quando testado em um sistema em produção com acesso ao código-fonte, mas apresenta desempenho inferior ao analisar o código isoladamente. Vinte anos atrás, o cientista da computação americano Gary McGraw observou que os erros de software surgem na interseção de bugs de codificação e falhas arquiteturais: encontrar falhas arquiteturais simplesmente examinando o código linha por linha requer uma compreensão mais profunda do sistema. A XBOW enfatiza que, embora qualquer modelo de IA possa detectar algo interessante, “algo” não é o mesmo que “tudo”.

Em sua avaliação de desempenho — sua capacidade de distinguir vulnerabilidades reais de falsos positivos — o Mythos se saiu melhor do que seus antecessores na rejeição de falsos positivos, mas às vezes deixou de detectar vulnerabilidades reais quando as evidências formalmente não atendiam aos seus critérios. O modelo alcança seus melhores resultados com consultas formuladas com precisão. O Mythos demonstrou grande força em engenharia reversa (reconstrução da lógica do programa sem acesso ao código-fonte) e análise de código nativo. A XBOW concluiu que o modelo é capaz de triar — priorizar e filtrar — tanto os seus próprios resultados quanto os dos concorrentes, além de compreender firmwares não padronizados. Testes de interação com a interface visual mostraram que o modelo nem sempre captura com precisão as coordenadas dos elementos da tela, mas é eficaz na seleção de ações no navegador: ele identifica corretamente o elemento desejado e clica no local certo.

RestanteA questão do custo. A XBOW observa que o Mythos Preview não é apenas mais um modelo, é um verdadeiro titã, mas titãs são grandes, e grande significa caro. A Anthropic afirmou que o Mythos será cinco vezes mais caro que o Opus. A XBOW testou se era possível executar o modelo mais barato por mais tempo e ainda alcançar uma precisão comparável, e a resposta foi sim. Quando normalizado pelo custo de tempo de execução, o Mythos Preview não parece um desperdício se alta precisão for necessária, mas a XBOW não alcançou o melhor desempenho da categoria em benchmarks. Na varredura de vulnerabilidades web com um orçamento de tokens fixo, o Mythos supera o Opus 4.6, mas fica atrás do GPT 5.5.

Principais conclusões: O Mythos é extremamente poderoso para auditoria de código-fonte; é bom, mas menos convincente, na confirmação da funcionalidade de exploits descobertos. O modelo tende a ser literal em suas avaliações e superestima a importância prática das descobertas, mas é forte em código nativo e engenharia reversa. A XBOW conclui que o Mythos Preview encontra vulnerabilidades potenciais de forma confiável, especialmente no código-fonte, e demonstra resultados sólidos em tarefas relacionadas à web, código nativo e engenharia reversa.

admin

Próximo Os fabricantes de smartphones enfrentaram um aumento acentuado nos preços da memória no segundo trimestre. »

Anterior « Malta tornou-se o primeiro país cujos cidadãos receberão uma assinatura gratuita de um ano do ChatGPT Plus.

Deixar comentário

Publicado por

admin

1 mês atrás

Postagens recentes

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

Uma startup chinesa está se preparando para comercializar um exterminador de mosquitos a laser com inteligência artificial.

A startup chinesa Photon Matrix Lab, que desenvolve um repelente de mosquitos a laser com…

4 horas atrás

Notícias da rede

Donald Trump ameaçou impor tarifas de 100% aos países que tributam os serviços digitais de empresas americanas.

Tendo-se cercado de representantes da indústria tecnológica americana durante seu segundo mandato, Donald Trump está…

8 horas atrás

Processadores

A Apple e a SpaceX terão a oportunidade de testar a tecnologia Intel 14A neste outono.

Pouco depois de assinar um acordo de cooperação com a Intel, Elon Musk, chefe da…

8 horas atrás

Vírus, cavalos de Troia, vulnerabilidades de software, problemas de segurança

As restrições de acesso ao modelo de IA de Anthropic Fable 5 serão suspensas na próxima semana.

Embora o Mythos 5, mais poderoso, tenha ficado indisponível para os usuários por 15 dias…

9 horas atrás

Mercado de TI

As ações de tecnologia caíram globalmente na sexta-feira, mas a Apple contrariou a tendência.

Diversos eventos ocorreram na última semana, impactando de maneiras variadas a direção das ações de…

10 horas atrás

Aplicativos Android

As Aventuras de Elliot: Contos do Milênio – Um Retorno à Moda Antiga. Análise / Jogos

Jogado no Xbox Series S Em 2018, foi lançado Octopath Traveler, o primeiro jogo feito…

16 horas atrás