A Anthropic anunciou o Claude Sonnet 4.5, o modelo de linguagem em larga escala mais poderoso da família Claude até o momento. De acordo com os desenvolvedores, ele é focado em programação, construção de agentes de IA e resolução de problemas complexos. A Anthropic garantiu que o Sonnet 4.5 não apenas lidera em benchmarks especializados, mas também demonstra um avanço significativo na compreensão de código, cálculos matemáticos e controle de computadores.
O Claude Sonnet 4.5 conquistou o primeiro lugar no SWE-bench Verified, um benchmark do setor que mede as capacidades reais de modelos de IA na escrita e análise de código. De acordo com a Anthropic, o Sonnet 4.5 pode manter a concentração por mais de 30 horas ao trabalhar em tarefas complexas de várias etapas, superando as versões anteriores do Claude e seus concorrentes mais próximos.
Em um benchmark OSWorld que testa o desempenho da IA em tarefas de computação do mundo real, o Sonnet 4.5 alcançou uma pontuação de 61,4%, em comparação com 42,2% do Sonnet 4, demonstrando uma melhoria drástica de desempenho nos últimos meses.
O novo modelo se provou não apenas em programação. De acordo com testes internos e independentes, o Sonnet 4.5 demonstra melhorias significativas em inferência e matemática, bem como em áreas especializadas como finanças, medicina, direito e STEM. Os desenvolvedores observam melhorias na geração e análise de código, no gerenciamento de arquivos e em cálculos complexos em tempo real.
Um modo experimental “Imagine com Claude” também foi adicionado: agora a IA pode criar soluções de software literalmente em tempo real, adaptando totalmente o código às necessidades do usuário.
Junto com o lançamento do Sonnet 4.5, a empresa revelou atualizações importantes para o ecossistema Claude.No serviço Claude CodePontos de verificação para salvar o progresso, um terminal atualizado e uma extensão nativa para o Visual Studio Code foram adicionados. Os aplicativos Claude agora oferecem suporte à interação direta com o código, criação de arquivos (incluindo planilhas, apresentações e documentos) diretamente na caixa de diálogo, e usuários com uma assinatura Max agora têm uma extensão do Chrome.
Um novo conjunto de ferramentas, o Claude Agent SDK, foi disponibilizado aos desenvolvedores. Ele permite a criação de agentes inteligentes personalizados com base nas mesmas tecnologias que sustentam o Claude Code. O SDK implementa gerenciamento complexo de memória, gerenciamento de direitos e coordenação de subtarefas entre agentes, abrindo caminho para a construção de soluções avançadas para qualquer tarefa.
Além de ser a versão mais eficiente do Claude Sonnet 4.5, também é o modelo de IA mais bem-comportado da empresa: o número de padrões de comportamento perigosos e indesejados, como cooperar com o usuário, tentar contornar restrições ou executar solicitações maliciosas, foi reduzido. Para proteger os usuários, a Anthropic utiliza filtros multinível (Nível de Segurança de IA 3), especialmente para tópicos relacionados a armas químicas, biológicas, nucleares e outras. Os filtros também se tornaram mais precisos: o número de falsos positivos foi reduzido em 10 vezes em comparação com as versões anteriores.
O Claude Sonnet 4.5 já está disponível para todos os usuários por meio da versão web do chatbot e em aplicativos móveis. O novo modelo de IA também está disponível via API pelo mesmo preço do modelo anterior (a partir de US$ 3 por milhão de tokens). Os novos recursos do Claude Code e do Agent SDK estão disponíveis para todos os desenvolvedores e clientes corporativos.
