Uma das capacidades mais importantes para os modelos de IA modernos é a sua habilidade de gerenciar aplicações de agentes, e a Anthropic tornou isso uma prioridade máxima no desenvolvimento do novo Claude Sonnet 5.

Fonte da imagem: anthropic.com

“Ele consegue planejar, usar ferramentas como navegadores e terminais, e operar de forma autônoma em um nível que, há poucos meses, só era possível em modelos maiores e mais caros”, explicou a empresa. O conceito do Sonnet 5 se baseia no fato de que gerenciar agentes de IA é um novo requisito básico para modelos em qualquer segmento. O fator decisivo não é qual deles executa essa tarefa melhor, mas sim a maneira mais econômica e confiável com que o faz, sem intervenção humana.

O Sonnet 5, modelo intermediário da Claude, promete desempenho similar ao do Opus 4.8, mas a um preço significativamente menor. O novo modelo é o padrão para todos os usuários da plataforma Claude, tanto gratuitos quanto assinantes, a partir de hoje. O Sonnet 5 custa US$ 2 por milhão de tokens de entrada e US$ 10 por milhão de tokens de saída para acesso à API até 31 de agosto; após essa data, os preços subirão para US$ 3 e US$ 15, respectivamente. O novo modelo representa melhorias significativas em relação ao Sonnet 4.6, lançado em fevereiro. Em um teste de programação, o Sonnet 5 obteve 63,2%, comparado aos 69,2% do Opus 4.8 e aos 58,1% do Sonnet 4.6. Em um teste de processamento de dados, o Sonnet 5 superou até mesmo o Opus 4.8, conhecido por sua capacidade de resolver problemas complexos, tomar decisões complexas e conduzir pesquisas aprofundadas.

“O Opus 4.8 continua sendo o modelo preferido para maior precisão nessas tarefas, mas o Sonnet 5 oferece aos desenvolvedores opções de menor custo e maior qualidade do que as disponíveis anteriormente. Com o Sonnet 5 e o Opus 4.8, os usuários podem escolher o nível de complexidade para encontrar o equilíbrio ideal entre custo e desempenho”, explicou o desenvolvedor. O Sonnet 5 também apresenta níveis reduzidos de “comportamento indesejado”, o que significa que é menos propenso a abusos e mais seguro em contextos de agentes, rejeitando solicitações maliciosas e evitando ataques de injeção de requisições. Comparado ao Sonnet 4.6, ele exibe menos alucinações e comportamento subserviente.

É claro que o modelo de IA de gama média do Sonnet 5 ainda fica aquém do Opus 4.8 e da versão prévia do Claude Mythos. “As avaliações também mostram que ele tem uma capacidade significativamente menor de executar tarefas perigosas de segurança cibernética do que nossos modelos Opus atuais”, alertou a Anthropic.

By admin

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *