A Anthropic atualizou seu modelo de linguagem de nível intermediário, o Sonnet. No anúncio do Sonnet 4.6, os desenvolvedores da Anthropic destacaram melhorias na geração de código, raciocínio de contexto extenso, execução de instruções e interação com o computador. Este novo modelo se tornará o modelo padrão para o chatbot Claude, tanto para usuários gratuitos quanto para aqueles com a assinatura Pro paga.

Fonte da imagem: Anthropic

O Sonnet 4.6 oferece uma janela de contexto com capacidade para 1 milhão de tokens, o dobro da versão anterior. A Anthropic descreveu a nova janela de contexto como “suficiente para armazenar bases de código inteiras, contratos longos ou dezenas de artigos científicos em uma única consulta”. A empresa enfatiza que o modelo não apenas retém grandes quantidades de informação, como também as gerencia de forma eficaz na construção de cadeias lógicas.

De acordo com a Anthropic, os desenvolvedores que testaram o Sonnet 4.6 em acesso antecipado o preferiram ao 4.5 em 70% dos casos. Os usuários notaram um gerenciamento mais preciso do contexto do código, menos duplicação de lógica e uma execução de instruções mais consistente. Os desenvolvedores também relataram uma redução no número de “alucinações” e falsas declarações de sucesso da tarefa.

É dada especial atenção ao trabalho com computadores sem APIs especializadas. O modelo interage com os programas da mesma forma que um humano, por meio de cliques virtuais do mouse e entrada de teclado. No benchmark OSWorld, que simula tarefas no Chrome, LibreOffice e VS Code, a versão mais recente do Sonnet 4.6 demonstra melhorias significativas em comparação com as versões anteriores. Segundo representantes da empresa, em diversos cenários — por exemplo, ao trabalhar com tabelas complexas ou formulários web de várias etapas — o modelo se aproxima do desempenho humano. No entanto, a Anthropic reconhece que a IA ainda fica atrás até mesmo dos usuários mais experientes e que o uso do software no mundo real é mais complexo do que os testes de laboratório.

A Anthropic observa que o Sonnet 4.6 oferece habilidades de programação significativamente aprimoradas em comparação com a versão anterior. Em benchmarks relevantes, a nova versão teve um desempenho melhor do que o Gemini 3 Pro e quase equivalente ao Opus 4.5. De acordo com os testadores beta, as melhorias são particularmente perceptíveis em tarefas de desenvolvimento front-end e análise financeira. Observa-se também que o Sonnet 4.6 foi capaz de proporcionar um nível de desempenho em diversas tarefas que anteriormente exigiam o uso de modelos da classe Opus, inclusive em tarefas reais de escritório.

A Anthropic também revelou seu desempenho no teste ARC-AGI-2, um dos benchmarks mais desafiadores que avaliam a capacidade de um modelo de realizar raciocínio abstrato e generalização (habilidades características da inteligência humana). O Sonnet 4.6 alcançou 60,4% com um alto nível de “esforço de raciocínio”. Esse resultado coloca o Sonnet 4.6 à frente da maioria dos modelos comparáveis, embora fique atrás de soluções como o Opus 4.6, o Gemini 3 Deep Think e uma versão aprimorada do GPT 5.2.

Por fim, vale ressaltar que o Sonnet 4.6 foi lançado apenas duas semanas após o Opus 4.6, o que significa que o modelo Haiku atualizado provavelmente aparecerá nas próximas semanas. O modelo já está disponível no bot e aplicativo Claude, bem como por meio de uma API para serviços de terceiros. O preço para este último permanece o mesmo do Sonnet 4.5 — a partir de US$ 3 por milhão de tokens de entrada e US$ 15 por milhão de tokens de saída.

By admin

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *