Menos alucinações e um milhão de contextos: a Anthropic lançou Sonnet 4.6, e agora está disponível gratuitamente em Claude.

A Anthropic atualizou seu modelo de linguagem de nível intermediário, o Sonnet. No anúncio do Sonnet 4.6, os desenvolvedores da Anthropic destacaram melhorias na geração de código, raciocínio de contexto extenso, execução de instruções e interação com o computador. Este novo modelo se tornará o modelo padrão para o chatbot Claude, tanto para usuários gratuitos quanto para aqueles com a assinatura Pro paga.

Fonte da imagem: Anthropic

O Sonnet 4.6 oferece uma janela de contexto com capacidade para 1 milhão de tokens, o dobro da versão anterior. A Anthropic descreveu a nova janela de contexto como “suficiente para armazenar bases de código inteiras, contratos longos ou dezenas de artigos científicos em uma única consulta”. A empresa enfatiza que o modelo não apenas retém grandes quantidades de informação, como também as gerencia de forma eficaz na construção de cadeias lógicas.

De acordo com a Anthropic, os desenvolvedores que testaram o Sonnet 4.6 em acesso antecipado o preferiram ao 4.5 em 70% dos casos. Os usuários notaram um gerenciamento mais preciso do contexto do código, menos duplicação de lógica e uma execução de instruções mais consistente. Os desenvolvedores também relataram uma redução no número de “alucinações” e falsas declarações de sucesso da tarefa.

É dada especial atenção ao trabalho com computadores sem APIs especializadas. O modelo interage com os programas da mesma forma que um humano, por meio de cliques virtuais do mouse e entrada de teclado. No benchmark OSWorld, que simula tarefas no Chrome, LibreOffice e VS Code, a versão mais recente do Sonnet 4.6 demonstra melhorias significativas em comparação com as versões anteriores. Segundo representantes da empresa, em diversos cenários — por exemplo, ao trabalhar com tabelas complexas ou formulários web de várias etapas — o modelo se aproxima do desempenho humano. No entanto, a Anthropic reconhece que a IA ainda fica atrás até mesmo dos usuários mais experientes e que o uso do software no mundo real é mais complexo do que os testes de laboratório.

A Anthropic observa que o Sonnet 4.6 oferece habilidades de programação significativamente aprimoradas em comparação com a versão anterior. Em benchmarks relevantes, a nova versão teve um desempenho melhor do que o Gemini 3 Pro e quase equivalente ao Opus 4.5. De acordo com os testadores beta, as melhorias são particularmente perceptíveis em tarefas de desenvolvimento front-end e análise financeira. Observa-se também que o Sonnet 4.6 foi capaz de proporcionar um nível de desempenho em diversas tarefas que anteriormente exigiam o uso de modelos da classe Opus, inclusive em tarefas reais de escritório.

A Anthropic também revelou seu desempenho no teste ARC-AGI-2, um dos benchmarks mais desafiadores que avaliam a capacidade de um modelo de realizar raciocínio abstrato e generalização (habilidades características da inteligência humana). O Sonnet 4.6 alcançou 60,4% com um alto nível de “esforço de raciocínio”. Esse resultado coloca o Sonnet 4.6 à frente da maioria dos modelos comparáveis, embora fique atrás de soluções como o Opus 4.6, o Gemini 3 Deep Think e uma versão aprimorada do GPT 5.2.

Por fim, vale ressaltar que o Sonnet 4.6 foi lançado apenas duas semanas após o Opus 4.6, o que significa que o modelo Haiku atualizado provavelmente aparecerá nas próximas semanas. O modelo já está disponível no bot e aplicativo Claude, bem como por meio de uma API para serviços de terceiros. O preço para este último permanece o mesmo do Sonnet 4.5 — a partir de US$ 3 por milhão de tokens de entrada e US$ 15 por milhão de tokens de saída.

admin

Compartilhar
Publicado por
admin

Postagens recentes

O design do MacBook Neo permite a substituição separada do teclado, tornando os reparos mais fáceis e menos dispendiosos.

O teclado continua sendo um dos principais controles de um PC, portanto, está sujeito a…

45 minutos atrás

A IDC prevê uma queda de 11,3% no mercado de PCs em 2026 devido à escassez contínua de memória e às interrupções na cadeia de suprimentos.

A International Data Corporation (IDC) revisou significativamente para baixo sua previsão de remessas de PCs…

60 minutos atrás

As 10 maiores fabricantes de chips do mundo aumentaram sua receita para um recorde de US$ 169,5 bilhões no ano passado.

Um relatório da empresa de análise TrendForce mostra que a demanda por tecnologias de processo…

9 horas atrás