Menos alucinações e um milhão de contextos: a Anthropic lançou Sonnet 4.6, e agora está disponível gratuitamente em Claude.

A Anthropic atualizou seu modelo de linguagem de nível intermediário, o Sonnet. No anúncio do Sonnet 4.6, os desenvolvedores da Anthropic destacaram melhorias na geração de código, raciocínio de contexto extenso, execução de instruções e interação com o computador. Este novo modelo se tornará o modelo padrão para o chatbot Claude, tanto para usuários gratuitos quanto para aqueles com a assinatura Pro paga.

Fonte da imagem: Anthropic

O Sonnet 4.6 oferece uma janela de contexto com capacidade para 1 milhão de tokens, o dobro da versão anterior. A Anthropic descreveu a nova janela de contexto como “suficiente para armazenar bases de código inteiras, contratos longos ou dezenas de artigos científicos em uma única consulta”. A empresa enfatiza que o modelo não apenas retém grandes quantidades de informação, como também as gerencia de forma eficaz na construção de cadeias lógicas.

De acordo com a Anthropic, os desenvolvedores que testaram o Sonnet 4.6 em acesso antecipado o preferiram ao 4.5 em 70% dos casos. Os usuários notaram um gerenciamento mais preciso do contexto do código, menos duplicação de lógica e uma execução de instruções mais consistente. Os desenvolvedores também relataram uma redução no número de “alucinações” e falsas declarações de sucesso da tarefa.

É dada especial atenção ao trabalho com computadores sem APIs especializadas. O modelo interage com os programas da mesma forma que um humano, por meio de cliques virtuais do mouse e entrada de teclado. No benchmark OSWorld, que simula tarefas no Chrome, LibreOffice e VS Code, a versão mais recente do Sonnet 4.6 demonstra melhorias significativas em comparação com as versões anteriores. Segundo representantes da empresa, em diversos cenários — por exemplo, ao trabalhar com tabelas complexas ou formulários web de várias etapas — o modelo se aproxima do desempenho humano. No entanto, a Anthropic reconhece que a IA ainda fica atrás até mesmo dos usuários mais experientes e que o uso do software no mundo real é mais complexo do que os testes de laboratório.

A Anthropic observa que o Sonnet 4.6 oferece habilidades de programação significativamente aprimoradas em comparação com a versão anterior. Em benchmarks relevantes, a nova versão teve um desempenho melhor do que o Gemini 3 Pro e quase equivalente ao Opus 4.5. De acordo com os testadores beta, as melhorias são particularmente perceptíveis em tarefas de desenvolvimento front-end e análise financeira. Observa-se também que o Sonnet 4.6 foi capaz de proporcionar um nível de desempenho em diversas tarefas que anteriormente exigiam o uso de modelos da classe Opus, inclusive em tarefas reais de escritório.

A Anthropic também revelou seu desempenho no teste ARC-AGI-2, um dos benchmarks mais desafiadores que avaliam a capacidade de um modelo de realizar raciocínio abstrato e generalização (habilidades características da inteligência humana). O Sonnet 4.6 alcançou 60,4% com um alto nível de “esforço de raciocínio”. Esse resultado coloca o Sonnet 4.6 à frente da maioria dos modelos comparáveis, embora fique atrás de soluções como o Opus 4.6, o Gemini 3 Deep Think e uma versão aprimorada do GPT 5.2.

Por fim, vale ressaltar que o Sonnet 4.6 foi lançado apenas duas semanas após o Opus 4.6, o que significa que o modelo Haiku atualizado provavelmente aparecerá nas próximas semanas. O modelo já está disponível no bot e aplicativo Claude, bem como por meio de uma API para serviços de terceiros. O preço para este último permanece o mesmo do Sonnet 4.5 — a partir de US$ 3 por milhão de tokens de entrada e US$ 15 por milhão de tokens de saída.

admin

Compartilhar
Publicado por
admin

Postagens recentes

Estudo: Semicondutores de óxido de gálio operam em temperaturas inferiores às do espaço sideral.

Pesquisadores da KAUST descobriram que dispositivos eletrônicos baseados em óxido de gálio podem operar em…

49 minutos atrás

A OpenAI se desvinculou da Microsoft e agora poderá usar o Google e outros provedores de nuvem.

A OpenAI poderá aproveitar a infraestrutura não apenas da Microsoft, mas também de outros provedores…

1 hora atrás

A câmera analógica Leica M-A foi relançada em edição limitada com acabamento martelado.

A Leica M-A Hammertone Limited Edition está sendo lançada para comemorar o 20º aniversário da…

2 horas atrás

As ações da Qualcomm disparam com rumores sobre o desenvolvimento de um smartphone com inteligência artificial pela OpenAI.

As ações da Qualcomm subiram 13% nas negociações pré-mercado desta segunda-feira, após o analista Ming-Chi…

2 horas atrás

O setor de telecomunicações de Bangladesh enfrenta um colapso devido à escassez de combustível.

Os conflitos no Oriente Médio estão impactando negativamente todos os setores da economia global devido…

2 horas atrás