Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

Menos alucinações e um milhão de contextos: a Anthropic lançou Sonnet 4.6, e agora está disponível gratuitamente em Claude.

A Anthropic atualizou seu modelo de linguagem de nível intermediário, o Sonnet. No anúncio do Sonnet 4.6, os desenvolvedores da Anthropic destacaram melhorias na geração de código, raciocínio de contexto extenso, execução de instruções e interação com o computador. Este novo modelo se tornará o modelo padrão para o chatbot Claude, tanto para usuários gratuitos quanto para aqueles com a assinatura Pro paga.

Fonte da imagem: Anthropic

O Sonnet 4.6 oferece uma janela de contexto com capacidade para 1 milhão de tokens, o dobro da versão anterior. A Anthropic descreveu a nova janela de contexto como “suficiente para armazenar bases de código inteiras, contratos longos ou dezenas de artigos científicos em uma única consulta”. A empresa enfatiza que o modelo não apenas retém grandes quantidades de informação, como também as gerencia de forma eficaz na construção de cadeias lógicas.

De acordo com a Anthropic, os desenvolvedores que testaram o Sonnet 4.6 em acesso antecipado o preferiram ao 4.5 em 70% dos casos. Os usuários notaram um gerenciamento mais preciso do contexto do código, menos duplicação de lógica e uma execução de instruções mais consistente. Os desenvolvedores também relataram uma redução no número de “alucinações” e falsas declarações de sucesso da tarefa.

É dada especial atenção ao trabalho com computadores sem APIs especializadas. O modelo interage com os programas da mesma forma que um humano, por meio de cliques virtuais do mouse e entrada de teclado. No benchmark OSWorld, que simula tarefas no Chrome, LibreOffice e VS Code, a versão mais recente do Sonnet 4.6 demonstra melhorias significativas em comparação com as versões anteriores. Segundo representantes da empresa, em diversos cenários — por exemplo, ao trabalhar com tabelas complexas ou formulários web de várias etapas — o modelo se aproxima do desempenho humano. No entanto, a Anthropic reconhece que a IA ainda fica atrás até mesmo dos usuários mais experientes e que o uso do software no mundo real é mais complexo do que os testes de laboratório.

A Anthropic observa que o Sonnet 4.6 oferece habilidades de programação significativamente aprimoradas em comparação com a versão anterior. Em benchmarks relevantes, a nova versão teve um desempenho melhor do que o Gemini 3 Pro e quase equivalente ao Opus 4.5. De acordo com os testadores beta, as melhorias são particularmente perceptíveis em tarefas de desenvolvimento front-end e análise financeira. Observa-se também que o Sonnet 4.6 foi capaz de proporcionar um nível de desempenho em diversas tarefas que anteriormente exigiam o uso de modelos da classe Opus, inclusive em tarefas reais de escritório.

A Anthropic também revelou seu desempenho no teste ARC-AGI-2, um dos benchmarks mais desafiadores que avaliam a capacidade de um modelo de realizar raciocínio abstrato e generalização (habilidades características da inteligência humana). O Sonnet 4.6 alcançou 60,4% com um alto nível de “esforço de raciocínio”. Esse resultado coloca o Sonnet 4.6 à frente da maioria dos modelos comparáveis, embora fique atrás de soluções como o Opus 4.6, o Gemini 3 Deep Think e uma versão aprimorada do GPT 5.2.

Por fim, vale ressaltar que o Sonnet 4.6 foi lançado apenas duas semanas após o Opus 4.6, o que significa que o modelo Haiku atualizado provavelmente aparecerá nas próximas semanas. O modelo já está disponível no bot e aplicativo Claude, bem como por meio de uma API para serviços de terceiros. O preço para este último permanece o mesmo do Sonnet 4.5 — a partir de US$ 3 por milhão de tokens de entrada e US$ 15 por milhão de tokens de saída.

admin

Próximo A Tecno apresentou os smartphones Camon 50 e 50 Pro com chipsets Helio G200, câmeras de 50 megapixels e baterias de 6150 mAh. »

Anterior « A Activision confirmou a data de encerramento do Call of Duty: Warzone Mobile – o jogo será desativado apenas dois anos após o seu lançamento.

Deixar comentário

Publicado por

admin

2 meses atrás

Postagens recentes

Telefones celulares, smartphones, comunicações celulares, comunicadores, PDAs

A versão atualizada do RedMagic 11 Pro apresentou uma taxa de quadros por segundo (FPS) decente em jogos AAA para PC.

O processador móvel Qualcomm Snapdragon 8 Elite Gen 5 demonstrou mais uma vez suas capacidades…

1 hora atrás

Inteligência artificial em áreas rurais: NetApp e NTT testam treinamento LLM geodistribuído

Segundo o Blocks & Files, o consórcio internacional IOWN (Innovative Optical and Wireless Network Global…

2 horas atrás

Sistemas operacionais

A Microsoft obrigará os PCs que executam versões mais antigas do sistema operacional a atualizarem para o Windows 11 25H2.

A Microsoft forçará a atualização de computadores com Windows 11 24H2 para a versão mais…

3 horas atrás

Arquivadores

A Nvidia demonstra a compressão de textura neural: o consumo de memória de vídeo cai quase 7 vezes.

Na GTC 2026, a Nvidia não apenas apresentou sua tecnologia de upscaling baseada em IA,…

4 horas atrás

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

A gestão da OpenAI passou por mais uma rodada de mudanças de pessoal, algumas das quais foram forçadas.

A OpenAI realizou diversas mudanças em seu quadro de funcionários, segundo reportagem da Bloomberg, que…

4 horas atrás

Periféricos de áudio / vídeo, fones de ouvido, webcams

Especialistas do iFixit desmontaram os fones de ouvido Apple AirPods Max 2, revelando que o layout interno permanece inalterado.

O fato de a Apple não ter alterado nada no design dos novos fones de…

4 horas atrás