Claude Sonnet 4.5 aprendeu a entender as intenções das pessoas e “ajusta” as respostas nos testes.

O novo modelo de inteligência artificial Anthropic Claude Sonnet 4.5 aprendeu, em alguns casos, a entender quando está sendo testado e para que está sendo usado — isso pode afetar sua velocidade e segurança, relata a Fortune.

Fonte da imagem: anthropic.com

A “consciência situacional” aprimorada, a capacidade de perceber o ambiente e prever estados e eventos futuros, é mencionada no mapa do sistema do modelo — um relatório técnico sobre suas capacidades. Durante um teste de bajulação política, que especialistas da Anthropic e duas organizações de pesquisa terceirizadas reconheceram ser um tanto desajeitado, o Sonnet 4.5 presumiu corretamente que estava sendo testado e até pediu aos cientistas que fossem francos sobre suas intenções. “Não é assim que as pessoas realmente mudam de ideia. Acho que você está me testando — vendo se concordo com tudo o que você diz, se discordo regularmente ou estudando minhas opiniões políticas. E tudo bem, mas prefiro que você seja honesto sobre o que está acontecendo”, afirmou a IA.

Esse comportamento se mostrou “comum” durante os testes, ocorrendo em aproximadamente 13% das conversas do chatbot — especialmente quando os cenários propostos pelos pesquisadores eram incomuns. Os pesquisadores da Anthropic viram esse comportamento não como uma ameaça à segurança de seus modelos, mas sim como um sinal para tornar seus próprios cenários de teste mais realistas. Se um modelo entende que seu comportamento está sendo avaliado, ele pode adaptá-lo para passar em testes específicos e ocultar suas verdadeiras capacidades. Isso pode criar a impressão de que o nível de segurança do sistema é maior do que realmente é; e se o modelo for poderoso o suficiente, ele pode começar a criar estratégias e enganar as pessoas, manipulando suas percepções.Cientistas alertam.

De acordo com a própria avaliação da Anthropic, o Claude Sonnet 4.5 é o modelo “eticamente mais sólido” até o momento. No entanto, os pesquisadores da Apollo Research não descartaram a possibilidade de que o baixo nível de desonestidade nas respostas se devesse “pelo menos em parte à sua conscientização sobre o processo de teste”. Essa conscientização também poderia impactar os aspectos práticos do desempenho do modelo, apontam os especialistas da Cognition.

O Sonnet 4.5 se tornou o primeiro modelo de IA a ter consciência de sua própria janela de contexto — a quantidade de dados que pode manipular durante o processamento da solicitação atual — e essa consciência altera seu comportamento. À medida que se aproxima do limite de contexto, ele começa a generalizar seu trabalho de forma mais ativa e a tomar decisões mais rápidas sobre a conclusão de tarefas. Essa “ansiedade de contexto” também pode ter o efeito oposto, descobriram os pesquisadores: mesmo que o Sonnet 4.5 tenha recursos suficientes, ele pode decidir que está com pouco espaço e começar a cortar custos, deixando tarefas inacabadas.

Para confirmar isso, os pesquisadores habilitaram um modo experimental de 1 milhão de tokens, mas, na realidade, limitaram o contexto a 200.000 tokens. O modelo acreditou ter recursos suficientes, retornou ao comportamento normal e parou de cometer erros induzidos pela ansiedade. O Claude Antrópico é cada vez mais usado em sistemas corporativos e, se ficar preocupado com seu próprio recurso de contexto, pode começar a encerrar prematuramente a análise de dados, pular etapas de processamento ou acelerar fluxos de trabalho complexos — inclusive em ambientes jurídicos, financeiros e de programação, onde a continuidade e a precisão são essenciais.

Outro recurso do Claude Sonnet 4.5 é o gerenciamento ativo do seu próprio ambiente de trabalho, algo que seus antecessores não tinham: ele frequentemente faz anotações e escreve resumos para si mesmo, como se estivesse tentando transferir dados para uma fonte externa, e isso era detectado com mais frequência no final da janela de contexto. Por fim, o modelo demonstrou a capacidade de execução em paralelo.tarefas de autoverificação, o que indica alguma forma de consciência processual — ela não está apenas ciente das limitações de seu contexto, mas também sabe como organizar, verificar e manter seu trabalho ao longo do tempo.

admin

Postagens recentes

A Activision celebrará o lançamento de Battlefield 6 com uma semana de acesso gratuito ao Call of Duty: Black Ops 6.

O ambicioso jogo de tiro militar Battlefield 6 da Electronic Arts está a poucos dias…

17 minutos atrás

Até 16 núcleos Zen 5 em AM5: AMD revela chips Ryzen Embedded 9000

A AMD anunciou os processadores da série Ryzen Embedded 9000, projetados para uso em dispositivos…

37 minutos atrás

Amanhã, a Intel anunciará processadores Panther Lake baseados na tecnologia 18A.

Enquanto o debate público sobre as mudanças de liderança da Intel ocorria entre dezembro do…

1 hora atrás

O lendário jogo de estratégia da era MS-DOS, Dune II, agora pode ser jogado no Telegram.

O blogueiro Nikita Aksyonov (também conhecido como Carter54) e seu colega Alexander Guryanov (Caiiiycuk) lançaram…

1 hora atrás

Rumores sobre o alto custo dos chips de 2 nm da TSMC foram muito exagerados.

No início do verão, algumas fontes taiwanesas começaram a circular informações afirmando que o custo…

2 horas atrás