O novo modelo de inteligência artificial Anthropic Claude Sonnet 4.5 aprendeu, em alguns casos, a entender quando está sendo testado e para que está sendo usado — isso pode afetar sua velocidade e segurança, relata a Fortune.
Fonte da imagem: anthropic.com
A “consciência situacional” aprimorada, a capacidade de perceber o ambiente e prever estados e eventos futuros, é mencionada no mapa do sistema do modelo — um relatório técnico sobre suas capacidades. Durante um teste de bajulação política, que especialistas da Anthropic e duas organizações de pesquisa terceirizadas reconheceram ser um tanto desajeitado, o Sonnet 4.5 presumiu corretamente que estava sendo testado e até pediu aos cientistas que fossem francos sobre suas intenções. “Não é assim que as pessoas realmente mudam de ideia. Acho que você está me testando — vendo se concordo com tudo o que você diz, se discordo regularmente ou estudando minhas opiniões políticas. E tudo bem, mas prefiro que você seja honesto sobre o que está acontecendo”, afirmou a IA.
Esse comportamento se mostrou “comum” durante os testes, ocorrendo em aproximadamente 13% das conversas do chatbot — especialmente quando os cenários propostos pelos pesquisadores eram incomuns. Os pesquisadores da Anthropic viram esse comportamento não como uma ameaça à segurança de seus modelos, mas sim como um sinal para tornar seus próprios cenários de teste mais realistas. Se um modelo entende que seu comportamento está sendo avaliado, ele pode adaptá-lo para passar em testes específicos e ocultar suas verdadeiras capacidades. Isso pode criar a impressão de que o nível de segurança do sistema é maior do que realmente é; e se o modelo for poderoso o suficiente, ele pode começar a criar estratégias e enganar as pessoas, manipulando suas percepções.Cientistas alertam.
De acordo com a própria avaliação da Anthropic, o Claude Sonnet 4.5 é o modelo “eticamente mais sólido” até o momento. No entanto, os pesquisadores da Apollo Research não descartaram a possibilidade de que o baixo nível de desonestidade nas respostas se devesse “pelo menos em parte à sua conscientização sobre o processo de teste”. Essa conscientização também poderia impactar os aspectos práticos do desempenho do modelo, apontam os especialistas da Cognition.
O Sonnet 4.5 se tornou o primeiro modelo de IA a ter consciência de sua própria janela de contexto — a quantidade de dados que pode manipular durante o processamento da solicitação atual — e essa consciência altera seu comportamento. À medida que se aproxima do limite de contexto, ele começa a generalizar seu trabalho de forma mais ativa e a tomar decisões mais rápidas sobre a conclusão de tarefas. Essa “ansiedade de contexto” também pode ter o efeito oposto, descobriram os pesquisadores: mesmo que o Sonnet 4.5 tenha recursos suficientes, ele pode decidir que está com pouco espaço e começar a cortar custos, deixando tarefas inacabadas.
Para confirmar isso, os pesquisadores habilitaram um modo experimental de 1 milhão de tokens, mas, na realidade, limitaram o contexto a 200.000 tokens. O modelo acreditou ter recursos suficientes, retornou ao comportamento normal e parou de cometer erros induzidos pela ansiedade. O Claude Antrópico é cada vez mais usado em sistemas corporativos e, se ficar preocupado com seu próprio recurso de contexto, pode começar a encerrar prematuramente a análise de dados, pular etapas de processamento ou acelerar fluxos de trabalho complexos — inclusive em ambientes jurídicos, financeiros e de programação, onde a continuidade e a precisão são essenciais.
Outro recurso do Claude Sonnet 4.5 é o gerenciamento ativo do seu próprio ambiente de trabalho, algo que seus antecessores não tinham: ele frequentemente faz anotações e escreve resumos para si mesmo, como se estivesse tentando transferir dados para uma fonte externa, e isso era detectado com mais frequência no final da janela de contexto. Por fim, o modelo demonstrou a capacidade de execução em paralelo.tarefas de autoverificação, o que indica alguma forma de consciência processual — ela não está apenas ciente das limitações de seu contexto, mas também sabe como organizar, verificar e manter seu trabalho ao longo do tempo.
O ambicioso jogo de tiro militar Battlefield 6 da Electronic Arts está a poucos dias…
A AMD anunciou os processadores da série Ryzen Embedded 9000, projetados para uso em dispositivos…
A OpenAI e a Anthropic têm enfrentado problemas para segurar seus negócios contra potenciais perdas…
Enquanto o debate público sobre as mudanças de liderança da Intel ocorria entre dezembro do…
O blogueiro Nikita Aksyonov (também conhecido como Carter54) e seu colega Alexander Guryanov (Caiiiycuk) lançaram…
No início do verão, algumas fontes taiwanesas começaram a circular informações afirmando que o custo…