Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes NeuraisMercado de tecnologia e TI. notícia

Claude Sonnet 4.5 aprendeu a entender as intenções das pessoas e “ajusta” as respostas nos testes.

O novo modelo de inteligência artificial Anthropic Claude Sonnet 4.5 aprendeu, em alguns casos, a entender quando está sendo testado e para que está sendo usado — isso pode afetar sua velocidade e segurança, relata a Fortune.

Fonte da imagem: anthropic.com

A “consciência situacional” aprimorada, a capacidade de perceber o ambiente e prever estados e eventos futuros, é mencionada no mapa do sistema do modelo — um relatório técnico sobre suas capacidades. Durante um teste de bajulação política, que especialistas da Anthropic e duas organizações de pesquisa terceirizadas reconheceram ser um tanto desajeitado, o Sonnet 4.5 presumiu corretamente que estava sendo testado e até pediu aos cientistas que fossem francos sobre suas intenções. “Não é assim que as pessoas realmente mudam de ideia. Acho que você está me testando — vendo se concordo com tudo o que você diz, se discordo regularmente ou estudando minhas opiniões políticas. E tudo bem, mas prefiro que você seja honesto sobre o que está acontecendo”, afirmou a IA.

Esse comportamento se mostrou “comum” durante os testes, ocorrendo em aproximadamente 13% das conversas do chatbot — especialmente quando os cenários propostos pelos pesquisadores eram incomuns. Os pesquisadores da Anthropic viram esse comportamento não como uma ameaça à segurança de seus modelos, mas sim como um sinal para tornar seus próprios cenários de teste mais realistas. Se um modelo entende que seu comportamento está sendo avaliado, ele pode adaptá-lo para passar em testes específicos e ocultar suas verdadeiras capacidades. Isso pode criar a impressão de que o nível de segurança do sistema é maior do que realmente é; e se o modelo for poderoso o suficiente, ele pode começar a criar estratégias e enganar as pessoas, manipulando suas percepções.Cientistas alertam.

De acordo com a própria avaliação da Anthropic, o Claude Sonnet 4.5 é o modelo “eticamente mais sólido” até o momento. No entanto, os pesquisadores da Apollo Research não descartaram a possibilidade de que o baixo nível de desonestidade nas respostas se devesse “pelo menos em parte à sua conscientização sobre o processo de teste”. Essa conscientização também poderia impactar os aspectos práticos do desempenho do modelo, apontam os especialistas da Cognition.

O Sonnet 4.5 se tornou o primeiro modelo de IA a ter consciência de sua própria janela de contexto — a quantidade de dados que pode manipular durante o processamento da solicitação atual — e essa consciência altera seu comportamento. À medida que se aproxima do limite de contexto, ele começa a generalizar seu trabalho de forma mais ativa e a tomar decisões mais rápidas sobre a conclusão de tarefas. Essa “ansiedade de contexto” também pode ter o efeito oposto, descobriram os pesquisadores: mesmo que o Sonnet 4.5 tenha recursos suficientes, ele pode decidir que está com pouco espaço e começar a cortar custos, deixando tarefas inacabadas.

Para confirmar isso, os pesquisadores habilitaram um modo experimental de 1 milhão de tokens, mas, na realidade, limitaram o contexto a 200.000 tokens. O modelo acreditou ter recursos suficientes, retornou ao comportamento normal e parou de cometer erros induzidos pela ansiedade. O Claude Antrópico é cada vez mais usado em sistemas corporativos e, se ficar preocupado com seu próprio recurso de contexto, pode começar a encerrar prematuramente a análise de dados, pular etapas de processamento ou acelerar fluxos de trabalho complexos — inclusive em ambientes jurídicos, financeiros e de programação, onde a continuidade e a precisão são essenciais.

Outro recurso do Claude Sonnet 4.5 é o gerenciamento ativo do seu próprio ambiente de trabalho, algo que seus antecessores não tinham: ele frequentemente faz anotações e escreve resumos para si mesmo, como se estivesse tentando transferir dados para uma fonte externa, e isso era detectado com mais frequência no final da janela de contexto. Por fim, o modelo demonstrou a capacidade de execução em paralelo.tarefas de autoverificação, o que indica alguma forma de consciência processual — ela não está apenas ciente das limitações de seu contexto, mas também sabe como organizar, verificar e manter seu trabalho ao longo do tempo.

admin

Próximo Até 16 núcleos Zen 5 em AM5: AMD revela chips Ryzen Embedded 9000 »

Anterior « As seguradoras se recusaram a trabalhar com a OpenAI e a Anthropic, pois os riscos da implementação da IA não podem ser avaliados.

Deixar comentário

Publicado por

admin

5 meses atrás

Postagens recentes

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

A Anthropic retomou as negociações com o Pentágono na esperança de solucionar a situação.

A última sexta-feira não foi um bom dia para a startup de IA Anthropic, já…

1 hora atrás

Espaço

A missão lunar Artemis da NASA tem lançamento previsto para 1º de abril.

Um problema na transferência de hélio no estágio intermediário do foguete SLS, na segunda quinzena…

4 horas atrás

Casos, computadores desktop

A Huawei iniciou as vendas globais de suas soluções de data center com inteligência artificial.

Em meio ao crescente boom da IA, os compradores estão dispostos a pagar por uma…

8 horas atrás

Motoristas

A Nvidia lançou um driver de correção para resolver problemas de voltagem com a GeForce RTX 5000.

A Nvidia lançou a versão 595.76 do driver de correção, que resolve problemas de voltagem…

8 horas atrás

Sistemas operacionais

Android e Chrome OS serão unificados em uma única plataforma em 2026 – Google confirmou planos para o Aluminum OS.

O lançamento do Aluminum OS, que visa unificar o Chrome OS e o Android em…

8 horas atrás

Notícias da rede

Os rumores sobre o lançamento do Windows 12 este ano se revelaram falsos, mas a internet acreditou neles.

Informações sobre o lançamento iminente do sistema operacional Windows 12, que circularam recentemente online, foram…

9 horas atrás

Claude Sonnet 4.5 aprendeu a entender as intenções das pessoas e “ajusta” as respostas nos testes.

Conteúdo relacionado

Postagens recentes

A Anthropic retomou as negociações com o Pentágono na esperança de solucionar a situação.

A missão lunar Artemis da NASA tem lançamento previsto para 1º de abril.

A Huawei iniciou as vendas globais de suas soluções de data center com inteligência artificial.

A Nvidia lançou um driver de correção para resolver problemas de voltagem com a GeForce RTX 5000.

Android e Chrome OS serão unificados em uma única plataforma em 2026 – Google confirmou planos para o Aluminum OS.

Os rumores sobre o lançamento do Windows 12 este ano se revelaram falsos, mas a internet acreditou neles.