O chatbot Claude AI interromperá “conversas prejudiciais ou ofensivas com usuários”

A Anthropic treinou seu chatbot de IA Claude para encerrar conversas que considere “prejudiciais ou ofensivas”. O recurso já está disponível no Opus 4 e 4.1. Ele permitirá que o chatbot encerre conversas como último recurso após um usuário tentar repetidamente gerar conteúdo prejudicial ou ofensivo. A Anthropic quer atingir o “bem-estar potencial” de seus modelos de IA encerrando conversas nas quais Claude sente “desconforto evidente”.

Fonte da imagem: Anthropic See More

Após Claude encerrar a conversa, o usuário não poderá enviar novas mensagens naquele chat, mas novas conversas ainda serão possíveis. A Anthropic observou que conversas que desencadeiam tal reação são “casos extremos”, acrescentando que a maioria dos usuários não encontrará esse obstáculo, mesmo ao discutir tópicos controversos.

Durante os testes do Claude Opus 4, observou-se que o chatbot tinha uma “forte e consistente aversão a causar danos”, incluindo a criação de conteúdo sexual envolvendo menores, atos violentos e terrorismo. Nesses casos, a Anthropic constatou que Claude demonstrava “ansiedade acentuada” e uma “tendência a encerrar conversas prejudiciais quando tinha oportunidade”.

Claude recebeu instruções explícitas para não encerrar conversas caso o usuário demonstre sinais de querer causar “dano iminente” a si mesmo ou a outras pessoas. Nesses casos, a Anthropic utiliza o serviço de apoio online para crises Throughline para ajudar a desenvolver respostas a perguntas sobre automutilação e saúde mental.

Na semana passada, a Anthropic atualizou sua política de uso de chatbots, visto que a rápida evolução dos modelos de IA gera crescentes preocupações com a segurança. A empresa agora proíbe o uso do Claude para desenvolver armas biológicas, nucleares, químicas ou radiológicas, ou para desenvolver códigos maliciosos ou explorar vulnerabilidades de rede.

admin

Postagens recentes

A Karman Industries apresenta um sistema de refrigeração à base de dióxido de carbono para data centers de IA.

A Karman Industries apresentou uma unidade de processamento térmico (HPU, na sigla em inglês) capaz…

16 minutos atrás

O alfa fechado de Warhammer 40.000: Dark Heresy foi um “sucesso estrondoso” — revelaram as estatísticas de jogadores da Owlcat Games.

Mais de um mês se passou desde o teste alfa fechado do ambicioso RPG de…

16 minutos atrás

A Meta está pronta para distribuir US$ 2 milhões em subsídios para apoiar empresas e startups que utilizam seus óculos inteligentes.

O surgimento de uma nova categoria de dispositivos no mercado nem sempre é acompanhado por…

26 minutos atrás

As ações da Intel atingem o maior valor em quatro anos, mesmo antes da divulgação do relatório trimestral.

A Intel Corporation divulgará seus relatórios trimestrais e anuais ainda esta semana, mas fatores geopolíticos…

1 hora atrás

O CEO da OpenAI está buscando um investimento de US$ 50 bilhões de investidores do Oriente Médio.

De uma perspectiva clássica de análise financeira, os indicadores de desempenho da OpenAI atualmente parecem…

2 horas atrás

A Anthropic revelou uma versão modificada da “constituição” de seu chatbot Claude.

A Anthropic tem se empenhado em comunicar sua missão e seus recursos exclusivos, como o…

2 horas atrás