O chatbot Claude AI interromperá “conversas prejudiciais ou ofensivas com usuários”

A Anthropic treinou seu chatbot de IA Claude para encerrar conversas que considere “prejudiciais ou ofensivas”. O recurso já está disponível no Opus 4 e 4.1. Ele permitirá que o chatbot encerre conversas como último recurso após um usuário tentar repetidamente gerar conteúdo prejudicial ou ofensivo. A Anthropic quer atingir o “bem-estar potencial” de seus modelos de IA encerrando conversas nas quais Claude sente “desconforto evidente”.

Fonte da imagem: Anthropic See More

Após Claude encerrar a conversa, o usuário não poderá enviar novas mensagens naquele chat, mas novas conversas ainda serão possíveis. A Anthropic observou que conversas que desencadeiam tal reação são “casos extremos”, acrescentando que a maioria dos usuários não encontrará esse obstáculo, mesmo ao discutir tópicos controversos.

Durante os testes do Claude Opus 4, observou-se que o chatbot tinha uma “forte e consistente aversão a causar danos”, incluindo a criação de conteúdo sexual envolvendo menores, atos violentos e terrorismo. Nesses casos, a Anthropic constatou que Claude demonstrava “ansiedade acentuada” e uma “tendência a encerrar conversas prejudiciais quando tinha oportunidade”.

Claude recebeu instruções explícitas para não encerrar conversas caso o usuário demonstre sinais de querer causar “dano iminente” a si mesmo ou a outras pessoas. Nesses casos, a Anthropic utiliza o serviço de apoio online para crises Throughline para ajudar a desenvolver respostas a perguntas sobre automutilação e saúde mental.

Na semana passada, a Anthropic atualizou sua política de uso de chatbots, visto que a rápida evolução dos modelos de IA gera crescentes preocupações com a segurança. A empresa agora proíbe o uso do Claude para desenvolver armas biológicas, nucleares, químicas ou radiológicas, ou para desenvolver códigos maliciosos ou explorar vulnerabilidades de rede.

admin

Postagens recentes

O WhatsApp agora oferece apelidos para ocultar números de telefone – as reservas já estão disponíveis.

O WhatsApp adicionou um recurso de nome de usuário para ocultar números de telefone. O…

2 horas atrás

Calendário de lançamentos: 29 de junho a 5 de julho: Undergrounded, Monopoly: Star Wars Heróis vs. Vilões

A virada de junho para julho trouxe poucos lançamentos importantes, mas muitas atualizações e relançamentos…

3 horas atrás

A GeForce RTX 3060 começou a retornar às lojas na Europa e nos EUA.

As placas de vídeo GeForce RTX 3060 começaram a retornar aos mercados ocidentais. Os modelos…

4 horas atrás

A Activision foi obrigada a anunciar que Call of Duty: Modern Warfare 4 não será lançado no Game Pass.

O aguardado Call of Duty: Modern Warfare 4, da Activision, será o primeiro jogo principal…

5 horas atrás