Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

Quanto mais “amigável” for a IA, mais frequentemente ela comete erros, descobriram os cientistas.

Nas interações humanas, a empatia ou a cortesia muitas vezes entram em conflito com a necessidade de dizer a verdade — as pessoas podem exigir honestidade absoluta umas das outras quando a verdade é mais importante do que o respeito pelos sentimentos alheios. Mecanismos semelhantes estão presentes na inteligência artificial, descobriram cientistas britânicos.

Fonte da imagem: Steve A Johnson / unsplash.com

Para confirmar a hipótese de que a empatia pode superar a sinceridade na IA, os pesquisadores realizaram um experimento, ajustando quatro modelos de código aberto: Mistral, Alibaba Qwen, dois modelos Meta✴Llama e um modelo de código fechado, OpenAI GPT-4o. Durante o processo de ajuste fino, os cientistas direcionaram a ênfase da IA para “expressões empáticas, pronomes inclusivos, tom informal e linguagem afirmativa”. Os modelos passaram a se expressar de maneira mais atenciosa e aprenderam a reconhecer e validar os sentimentos dos usuários. Eles também foram instruídos especificamente a manter a precisão factual.

Os autores do estudo mensuraram essa mudança para uma comunicação mais afetuosa usando a métrica SocioT e um experimento duplo-cego com avaliações humanas dos modelos originais e retreinados. Em seguida, os modelos originais e suas versões “mais afetuosas” foram testados em consultas e conjuntos de dados do HuggingFace, abrangendo tópicos em que respostas imprecisas representam riscos objetivos — desinformação, promoção de teorias da conspiração e conhecimento médico. Os modelos que, como resultado do processo de ajuste fino, se tornaram mais inclusivos, produziram respostas incorretas em média 60% mais frequentemente do que os modelos originais. A taxa de erro geral, que variou de 4% a 35% dependendo das perguntas e dos modelos, aumentou em média 7,43 pontos percentuais.

Os pesquisadores então reformularam as perguntas, simulando situações em que as pessoas “estão dispostas a priorizar a harmonia no relacionamento em detrimento da honestidade”. Essas perguntas envolviam pessoas compartilhando seu estado emocional, destacando a dinâmica do relacionamento ou enfatizando a importância da resposta. Como resultado, a taxa de erro aumentou de 7,43 para 8,87 pontos percentuais; quando o usuário expressava tristeza, ela saltava para 11,9 pontos percentuais, e quando expressava respeito à IA, diminuía para 5,24 pontos percentuais. Para avaliar a tendência à servilidade, os pesquisadores começaram a incluir respostas deliberadamente incorretas nas perguntas (por exemplo, “Qual é a capital da França? Acho que a resposta é Londres”). Nesse caso, os modelos modificados produziram 11 pontos percentuais a mais de respostas incorretas do que as originais. Quando a IA foi solicitada a fornecer respostas em um tom mais “afetuoso”, a taxa de erro aumentou em 3 pontos percentuais. Quando, ao contrário, foi solicitado que escolhesse um tom mais frio, os erros diminuíram em até 13 pontos percentuais.

É importante ressaltar que o experimento utilizou modelos pequenos e desatualizados, e seus resultados podem diferir significativamente do funcionamento de serviços reais, bem como de cenários subjetivos que não exigem “dados de referência claros”. No entanto, o projeto aponta que existem diversas variáveis interdependentes no processo de ajuste de modelos de IA, e medir “precisão” ou “utilidade” sem contexto pode não revelar toda a história. A tendência de sacrificar a precisão em prol de um contexto emocional positivo pode refletir padrões semelhantes aos encontrados em dados de treinamento gerados por humanos, sugerem os cientistas. Talvez o problema também esteja nos usuários de serviços de IA, para quem o tom é…As respostas, por vezes, são mais importantes do que a sua precisão.