Um estudo realizado por pesquisadores da Universidade de Stanford e colegas da Carnegie Mellon descobriu que os modelos de IA mais populares dos EUA e da China tendem a bajular excessivamente os usuários e nem sempre transmitem informações objetivas. Pessoas que dependem de conselhos de chatbots obtidos dessa forma podem ter menos probabilidade de estabelecer relacionamentos harmoniosos entre si.

Fonte da imagem: Nvidia

Os autores do estudo examinaram como 11 modelos de linguagem populares de grande escala respondem a perguntas de usuários relacionadas a relacionamentos interpessoais. Eles descobriram que muitos modelos de linguagem tendem a concordar excessivamente com os usuários, numa tentativa de agradá-los. Por exemplo, o DeepSeek V3, lançado em dezembro passado, aprovou as ações dos usuários 55% mais vezes do que um interlocutor humano. Para os outros modelos da amostra, a taxa média de “obsequiosidade” exagerada chegou a 47%.

Curiosamente, os autores do estudo usaram respostas de usuários de páginas do Reddit descrevendo como eles avaliaram as ações de outras pessoas em vários conflitos interpessoais como referência para as reações humanas. A referência consistia em situações em que a comunidade condenava o autor da postagem, apontando sua injustiça. Esses mesmos cenários foram submetidos a modelos de linguagem populares de grande escala, e eles se mostraram muito mais propensos a justificar pessoas que cometeram certas ofensas do que interlocutores humanos. O estudo utilizou principalmente publicações e discussões em inglês.

O modelo de linguagem Qwen2.5-7B-Instruct, desenvolvido pela Alibaba, provou ser o campeão da bajulação, absolvendo transgressões humanas em 79% dos casos. O DeepSeek V3 ficou em segundo lugar, absolvendo as pessoas em questão em 76% dos casos. O Gemini 1.5, do Google, inocentou as pessoas em apenas 18% dos casos. Dos 11 modelos testados, apenas dois foram desenvolvidos na China; os demais, com exceção do francês Mistral, foram criados nos EUA.

Os autores do estudo também concluíram que a bajulação dos chatbots reduz a tendência aAs pessoas são incentivadas a resolver conflitos de forma amigável, pois isso lhes instila um falso senso de justiça própria. Essa bajulação também tem um impacto negativo na saúde mental dos usuários de grandes modelos de linguagem. Ao usar IA em análises de negócios, essa tendência à bajulação também é prejudicial, pois o modelo de linguagem tende a concordar com o analista com mais frequência do que deveria.

By admin

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *