Pesquisadores da OpenAI, em busca de métodos eficazes para auditar modelos de IA propensos a produzir resultados indesejáveis ou a tentar enganar os usuários, descobriram que esses modelos são bastante capazes de admitir seu próprio mau comportamento.
Fonte da imagem: Igor Omilaev / unsplash.com
Em seu significado original, o conceito de “confissão” é, obviamente, inaplicável a modelos de IA, que na realidade nada mais são do que algoritmos estatísticos complexos. Nos termos da OpenAI, “confissão” refere-se à capacidade de um modelo avaliar seu próprio comportamento indesejável, como respostas alucinatórias ou tentativas de violar as condições da tarefa para alcançar um resultado desejado. “Confissão é uma resposta [secundária], solicitada após a resposta inicial do modelo, destinada a servir como um relatório abrangente sobre a conformidade do modelo com a letra e o espírito de suas políticas e instruções”, afirma o artigo da OpenAI (PDF).
Simplificando, o modelo é solicitado a retornar uma segunda resposta, juntamente com uma avaliação da primeira. A tendência da IA a se comportar mal se desenvolve durante o aprendizado por reforço, quando ela descobre o potencial para abusar dos mecanismos de recompensa. Ou seja, o modelo pressupõe que receberá uma recompensa por “confessar” e que permanecerá impune pelas próprias ações indesejáveis, como a bajulação.
Essas suposições, como se constatou na prática, se confirmam. Em 11 dos 12 testes, o modelo confessou pelo menos metade das vezes em que agiu contrariamente às instruções. A taxa de confissão foi variável: a probabilidade média de obter uma confissão em todos os testes foi de 74,3%. Em 4 dos 12 testes, essa taxa foi superior a 90%, e em 2 dos 12, foi de 50% ou menos. A probabilidade de um falso negativo, quando o modelo violou as regras e não admitiu o erro, foi de apenas 4,4%. Também houve falsos positivos, quando o modelo admitiu comportamento inadequado apesar de não haver nada que o justificasse.Eu não fiz isso.
Quando a OpenAI incorporou um cenário de “confissão” ao mecanismo de treinamento do modelo, a qualidade de suas respostas não se deteriorou significativamente. Por outro lado, mesmo depois de “confessar” seus pecados, o modelo não se comportou melhor, mas pelo menos se comportou com mais honestidade. Em outras palavras, a “confissão” não é uma barreira, mas um mecanismo de segurança que, além disso, funciona com diferentes níveis de sucesso.
O acesso antecipado de Path of Exile 2, um ambicioso RPG de ação e fantasia…
A União Europeia implementou pela primeira vez a sua Lei de Serviços Digitais (DSA, na…
A Comissão Federal de Comércio (FTC) dos EUA investigará se a fabricante de roteadores TP-Link…
A Foxconn é a maior fabricante de eletrônicos por contrato do mundo. A empresa produz…
O estúdio japonês Grasshopper Manufacture (No More Heroes, Shadows of the Damned), pertencente à NetEase,…
A Microsoft começou a distribuir a atualização Windows 11 25H2 em setembro, mas até agora…