Pesquisadores da OpenAI, em busca de métodos eficazes para auditar modelos de IA propensos a produzir resultados indesejáveis ​​ou a tentar enganar os usuários, descobriram que esses modelos são bastante capazes de admitir seu próprio mau comportamento.

Fonte da imagem: Igor Omilaev / unsplash.com

Em seu significado original, o conceito de “confissão” é, obviamente, inaplicável a modelos de IA, que na realidade nada mais são do que algoritmos estatísticos complexos. Nos termos da OpenAI, “confissão” refere-se à capacidade de um modelo avaliar seu próprio comportamento indesejável, como respostas alucinatórias ou tentativas de violar as condições da tarefa para alcançar um resultado desejado. “Confissão é uma resposta [secundária], solicitada após a resposta inicial do modelo, destinada a servir como um relatório abrangente sobre a conformidade do modelo com a letra e o espírito de suas políticas e instruções”, afirma o artigo da OpenAI (PDF).

Simplificando, o modelo é solicitado a retornar uma segunda resposta, juntamente com uma avaliação da primeira. A tendência da IA ​​a se comportar mal se desenvolve durante o aprendizado por reforço, quando ela descobre o potencial para abusar dos mecanismos de recompensa. Ou seja, o modelo pressupõe que receberá uma recompensa por “confessar” e que permanecerá impune pelas próprias ações indesejáveis, como a bajulação.

Essas suposições, como se constatou na prática, se confirmam. Em 11 dos 12 testes, o modelo confessou pelo menos metade das vezes em que agiu contrariamente às instruções. A taxa de confissão foi variável: a probabilidade média de obter uma confissão em todos os testes foi de 74,3%. Em 4 dos 12 testes, essa taxa foi superior a 90%, e em 2 dos 12, foi de 50% ou menos. A probabilidade de um falso negativo, quando o modelo violou as regras e não admitiu o erro, foi de apenas 4,4%. Também houve falsos positivos, quando o modelo admitiu comportamento inadequado apesar de não haver nada que o justificasse.Eu não fiz isso.

Quando a OpenAI incorporou um cenário de “confissão” ao mecanismo de treinamento do modelo, a qualidade de suas respostas não se deteriorou significativamente. Por outro lado, mesmo depois de “confessar” seus pecados, o modelo não se comportou melhor, mas pelo menos se comportou com mais honestidade. Em outras palavras, a “confissão” não é uma barreira, mas um mecanismo de segurança que, além disso, funciona com diferentes níveis de sucesso.

By admin

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *