Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

Segundo um estudo da OpenAI 3DNews, os modelos de IA estão dispostos a admitir seus erros.

Pesquisadores da OpenAI, em busca de métodos eficazes para auditar modelos de IA propensos a produzir resultados indesejáveis ou a tentar enganar os usuários, descobriram que esses modelos são bastante capazes de admitir seu próprio mau comportamento.

Fonte da imagem: Igor Omilaev / unsplash.com

Em seu significado original, o conceito de “confissão” é, obviamente, inaplicável a modelos de IA, que na realidade nada mais são do que algoritmos estatísticos complexos. Nos termos da OpenAI, “confissão” refere-se à capacidade de um modelo avaliar seu próprio comportamento indesejável, como respostas alucinatórias ou tentativas de violar as condições da tarefa para alcançar um resultado desejado. “Confissão é uma resposta [secundária], solicitada após a resposta inicial do modelo, destinada a servir como um relatório abrangente sobre a conformidade do modelo com a letra e o espírito de suas políticas e instruções”, afirma o artigo da OpenAI (PDF).

Simplificando, o modelo é solicitado a retornar uma segunda resposta, juntamente com uma avaliação da primeira. A tendência da IA a se comportar mal se desenvolve durante o aprendizado por reforço, quando ela descobre o potencial para abusar dos mecanismos de recompensa. Ou seja, o modelo pressupõe que receberá uma recompensa por “confessar” e que permanecerá impune pelas próprias ações indesejáveis, como a bajulação.

Essas suposições, como se constatou na prática, se confirmam. Em 11 dos 12 testes, o modelo confessou pelo menos metade das vezes em que agiu contrariamente às instruções. A taxa de confissão foi variável: a probabilidade média de obter uma confissão em todos os testes foi de 74,3%. Em 4 dos 12 testes, essa taxa foi superior a 90%, e em 2 dos 12, foi de 50% ou menos. A probabilidade de um falso negativo, quando o modelo violou as regras e não admitiu o erro, foi de apenas 4,4%. Também houve falsos positivos, quando o modelo admitiu comportamento inadequado apesar de não haver nada que o justificasse.Eu não fiz isso.

Quando a OpenAI incorporou um cenário de “confissão” ao mecanismo de treinamento do modelo, a qualidade de suas respostas não se deteriorou significativamente. Por outro lado, mesmo depois de “confessar” seus pecados, o modelo não se comportou melhor, mas pelo menos se comportou com mais honestidade. Em outras palavras, a “confissão” não é uma barreira, mas um mecanismo de segurança que, além disso, funciona com diferentes níveis de sucesso.

admin

Próximo "Estamos tentando fazer tudo o mais rápido possível": Path of Exile 2 não sairá do Acesso Antecipado em março - 3DNews »

Anterior « A UE multou a X em 140 milhões de euros pelos seus esquemas de "fraude" na certificação de segurança.

Deixar comentário

Publicado por

admin

32 minutos atrás

Postagens recentes

Jogos

“Estamos tentando fazer tudo o mais rápido possível”: Path of Exile 2 não sairá do Acesso Antecipado em março – 3DNews

O acesso antecipado de Path of Exile 2, um ambicioso RPG de ação e fantasia…

11 minutos atrás

Notícias da rede

A UE multou a X em 140 milhões de euros pelos seus esquemas de “fraude” na certificação de segurança.

A União Europeia implementou pela primeira vez a sua Lei de Serviços Digitais (DSA, na…

54 minutos atrás

Redes e comunicações

Os EUA investigarão se a TP-Link enganou os usuários ao se dividir em empresas americanas e chinesas.

A Comissão Federal de Comércio (FTC) dos EUA investigará se a fabricante de roteadores TP-Link…

54 minutos atrás

Notícias e análises financeiras

A Foxconn continua a lucrar com o boom da IA, com um aumento de receita de 26% graças aos servidores da 3DNews.

A Foxconn é a maior fabricante de eletrônicos por contrato do mundo. A empresa produz…

54 minutos atrás

Jogos

Um trailer dinâmico confirmou a data de lançamento do filme de ação e ficção científica ultra-violento Romeo is a Dead Man, dos criadores de No More Heroes. (3DNews)

O estúdio japonês Grasshopper Manufacture (No More Heroes, Shadows of the Damned), pertencente à NetEase,…

1 hora atrás

Sistemas operacionais

O Windows 11 25H2 já está disponível para todos os PCs compatíveis em todo o mundo.

A Microsoft começou a distribuir a atualização Windows 11 25H2 em setembro, mas até agora…

1 hora atrás