O engenheiro sênior de inteligência artificial da Microsoft, Shane Jones, descobriu uma vulnerabilidade no gerador de imagens OpenAI DALL-E 3 que permite contornar os mecanismos de segurança da rede neural e gerar conteúdo impróprio. Mas a Microsoft e a OpenAI negaram a existência desta vulnerabilidade e impediram que o problema se tornasse público.
O engenheiro explicou que decidiu divulgar o problema depois que uma série de imagens fotorrealistas geradas por IA da famosa performer Taylor Swift, de natureza sensível, foram publicadas nas redes sociais na semana passada. O incidente causou indignação entre seus fãs, e Shane Jones pediu à OpenAI que retirasse o DALL-E 3 do acesso público. De acordo com uma versão, os atacantes que criaram esta série de imagens utilizam a ferramenta Microsoft Designer, parcialmente baseada neste gerador de IA. O engenheiro também enviou uma carta a dois senadores, um membro da Câmara dos Representantes e o Procurador-Geral do Estado de Washington, observando que “a Microsoft estava ciente dessas vulnerabilidades e do potencial de abuso”.
Jones informou à Microsoft sobre o problema que descobriu em 1º de dezembro de 2023, enviando a solicitação correspondente por meio do sistema interno da empresa. No mesmo dia, recebeu resposta de um funcionário que trabalhava com tais solicitações, que observou que o problema não dizia respeito nem à rede interna da Microsoft nem às contas de clientes da empresa, e recomendou o envio de sua solicitação à OpenAI. O engenheiro enviou no dia 9 de dezembro, fornecendo informações detalhadas sobre a vulnerabilidade, mas nunca recebeu resposta. Jones continuou a estudar o problema e “concluiu que o DALL-E 3 representa uma ameaça à segurança pública e deve ser removido do acesso público até que a OpenAI possa eliminar os riscos associados a este modelo”.
Duas semanas depois, no dia 14 de dezembro, o engenheiro tornou pública a conversa postando um post em sua página do LinkedIn pedindo a retirada do DALL-E 3 do mercado. Ele notificou a direção da empresa sobre isso, e seu superior imediato o contatou rapidamente – ele afirmou que o departamento jurídico da Microsoft exigia que a publicação fosse removida imediatamente e que ele apresentaria os motivos de sua demanda posteriormente. Jones excluiu a postagem, mas nunca recebeu qualquer comunicação dos advogados da Microsoft. Como resultado, em 30 de janeiro ele foi forçado a enviar uma carta às autoridades.
A OpenAI respondeu apenas em 30 de janeiro, afirmando que examinou o pedido do engenheiro imediatamente após seu recebimento, e o método que ele descreveu supostamente não permitia contornar as medidas de segurança. “A segurança é a nossa prioridade e estamos adotando uma abordagem multifacetada. No modelo fundamental DALL-E 3, desenvolvemos um filtro para o conteúdo mais explícito de seus dados de treinamento, incluindo imagens sexuais e violentas, e desenvolvemos classificadores de imagens robustos para evitar que o modelo produzisse imagens prejudiciais. Também implementamos medidas de segurança adicionais para nossos produtos, ChatGPT e API DALL-E, incluindo a rejeição de solicitações contendo o nome de uma figura pública. Identificamos e rejeitamos imagens que violem nossas políticas e filtramos todas as imagens geradas antes de serem mostradas ao usuário. Para fortalecer nossas medidas de segurança e verificar se há abusos, estamos contratando uma equipe de especialistas terceirizados”, garantiu OpenAI.