A ética do uso de sistemas de inteligência artificial é uma questão premente que preocupa não apenas os desenvolvedores, mas também as agências governamentais. As versões oficiais dos modelos de IA são configuradas para rejeitar consultas que buscam informações restritas. No entanto, modificar esses modelos torna relativamente fácil remover todas essas restrições.

Fonte da imagem: Unsplash, Steve A Johnson
Segundo o Financial Times, a pedido do jornal, pesquisadores do Alice Group, especializados em segurança de IA, realizaram uma série de experimentos que comprovam a viabilidade de contornar a maioria das restrições éticas impostas a modelos de IA modernos de desenvolvedores populares. Os autores do experimento forçaram uma versão modificada do modelo de código aberto Google Gemma 3 a responder a uma solicitação de um método para pulverizar cloro em uma sala lotada, gerar código para roubar informações de cartão de crédito e escrever histórias envolvendo abuso sexual de menores.
De acordo com o Alice Group, essas modificações nos modelos de IA originais estão se tornando comuns, minando os esforços de legisladores e órgãos reguladores para impedir o uso malicioso e criminoso da IA. Ferramentas de software para modificar o código são distribuídas independentemente dos criadores dos modelos de IA originais. Ferramentas para remover a censura dos modelos de IA estão disponíveis gratuitamente, observam os autores do estudo.
Felizmente, tais modificações são difíceis de aplicar a modelos de IA proprietários, mas as versões de código aberto geralmente ficam de seis a doze meses atrás de suas contrapartes proprietárias, oferecendo amplas possibilidades para que os atacantes alcancem seus objetivos. Mesmo aqueles sem conhecimento técnico significativo podem acessar versões de modelos com restrições éticas removidas. Representantes do Financial Times conseguiram remover tais restrições independentemente do modelo Meta✴Llama 3.3.Utilizando a ferramenta de software Heretic, foram necessárias apenas quatro linhas de código e cerca de 10 minutos de trabalho para que o modelo modificado começasse a discutir livremente as nuances do uso de venenos em tentativas de assassinato.
O criador do Heretic admitiu que a ferramenta já foi usada para modificar mais de 3.500 modelos, e o número de downloads dos modelos modificados atingiu 13 milhões desde o ano passado. O próprio criador do Heretic removeu as restrições do modelo Google Gemma 4 em 90 minutos após o seu lançamento. Segundo especialistas, excluir “material prejudicial” durante o treinamento de modelos de IA não resolve o problema, pois eles se tornam “ingênuos demais” e não conseguem detectar com segurança instâncias de seu próprio uso malicioso. Representantes do GitHub justificaram a presença deste software em seu site afirmando que ele pode ser útil para fins educacionais e beneficia toda a comunidade de segurança.