A ética do uso de sistemas de inteligência artificial é uma questão premente que preocupa não apenas os desenvolvedores, mas também as agências governamentais. As versões oficiais dos modelos de IA são configuradas para rejeitar consultas que buscam informações restritas. No entanto, modificar esses modelos torna relativamente fácil remover todas essas restrições.

Fonte da imagem: Unsplash, Steve A Johnson

Segundo o Financial Times, a pedido do jornal, pesquisadores do Alice Group, especializados em segurança de IA, realizaram uma série de experimentos que comprovam a viabilidade de contornar a maioria das restrições éticas impostas a modelos de IA modernos de desenvolvedores populares. Os autores do experimento forçaram uma versão modificada do modelo de código aberto Google Gemma 3 a responder a uma solicitação de um método para pulverizar cloro em uma sala lotada, gerar código para roubar informações de cartão de crédito e escrever histórias envolvendo abuso sexual de menores.

De acordo com o Alice Group, essas modificações nos modelos de IA originais estão se tornando comuns, minando os esforços de legisladores e órgãos reguladores para impedir o uso malicioso e criminoso da IA. Ferramentas de software para modificar o código são distribuídas independentemente dos criadores dos modelos de IA originais. Ferramentas para remover a censura dos modelos de IA estão disponíveis gratuitamente, observam os autores do estudo.

Felizmente, tais modificações são difíceis de aplicar a modelos de IA proprietários, mas as versões de código aberto geralmente ficam de seis a doze meses atrás de suas contrapartes proprietárias, oferecendo amplas possibilidades para que os atacantes alcancem seus objetivos. Mesmo aqueles sem conhecimento técnico significativo podem acessar versões de modelos com restrições éticas removidas. Representantes do Financial Times conseguiram remover tais restrições independentemente do modelo Meta✴Llama 3.3.Utilizando a ferramenta de software Heretic, foram necessárias apenas quatro linhas de código e cerca de 10 minutos de trabalho para que o modelo modificado começasse a discutir livremente as nuances do uso de venenos em tentativas de assassinato.

O criador do Heretic admitiu que a ferramenta já foi usada para modificar mais de 3.500 modelos, e o número de downloads dos modelos modificados atingiu 13 milhões desde o ano passado. O próprio criador do Heretic removeu as restrições do modelo Google Gemma 4 em 90 minutos após o seu lançamento. Segundo especialistas, excluir “material prejudicial” durante o treinamento de modelos de IA não resolve o problema, pois eles se tornam “ingênuos demais” e não conseguem detectar com segurança instâncias de seu próprio uso malicioso. Representantes do GitHub justificaram a presença deste software em seu site afirmando que ele pode ser útil para fins educacionais e beneficia toda a comunidade de segurança.

admin

Postagens recentes

Análise do Ryzen 9 9950X3D2: Um processador de 16 núcleos com cache 3D / Processadores e Memória

Quando a AMD começou a migrar a tecnologia 3D V-Cache para seus processadores Ryzen de…

4 horas atrás

A NASA apresentou o Pegasus, um novo veículo explorador projetado para explorar a Lua.

A Administração Nacional da Aeronáutica e Espaço dos Estados Unidos (NASA) busca construir um assentamento…

8 horas atrás

A NASA apresentou o Pegasus, um novo veículo explorador projetado para explorar a Lua.

A Administração Nacional da Aeronáutica e Espaço dos Estados Unidos (NASA) busca construir um assentamento…

8 horas atrás

“Ocorreu uma falha”: um carro da Tesla com o Autopilot ativado colidiu com a porta de uma garagem.

Um proprietário de um Tesla do estado de Washington (EUA) literalmente invadiu a garagem de…

11 horas atrás

Os bloqueadores de anúncios continuarão funcionando no Google Chrome após o fim do suporte ao Manifest V2.

Esta semana, veículos de comunicação noticiaram a intenção do Google de abandonar o suporte ao…

11 horas atrás

Físicos lançaram um relógio nuclear pela primeira vez – ele pode superar os relógios atômicos em precisão e auxiliar na busca por matéria escura.

Um grupo de físicos demonstrou pela primeira vez um relógio nuclear funcional — um dispositivo…

12 horas atrás