Categorias: Vírus, cavalos de Troia, vulnerabilidades de software, problemas de segurança

Pesquisadores demonstraram que é bastante fácil forçar a IA a fornecer informações proibidas.

A ética do uso de sistemas de inteligência artificial é uma questão premente que preocupa não apenas os desenvolvedores, mas também as agências governamentais. As versões oficiais dos modelos de IA são configuradas para rejeitar consultas que buscam informações restritas. No entanto, modificar esses modelos torna relativamente fácil remover todas essas restrições.

Fonte da imagem: Unsplash, Steve A Johnson

Segundo o Financial Times, a pedido do jornal, pesquisadores do Alice Group, especializados em segurança de IA, realizaram uma série de experimentos que comprovam a viabilidade de contornar a maioria das restrições éticas impostas a modelos de IA modernos de desenvolvedores populares. Os autores do experimento forçaram uma versão modificada do modelo de código aberto Google Gemma 3 a responder a uma solicitação de um método para pulverizar cloro em uma sala lotada, gerar código para roubar informações de cartão de crédito e escrever histórias envolvendo abuso sexual de menores.

De acordo com o Alice Group, essas modificações nos modelos de IA originais estão se tornando comuns, minando os esforços de legisladores e órgãos reguladores para impedir o uso malicioso e criminoso da IA. Ferramentas de software para modificar o código são distribuídas independentemente dos criadores dos modelos de IA originais. Ferramentas para remover a censura dos modelos de IA estão disponíveis gratuitamente, observam os autores do estudo.

Felizmente, tais modificações são difíceis de aplicar a modelos de IA proprietários, mas as versões de código aberto geralmente ficam de seis a doze meses atrás de suas contrapartes proprietárias, oferecendo amplas possibilidades para que os atacantes alcancem seus objetivos. Mesmo aqueles sem conhecimento técnico significativo podem acessar versões de modelos com restrições éticas removidas. Representantes do Financial Times conseguiram remover tais restrições independentemente do modelo Meta✴Llama 3.3.Utilizando a ferramenta de software Heretic, foram necessárias apenas quatro linhas de código e cerca de 10 minutos de trabalho para que o modelo modificado começasse a discutir livremente as nuances do uso de venenos em tentativas de assassinato.

O criador do Heretic admitiu que a ferramenta já foi usada para modificar mais de 3.500 modelos, e o número de downloads dos modelos modificados atingiu 13 milhões desde o ano passado. O próprio criador do Heretic removeu as restrições do modelo Google Gemma 4 em 90 minutos após o seu lançamento. Segundo especialistas, excluir “material prejudicial” durante o treinamento de modelos de IA não resolve o problema, pois eles se tornam “ingênuos demais” e não conseguem detectar com segurança instâncias de seu próprio uso malicioso. Representantes do GitHub justificaram a presença deste software em seu site afirmando que ele pode ser útil para fins educacionais e beneficia toda a comunidade de segurança.

admin

Próximo O Copilot está de volta no Windows 11 como uma barra lateral que irá ocupar todo o espaço das outras janelas. »

Anterior « Gartner: Investimentos em IA crescerão quase 50% em 2026, atingindo US$ 2,6 trilhões.

Deixar comentário

Publicado por

admin

1 hora atrás

Postagens recentes

Discos rígidos, sistemas de armazenamento, interfaces, NAS

A Samsung começará a produzir memória flash 3D NAND de 286 camadas na China.

A partir do outono de 2022, as autoridades americanas proibiram o fornecimento de equipamentos para…

30 minutos atrás

Consoles de jogos

Um usuário do Google modders transformou um PlayStation 4 Slim em um console portátil com tela OLED de 7 polegadas.

O usuário do Reddit wewillmakeitnow compartilhou detalhes e fotos de um projeto para criar um…

30 minutos atrás

Programas

Jogos

O Efeito Subnautica 2: Oito anos após seu lançamento, o Subnautica original quebrou seu próprio recorde de popularidade no Steam.

O lançamento explosivo do acesso antecipado do ambicioso simulador de sobrevivência subaquática Subnautica 2, do…

2 horas atrás

Pesquisadores demonstraram que é bastante fácil forçar a IA a fornecer informações proibidas.

Conteúdo relacionado

Postagens recentes

A Samsung começará a produzir memória flash 3D NAND de 286 camadas na China.

Um usuário do Google modders transformou um PlayStation 4 Slim em um console portátil com tela OLED de 7 polegadas.

O Copilot está de volta no Windows 11 como uma barra lateral que irá ocupar todo o espaço das outras janelas.

Gartner: Investimentos em IA crescerão quase 50% em 2026, atingindo US$ 2,6 trilhões.

SanDisk: Os SSDs não representarão uma ameaça aos HDDs tão cedo.

O Efeito Subnautica 2: Oito anos após seu lançamento, o Subnautica original quebrou seu próprio recorde de popularidade no Steam.