Imagens de abuso sexual infantil encontradas em materiais populares para treinamento de redes neurais

Pesquisadores de Stanford descobriram que o popular conjunto de dados LAION-5B, usado para treinar modelos generativos de IA e para difusão estável e Google Imagen, inclui centenas de referências a material de abuso sexual infantil (CSAM). Descobriu-se que o LAION-5B inclui pelo menos 1.679 imagens ilegais tiradas de postagens em mídias sociais e sites adultos populares.

Fonte da imagem: LAION

Os investigadores começaram a estudar o conjunto de dados LAION em setembro de 2023, procurando ver se continha material de abuso sexual infantil. Para este efeito, hashes ou identificadores de imagens foram enviados para plataformas de descoberta de CSAM, como PhotoDNA e Canadian Child Advocacy Centre.

Os pesquisadores de Stanford observaram que a presença de CSAM em um conjunto de dados de treinamento de IA não terá necessariamente um impacto negativo nos resultados dos modelos treinados. Porém, sempre existe a chance de o modelo estar utilizando algum material ilegal na geração das imagens. “A presença de casos repetidos e idênticos de CSAM também é problemática, especialmente devido à maior probabilidade de obtenção de imagens de vítimas específicas”, afirma o relatório.

LAION, a organização sem fins lucrativos que administra o conjunto de dados, disse que tem uma política de “tolerância zero” para conteúdo prejudicial e removerá temporariamente os conjuntos de dados da web. Segundo o site LAION, o conjunto de dados não é diretamente um repositório de imagens. É o resultado da indexação de recursos da Internet e contém links para imagens e texto alternativo.

A Stability AI disse que as políticas internas da empresa proíbem o uso indevido de suas plataformas. A empresa afirma que ao treinar seus modelos no conjunto de dados LAION-5B, utilizou apenas uma parte dos materiais, que foram selecionados incluindo segurança.

Os especialistas acreditam que será difícil remover completamente o conteúdo problemático dos modelos de IA treinados nele. Eles recomendam esperar que os modelos treinados no LAION-5B, como o Stable Diffusion 1.5, “sejam obsoletos e a difusão cesse sempre que possível”. O Google lançou uma nova versão do Imagen, mas não revelou em qual conjunto de dados ele foi treinado.

Os procuradores-gerais dos EUA apelaram ao Congresso para criar um comité para investigar o impacto da IA ​​na exploração infantil e para proibir a criação de CSAM gerados por IA.

avalanche

Postagens recentes

A Asus certificou 17 módulos DDR5, tornando-os perfeitamente compatíveis com as placas-mãe ROG.

A Asus anunciou 17 módulos de memória RAM DDR5 de 14 fabricantes que foram certificados…

29 minutos atrás

A Xiaomi confirmou que lançará um novo processador proprietário da série Xring ainda este ano.

A Xiaomi confirmou oficialmente que lançará um novo processador móvel proprietário, o Xring, para smartphones…

3 horas atrás

Blocos de cobre impressos em 3D para melhorar a eficiência energética de data centers.

Pesquisadores americanos da Universidade de Illinois em Urbana-Champaign (UIUC) desenvolveram uma nova tecnologia para a…

3 horas atrás

A fabricante japonesa de chips TSMC anunciou lucro pela primeira vez, apenas um ano após o início da produção em massa.

A subsidiária da TSMC em Kumamoto, no Japão, registrou lucro pela primeira vez. A joint…

3 horas atrás

Testes de desempenho revelaram por que a Intel não lançou o Core Ultra 9 290K Plus: é inútil.

A Intel nunca lançou o processador Core Ultra 9 290K Plus em sua linha atualizada…

5 horas atrás

A Microsoft expandiu o suporte para a tecnologia Advanced Shader Delivery para placas gráficas AMD.

A Microsoft expandiu a lista de dispositivos compatíveis com o Advanced Shader Delivery (ASD), que…

5 horas atrás