Categorias: Programas

Inteligência artificial recontou Harry Potter e outros livros quase que palavra por palavra — desmascarando o mito do uso justo.

Grandes modelos de linguagem (LLMs, na sigla em inglês) de líderes do setor podem gerar cópias quase idênticas de livros best-sellers sob demanda. Isso levanta novas questões para os desenvolvedores que repetidamente afirmam que seus algoritmos não armazenam obras protegidas por direitos autorais.

Estudos recentes mostraram que modelos de IA da OpenAI, Google, Meta✴, Anthropic e xAI memorizam muito mais dados de treinamento do que se acreditava anteriormente. De acordo com especialistas em IA e direito, essa capacidade de memorização pode ter sérias implicações para os desenvolvedores. Isso porque as empresas podem enfrentar dezenas de processos judiciais em todo o mundo, já que isso efetivamente mina a alegação de que os LLMs são treinados com obras protegidas por direitos autorais, mas não armazenam cópias delas.

“Há evidências crescentes de que a memorização é um problema mais sério do que se pensava anteriormente”, comentou Yves-Alexandre de Montjoye, professor de matemática aplicada e ciência da computação do Imperial College London.

Os desenvolvedores de IA há muito afirmam que seus algoritmos não são propensos à memorização. Em uma carta de 2023 ao Escritório de Direitos Autorais dos EUA, o Google afirmou que “o próprio modelo não contém cópias dos dados de treinamento — sejam textos, imagens ou outros formatos”. Empresas de IA também argumentam que treinar modelos com livros protegidos por direitos autorais constitui “uso justo”, alegando que os algoritmos transformam as obras originais em algo fundamentalmente novo.

No mês passado, pesquisadores de Stanford e YaleUma equipe de pesquisadores de universidades conduziu um experimento no qual conseguiu formular consultas para os algoritmos OpenAI, Google, Anthropic e xAI, a fim de gerar milhares de palavras a partir de 13 obras, incluindo “Game of Thrones”, “Jogos Vorazes” e “O Hobbit”. Ao realizar uma tarefa de completar frases de livros, o algoritmo Gemini 2.5 reproduziu 76,8% do texto de “Harry Potter e a Pedra Filosofal” com alta precisão, enquanto o Grok 3 gerou 70,3%. Os pesquisadores também conseguiram extrair quase todo o texto do livro “quase literalmente” do Soneto Claude 3.7 da Anthropic, usando consultas que forçaram o algoritmo a ignorar mecanismos de proteção.

Essas descobertas complementam o estudo do ano passado, que mostrou que modelos “abertos”, como o Llama da Meta✴, memorizam grandes porções de alguns livros usados no treinamento. Anteriormente, os especialistas não tinham certeza se os modelos fechados, que normalmente possuem mais proteções contra a geração de conteúdo indesejado, seriam suscetíveis a memorizar as obras com as quais foram treinados.

Os pesquisadores ainda não determinaram por que os modelos de IA memorizam o que está presente em seus dados de treinamento. Também permanece incerto qual parte dos dados de treinamento pode ser refletida nas respostas geradas pela IA às consultas. Essa capacidade de memorização também pode ter sérias implicações em outros setores, como saúde e educação, onde o vazamento de quaisquer dados de treinamento pode levar a problemas de privacidade e confidencialidade.

Especialistas jurídicos acreditam que a capacidade de memorização dos modelos de IA pode potencialmente criar problemas para os desenvolvedores devido à violação de direitos autorais. Isso também pode impactar…Como os algoritmos são treinados e quanto isso custa. “Essas descobertas podem representar um problema para aqueles que afirmam que o modelo de IA não armazena nem reproduz obras protegidas por direitos autorais”, diz Cerys Wyn Davies, sócia da área de propriedade intelectual do escritório de advocacia Pinsent Masons.

O fato de os modelos de IA lembrarem ou não seus dados de treinamento já desempenhou um papel significativo em recentes processos judiciais por violação de direitos autorais. No ano passado, um tribunal dos EUA decidiu que o treinamento dos modelos de IA da Anthropic em certas obras protegidas por direitos autorais constituía “uso justo”, pois o tribunal reconheceu que o algoritmo transforma os dados de origem ao gerar respostas, em vez de repeti-los. No entanto, o tribunal decidiu que armazenar cópias pirateadas das obras “viola irreparavelmente os direitos autorais”, o que posteriormente obrigou a empresa a pagar US$ 1,5 bilhão para encerrar o processo.

Em novembro passado, um tribunal alemão decidiu que a OpenAI havia infringido direitos autorais porque os modelos de IA da empresa memorizavam letras de músicas. O processo, movido por uma associação local que representa compositores, poetas e editores, foi considerado um caso histórico para a União Europeia.

Ao comentar as descobertas do estudo mais recente, a Anthropic afirmou que o método usado para hackear o modelo de IA não é utilizado por usuários comuns. A empresa acrescentou que seus modelos de IA não armazenam cópias de conjuntos de dados específicos, mas aprendem com padrões e relações entre palavras e sequências de caracteres nos dados de treinamento. xAI, OpenAI e Google ainda não se pronunciaram sobre o assunto.

admin

Próximo A IA Gemini quebrou as buscas nas Smart TVs do Google TV. »

Anterior « A ASML acelera a tecnologia EUV para velocidades de quilowatts – a produtividade dos scanners aumentará em 50% em poucos anos.

Deixar comentário

Publicado por

admin

1 mês atrás

Microsoft oficialmente enterrou Windows 10x. As melhores ideias aparecerão no Windows 10 habitual

Postagens recentes

O TikTok está investindo mais € 1 bilhão em um centro de dados na Finlândia para armazenar e processar dados de usuários europeus.

O TikTok, uma criação da chinesa ByteDance, anunciou um investimento de € 1 bilhão em…

44 minutos atrás

Servidores, clusters, supercomputadores, computadores industriais e multiprocessadores

Alibaba lançará data center usando exclusivamente seus próprios aceleradores.

A Alibaba e a China Telecom pretendem inaugurar um centro de dados no sul da…

58 minutos atrás

Motoristas

A Intel lançou um driver com suporte para as placas gráficas profissionais Arc Pro B70 e Arc Pro B65.

A Intel lançou a versão mais recente do driver Arc Graphics, a 32.0.101.8629 WHQL. O…

1 hora atrás

Notícias da rede

O YouTube agora pode acelerar e desacelerar vídeos automaticamente, mas apenas para usuários pagos.

O YouTube Premium costuma ser escolhido para se livrar de anúncios irritantes, mas a assinatura…

1 hora atrás

Câmeras / filmadoras digitais, DSLRs, lentes, molduras para fotos, flashes

A GoPro vai demitir 23% de seus funcionários para voltar a ser lucrativa.

A fabricante de câmeras de ação GoPro anunciou planos para demitir quase um quarto de…

1 hora atrás

“Não aos centros de dados”: Tiros são disparados contra a casa de um funcionário de Indianápolis que aprovou a construção de um centro de dados.

Os protestos contra a construção de data centers nos Estados Unidos estão se tornando mais…

2 horas atrás

Inteligência artificial recontou Harry Potter e outros livros quase que palavra por palavra — desmascarando o mito do uso justo.

Conteúdo relacionado

Postagens recentes

O TikTok está investindo mais € 1 bilhão em um centro de dados na Finlândia para armazenar e processar dados de usuários europeus.

Alibaba lançará data center usando exclusivamente seus próprios aceleradores.

A Intel lançou um driver com suporte para as placas gráficas profissionais Arc Pro B70 e Arc Pro B65.

O YouTube agora pode acelerar e desacelerar vídeos automaticamente, mas apenas para usuários pagos.

A GoPro vai demitir 23% de seus funcionários para voltar a ser lucrativa.

“Não aos centros de dados”: Tiros são disparados contra a casa de um funcionário de Indianápolis que aprovou a construção de um centro de dados.