Categorias: Programas

Inteligência artificial recontou Harry Potter e outros livros quase que palavra por palavra — desmascarando o mito do uso justo.

Grandes modelos de linguagem (LLMs, na sigla em inglês) de líderes do setor podem gerar cópias quase idênticas de livros best-sellers sob demanda. Isso levanta novas questões para os desenvolvedores que repetidamente afirmam que seus algoritmos não armazenam obras protegidas por direitos autorais.

Estudos recentes mostraram que modelos de IA da OpenAI, Google, Meta✴, Anthropic e xAI memorizam muito mais dados de treinamento do que se acreditava anteriormente. De acordo com especialistas em IA e direito, essa capacidade de memorização pode ter sérias implicações para os desenvolvedores. Isso porque as empresas podem enfrentar dezenas de processos judiciais em todo o mundo, já que isso efetivamente mina a alegação de que os LLMs são treinados com obras protegidas por direitos autorais, mas não armazenam cópias delas.

“Há evidências crescentes de que a memorização é um problema mais sério do que se pensava anteriormente”, comentou Yves-Alexandre de Montjoye, professor de matemática aplicada e ciência da computação do Imperial College London.

Os desenvolvedores de IA há muito afirmam que seus algoritmos não são propensos à memorização. Em uma carta de 2023 ao Escritório de Direitos Autorais dos EUA, o Google afirmou que “o próprio modelo não contém cópias dos dados de treinamento — sejam textos, imagens ou outros formatos”. Empresas de IA também argumentam que treinar modelos com livros protegidos por direitos autorais constitui “uso justo”, alegando que os algoritmos transformam as obras originais em algo fundamentalmente novo.

No mês passado, pesquisadores de Stanford e YaleUma equipe de pesquisadores de universidades conduziu um experimento no qual conseguiu formular consultas para os algoritmos OpenAI, Google, Anthropic e xAI, a fim de gerar milhares de palavras a partir de 13 obras, incluindo “Game of Thrones”, “Jogos Vorazes” e “O Hobbit”. Ao realizar uma tarefa de completar frases de livros, o algoritmo Gemini 2.5 reproduziu 76,8% do texto de “Harry Potter e a Pedra Filosofal” com alta precisão, enquanto o Grok 3 gerou 70,3%. Os pesquisadores também conseguiram extrair quase todo o texto do livro “quase literalmente” do Soneto Claude 3.7 da Anthropic, usando consultas que forçaram o algoritmo a ignorar mecanismos de proteção.

Essas descobertas complementam o estudo do ano passado, que mostrou que modelos “abertos”, como o Llama da Meta✴, memorizam grandes porções de alguns livros usados ​​no treinamento. Anteriormente, os especialistas não tinham certeza se os modelos fechados, que normalmente possuem mais proteções contra a geração de conteúdo indesejado, seriam suscetíveis a memorizar as obras com as quais foram treinados.

Os pesquisadores ainda não determinaram por que os modelos de IA memorizam o que está presente em seus dados de treinamento. Também permanece incerto qual parte dos dados de treinamento pode ser refletida nas respostas geradas pela IA às consultas. Essa capacidade de memorização também pode ter sérias implicações em outros setores, como saúde e educação, onde o vazamento de quaisquer dados de treinamento pode levar a problemas de privacidade e confidencialidade.

Especialistas jurídicos acreditam que a capacidade de memorização dos modelos de IA pode potencialmente criar problemas para os desenvolvedores devido à violação de direitos autorais. Isso também pode impactar…Como os algoritmos são treinados e quanto isso custa. “Essas descobertas podem representar um problema para aqueles que afirmam que o modelo de IA não armazena nem reproduz obras protegidas por direitos autorais”, diz Cerys Wyn Davies, sócia da área de propriedade intelectual do escritório de advocacia Pinsent Masons.

O fato de os modelos de IA lembrarem ou não seus dados de treinamento já desempenhou um papel significativo em recentes processos judiciais por violação de direitos autorais. No ano passado, um tribunal dos EUA decidiu que o treinamento dos modelos de IA da Anthropic em certas obras protegidas por direitos autorais constituía “uso justo”, pois o tribunal reconheceu que o algoritmo transforma os dados de origem ao gerar respostas, em vez de repeti-los. No entanto, o tribunal decidiu que armazenar cópias pirateadas das obras “viola irreparavelmente os direitos autorais”, o que posteriormente obrigou a empresa a pagar US$ 1,5 bilhão para encerrar o processo.

Em novembro passado, um tribunal alemão decidiu que a OpenAI havia infringido direitos autorais porque os modelos de IA da empresa memorizavam letras de músicas. O processo, movido por uma associação local que representa compositores, poetas e editores, foi considerado um caso histórico para a União Europeia.

Ao comentar as descobertas do estudo mais recente, a Anthropic afirmou que o método usado para hackear o modelo de IA não é utilizado por usuários comuns. A empresa acrescentou que seus modelos de IA não armazenam cópias de conjuntos de dados específicos, mas aprendem com padrões e relações entre palavras e sequências de caracteres nos dados de treinamento. xAI, OpenAI e Google ainda não se pronunciaram sobre o assunto.

admin

Compartilhar
Publicado por
admin

Postagens recentes

A polícia da Califórnia começará a emitir multas para carros autônomos.

O Departamento de Veículos Motorizados da Califórnia (DMV) aprovou regulamentações que, a partir de 1º…

24 minutos atrás

O Modo Xbox começou a ser disponibilizado para PCs com Windows 11.

A Microsoft expandiu a disponibilidade do "Modo Xbox" em computadores com Windows 11 para um…

24 minutos atrás

Warhammer 40.000: Space Marine 2 fez tanto sucesso que o suporte ao jogo foi estendido por um terceiro ano.

A Focus Entertainment, editora do jogo, e a Saber Interactive, desenvolvedora do título, revelaram o…

36 minutos atrás

As remessas globais de smartphones cresceram 1% no primeiro trimestre de 2026.

A empresa de análise Omdia informou que as remessas globais de smartphones aumentaram 1% em…

1 hora atrás

A Apple se prepara para um aumento acentuado nos custos de memória no segundo trimestre e nos próximos meses.

A Apple alertou para um aumento acentuado nos custos dos chips de memória no segundo…

1 hora atrás

Mark Zuckerberg atribuiu as últimas demissões ao aumento dos custos de IA e não descartou novas demissões.

O CEO da Meta✴, Mark Zuckerberg, atribuiu a próxima onda de demissões na empresa ao…

1 hora atrás