Grandes modelos de linguagem (LLMs, na sigla em inglês) de líderes do setor podem gerar cópias quase idênticas de livros best-sellers sob demanda. Isso levanta novas questões para os desenvolvedores que repetidamente afirmam que seus algoritmos não armazenam obras protegidas por direitos autorais.
Estudos recentes mostraram que modelos de IA da OpenAI, Google, Meta✴, Anthropic e xAI memorizam muito mais dados de treinamento do que se acreditava anteriormente. De acordo com especialistas em IA e direito, essa capacidade de memorização pode ter sérias implicações para os desenvolvedores. Isso porque as empresas podem enfrentar dezenas de processos judiciais em todo o mundo, já que isso efetivamente mina a alegação de que os LLMs são treinados com obras protegidas por direitos autorais, mas não armazenam cópias delas.
“Há evidências crescentes de que a memorização é um problema mais sério do que se pensava anteriormente”, comentou Yves-Alexandre de Montjoye, professor de matemática aplicada e ciência da computação do Imperial College London.
Os desenvolvedores de IA há muito afirmam que seus algoritmos não são propensos à memorização. Em uma carta de 2023 ao Escritório de Direitos Autorais dos EUA, o Google afirmou que “o próprio modelo não contém cópias dos dados de treinamento — sejam textos, imagens ou outros formatos”. Empresas de IA também argumentam que treinar modelos com livros protegidos por direitos autorais constitui “uso justo”, alegando que os algoritmos transformam as obras originais em algo fundamentalmente novo.
No mês passado, pesquisadores de Stanford e YaleUma equipe de pesquisadores de universidades conduziu um experimento no qual conseguiu formular consultas para os algoritmos OpenAI, Google, Anthropic e xAI, a fim de gerar milhares de palavras a partir de 13 obras, incluindo “Game of Thrones”, “Jogos Vorazes” e “O Hobbit”. Ao realizar uma tarefa de completar frases de livros, o algoritmo Gemini 2.5 reproduziu 76,8% do texto de “Harry Potter e a Pedra Filosofal” com alta precisão, enquanto o Grok 3 gerou 70,3%. Os pesquisadores também conseguiram extrair quase todo o texto do livro “quase literalmente” do Soneto Claude 3.7 da Anthropic, usando consultas que forçaram o algoritmo a ignorar mecanismos de proteção.
Essas descobertas complementam o estudo do ano passado, que mostrou que modelos “abertos”, como o Llama da Meta✴, memorizam grandes porções de alguns livros usados no treinamento. Anteriormente, os especialistas não tinham certeza se os modelos fechados, que normalmente possuem mais proteções contra a geração de conteúdo indesejado, seriam suscetíveis a memorizar as obras com as quais foram treinados.
Os pesquisadores ainda não determinaram por que os modelos de IA memorizam o que está presente em seus dados de treinamento. Também permanece incerto qual parte dos dados de treinamento pode ser refletida nas respostas geradas pela IA às consultas. Essa capacidade de memorização também pode ter sérias implicações em outros setores, como saúde e educação, onde o vazamento de quaisquer dados de treinamento pode levar a problemas de privacidade e confidencialidade.
Especialistas jurídicos acreditam que a capacidade de memorização dos modelos de IA pode potencialmente criar problemas para os desenvolvedores devido à violação de direitos autorais. Isso também pode impactar…Como os algoritmos são treinados e quanto isso custa. “Essas descobertas podem representar um problema para aqueles que afirmam que o modelo de IA não armazena nem reproduz obras protegidas por direitos autorais”, diz Cerys Wyn Davies, sócia da área de propriedade intelectual do escritório de advocacia Pinsent Masons.
O fato de os modelos de IA lembrarem ou não seus dados de treinamento já desempenhou um papel significativo em recentes processos judiciais por violação de direitos autorais. No ano passado, um tribunal dos EUA decidiu que o treinamento dos modelos de IA da Anthropic em certas obras protegidas por direitos autorais constituía “uso justo”, pois o tribunal reconheceu que o algoritmo transforma os dados de origem ao gerar respostas, em vez de repeti-los. No entanto, o tribunal decidiu que armazenar cópias pirateadas das obras “viola irreparavelmente os direitos autorais”, o que posteriormente obrigou a empresa a pagar US$ 1,5 bilhão para encerrar o processo.
Em novembro passado, um tribunal alemão decidiu que a OpenAI havia infringido direitos autorais porque os modelos de IA da empresa memorizavam letras de músicas. O processo, movido por uma associação local que representa compositores, poetas e editores, foi considerado um caso histórico para a União Europeia.
Ao comentar as descobertas do estudo mais recente, a Anthropic afirmou que o método usado para hackear o modelo de IA não é utilizado por usuários comuns. A empresa acrescentou que seus modelos de IA não armazenam cópias de conjuntos de dados específicos, mas aprendem com padrões e relações entre palavras e sequências de caracteres nos dados de treinamento. xAI, OpenAI e Google ainda não se pronunciaram sobre o assunto.
A Asus restaurou parcialmente seu site na Alemanha, mas os laptops e desktops da linha…
Em setembro de 2025, o Google começou a disponibilizar o Gemini para dispositivos compatíveis com…
A ASML, líder global em sistemas de fotolitografia EUV e DUV para a indústria de…
Fevereiro termina em grande estilo. Esta semana, temos o spin-off de The Witcher, Reigns: The…
Um número crescente de relatos de usuários no fórum Reddit indica que o conector amarelo…
A Ericsson apresentou seu primeiro conjunto de produtos AI-RAN, enfatizando seu compromisso com uma estratégia…