Categorias: Programas

Inteligência artificial recontou Harry Potter e outros livros quase que palavra por palavra — desmascarando o mito do uso justo.

Grandes modelos de linguagem (LLMs, na sigla em inglês) de líderes do setor podem gerar cópias quase idênticas de livros best-sellers sob demanda. Isso levanta novas questões para os desenvolvedores que repetidamente afirmam que seus algoritmos não armazenam obras protegidas por direitos autorais.

Estudos recentes mostraram que modelos de IA da OpenAI, Google, Meta✴, Anthropic e xAI memorizam muito mais dados de treinamento do que se acreditava anteriormente. De acordo com especialistas em IA e direito, essa capacidade de memorização pode ter sérias implicações para os desenvolvedores. Isso porque as empresas podem enfrentar dezenas de processos judiciais em todo o mundo, já que isso efetivamente mina a alegação de que os LLMs são treinados com obras protegidas por direitos autorais, mas não armazenam cópias delas.

“Há evidências crescentes de que a memorização é um problema mais sério do que se pensava anteriormente”, comentou Yves-Alexandre de Montjoye, professor de matemática aplicada e ciência da computação do Imperial College London.

Os desenvolvedores de IA há muito afirmam que seus algoritmos não são propensos à memorização. Em uma carta de 2023 ao Escritório de Direitos Autorais dos EUA, o Google afirmou que “o próprio modelo não contém cópias dos dados de treinamento — sejam textos, imagens ou outros formatos”. Empresas de IA também argumentam que treinar modelos com livros protegidos por direitos autorais constitui “uso justo”, alegando que os algoritmos transformam as obras originais em algo fundamentalmente novo.

No mês passado, pesquisadores de Stanford e YaleUma equipe de pesquisadores de universidades conduziu um experimento no qual conseguiu formular consultas para os algoritmos OpenAI, Google, Anthropic e xAI, a fim de gerar milhares de palavras a partir de 13 obras, incluindo “Game of Thrones”, “Jogos Vorazes” e “O Hobbit”. Ao realizar uma tarefa de completar frases de livros, o algoritmo Gemini 2.5 reproduziu 76,8% do texto de “Harry Potter e a Pedra Filosofal” com alta precisão, enquanto o Grok 3 gerou 70,3%. Os pesquisadores também conseguiram extrair quase todo o texto do livro “quase literalmente” do Soneto Claude 3.7 da Anthropic, usando consultas que forçaram o algoritmo a ignorar mecanismos de proteção.

Essas descobertas complementam o estudo do ano passado, que mostrou que modelos “abertos”, como o Llama da Meta✴, memorizam grandes porções de alguns livros usados no treinamento. Anteriormente, os especialistas não tinham certeza se os modelos fechados, que normalmente possuem mais proteções contra a geração de conteúdo indesejado, seriam suscetíveis a memorizar as obras com as quais foram treinados.

Os pesquisadores ainda não determinaram por que os modelos de IA memorizam o que está presente em seus dados de treinamento. Também permanece incerto qual parte dos dados de treinamento pode ser refletida nas respostas geradas pela IA às consultas. Essa capacidade de memorização também pode ter sérias implicações em outros setores, como saúde e educação, onde o vazamento de quaisquer dados de treinamento pode levar a problemas de privacidade e confidencialidade.

Especialistas jurídicos acreditam que a capacidade de memorização dos modelos de IA pode potencialmente criar problemas para os desenvolvedores devido à violação de direitos autorais. Isso também pode impactar…Como os algoritmos são treinados e quanto isso custa. “Essas descobertas podem representar um problema para aqueles que afirmam que o modelo de IA não armazena nem reproduz obras protegidas por direitos autorais”, diz Cerys Wyn Davies, sócia da área de propriedade intelectual do escritório de advocacia Pinsent Masons.

O fato de os modelos de IA lembrarem ou não seus dados de treinamento já desempenhou um papel significativo em recentes processos judiciais por violação de direitos autorais. No ano passado, um tribunal dos EUA decidiu que o treinamento dos modelos de IA da Anthropic em certas obras protegidas por direitos autorais constituía “uso justo”, pois o tribunal reconheceu que o algoritmo transforma os dados de origem ao gerar respostas, em vez de repeti-los. No entanto, o tribunal decidiu que armazenar cópias pirateadas das obras “viola irreparavelmente os direitos autorais”, o que posteriormente obrigou a empresa a pagar US$ 1,5 bilhão para encerrar o processo.

Em novembro passado, um tribunal alemão decidiu que a OpenAI havia infringido direitos autorais porque os modelos de IA da empresa memorizavam letras de músicas. O processo, movido por uma associação local que representa compositores, poetas e editores, foi considerado um caso histórico para a União Europeia.

Ao comentar as descobertas do estudo mais recente, a Anthropic afirmou que o método usado para hackear o modelo de IA não é utilizado por usuários comuns. A empresa acrescentou que seus modelos de IA não armazenam cópias de conjuntos de dados específicos, mas aprendem com padrões e relações entre palavras e sequências de caracteres nos dados de treinamento. xAI, OpenAI e Google ainda não se pronunciaram sobre o assunto.

admin

Próximo A IA Gemini quebrou as buscas nas Smart TVs do Google TV. »

Anterior « A ASML acelera a tecnologia EUV para velocidades de quilowatts – a produtividade dos scanners aumentará em 50% em poucos anos.

Deixar comentário

Publicado por

admin

4 meses atrás

Microsoft oficialmente enterrou Windows 10x. As melhores ideias aparecerão no Windows 10 habitual

Postagens recentes

Consoles de jogos

Foram divulgadas as primeiras análises do console portátil MSI Claw 8 EX AI+ com Intel Arc G3: rápido, mas muito caro.

Analistas independentes publicaram seus primeiros testes do novo console portátil para jogos MSI Claw 8…

3 horas atrás

Monitores, projetores, sintonizadores de TV, televisões

A AOC apresentou o vibrante monitor gamer OLED Agon Pro AGP277QKDC, com capacidade de overclock para 720Hz em resolução HD.

A AOC lançou o monitor gamer OLED Agon Pro AGP277QKDC de 27,7 polegadas. O novo…

3 horas atrás

Vírus, cavalos de Troia, vulnerabilidades de software, problemas de segurança

Após uma violação de dados, a Meta interrompeu o monitoramento de todas as atividades dos funcionários para treinamento de IA.

A Meta suspendeu seu programa interno de monitoramento de funcionários, que registrava a atividade do…

3 horas atrás

Telefones celulares, smartphones, comunicações celulares, comunicadores, PDAs

Nada revelará o smartphone Phone (4b) em 7 de julho.

Nada foi confirmado se o primeiro smartphone da série "(b)" será de fato lançado com…

3 horas atrás

Jogos

O brutal jogo de estratégia medieval Stronghold 4 recebeu uma demo gratuita no Steam.

O estúdio britânico Firefly, pertencente à Devolver Digital, anunciou o lançamento de uma demo prometida…

4 horas atrás

Sistemas operacionais

A Microsoft começou a forçar a atualização do Windows 11 para a versão 25H2 em todos os PCs compatíveis.

A Microsoft expandiu discretamente o programa de implantação inteligente do Windows 11 25H2 para incluir…

5 horas atrás

Inteligência artificial recontou Harry Potter e outros livros quase que palavra por palavra — desmascarando o mito do uso justo.

Conteúdo relacionado

Postagens recentes

Foram divulgadas as primeiras análises do console portátil MSI Claw 8 EX AI+ com Intel Arc G3: rápido, mas muito caro.

A AOC apresentou o vibrante monitor gamer OLED Agon Pro AGP277QKDC, com capacidade de overclock para 720Hz em resolução HD.

Após uma violação de dados, a Meta interrompeu o monitoramento de todas as atividades dos funcionários para treinamento de IA.

Nada revelará o smartphone Phone (4b) em 7 de julho.

O brutal jogo de estratégia medieval Stronghold 4 recebeu uma demo gratuita no Steam.

A Microsoft começou a forçar a atualização do Windows 11 para a versão 25H2 em todos os PCs compatíveis.