Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes NeuraisMercado de tecnologia e TI. notícia

Todos os principais modelos de linguagem de IA são infratores de direitos autorais, e GPT-4 é o pior

A empresa de pesquisa de IA Patronus AI, fundada por ex-funcionários da Meta✴, examinou com que frequência os principais modelos de linguagem de grande porte (LLMs) criam conteúdo que viola direitos autorais. A empresa testou o GPT-4 da OpenAI, o Claude 2 da Anthropic, o Llama 2 da Meta✴ e o Mixtral da Mistral AI, comparando as respostas do modelo com textos de livros populares. O “líder” foi o modelo GPT-4, que produziu em média textos protegidos por direitos autorais em 44% das solicitações.

Fonte da imagem: Pixabay

Para coincidir com o lançamento de sua nova ferramenta CopyrightCatcher, a Patronus AI divulgou os resultados de um teste projetado para demonstrar com que frequência quatro modelos líderes de IA respondem às consultas dos usuários usando texto protegido por direitos autorais.

De acordo com um estudo publicado pela Patronus AI, nenhum livro popular está imune à violação de direitos autorais pelos principais modelos de IA. “Encontramos conteúdo protegido por direitos autorais em todos os modelos que avaliamos, tanto de código aberto quanto fechado”, disse Rebecca Qian, cofundadora e CTO da Patronus AI. Ela observou que o GPT-4 da OpenAI, talvez o modelo mais poderoso e popular, produz conteúdo protegido por direitos autorais em resposta a 44% das solicitações.

A Patronus testou seus modelos de IA usando livros protegidos por direitos autorais dos EUA, selecionando títulos populares do catálogo Goodreads. Os pesquisadores desenvolveram 100 pistas diferentes que poderiam ser consideradas provocativas. Em particular, perguntaram à modelo sobre o conteúdo do primeiro parágrafo do livro e pediram à modelo que continuasse o texto após uma citação do romance. Além disso, os modelos deveriam complementar o texto dos livros com base no título.

O modelo GPT-4 teve pior desempenho em termos de reprodução de conteúdo protegido por direitos autorais e foi “menos cauteloso” do que outros. Quando solicitada a continuar o texto, em 60% dos casos ela forneceu trechos inteiros do livro e exibiu o primeiro parágrafo do livro em resposta a cada quatro solicitações.

Claude 2, da Anthropic, mostrou-se mais difícil de enganar – quando solicitado a continuar o texto, produziu conteúdo protegido por direitos autorais apenas 16% das vezes e nunca retornou um trecho do início do livro como resposta. Ao mesmo tempo, Claude 2 informou aos pesquisadores que se tratava de um assistente de IA que não tinha acesso a livros protegidos por direitos autorais, mas em alguns casos ainda fornecia as linhas iniciais de um romance ou um resumo do início do livro.

O modelo Mixtral de Mistral continuou o primeiro parágrafo do livro 38% das vezes, mas apenas 6% das vezes continuou a frase de consulta com um trecho do livro. O Llama 2 do Meta✴ respondeu com conteúdo protegido por direitos autorais a 10% das consultas do primeiro parágrafo e 10% das consultas de conclusão de frase.

Fonte da imagem: Patronus AI

«No geral, o fato de que todos os modelos de linguagem produziram conteúdo protegido por direitos autorais literalmente foi realmente incrível”, disse Anand Kannappan, cofundador e CEO da Patronus AI, ex-Meta✴ Reality Labs. “Acho que quando começamos a montar isso, não percebíamos que seria relativamente fácil criar esse tipo de conteúdo literal.”

As conclusões do estudo são mais relevantes à medida que surgem tensões entre criadores e editores de modelos de IA, autores e artistas sobre o uso de materiais protegidos por direitos autorais para o ensino de LLM. Basta lembrar o processo de grande repercussão entre o The New York Times e a OpenAI, que alguns analistas consideram um ponto de viragem para a indústria. O processo multibilionário da agência de notícias, aberto em dezembro, busca responsabilizar a Microsoft e a OpenAI por infringirem sistematicamente os direitos autorais da publicação ao treinar modelos de IA.

A posição da OpenAI é que “como os direitos autorais hoje abrangem praticamente todas as formas de expressão humana, incluindo postagens em blogs, fotografias, postagens em fóruns, trechos de código e documentos governamentais, seria impossível treinar os principais modelos de IA atuais sem usar materiais protegidos por direitos autorais”.

De acordo com a OpenAI, limitar os dados de formação a livros e desenhos de domínio público criados há mais de um século pode ser uma experiência interessante, mas não fornecerá sistemas de IA que satisfaçam as necessidades do presente e do futuro.

avalanche

Próximo Samsung Galaxy A55 e Galaxy A35 apareceram em imagens oficiais antes da apresentação em 11 de março »

Anterior « A Intel lançará em 14 de março um processador Core i9-14900KS selecionado com frequência de até 6,2 GHz e maior consumo de energia

Deixar comentário

Publicado por

avalanche

2 anos atrás

Postagens recentes

A Ampera imprimiu em 3D um pequeno reator de tório para alimentar centros de dados.

A startup americana Ampera anunciou o desenvolvimento do primeiro módulo de reator nuclear impresso em…

8 horas atrás

Desenvolvimento e fabricação de eletrônicos

A Samsung pretende se tornar uma fabricante líder de chips de IA, incorporando as tecnologias Anthropic e Meta.

A Samsung Electronics está fortalecendo sua posição como um dos principais players no mercado de…

9 horas atrás

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

Em junho, os gastos dos usuários com IA caíram 20% – será que a febre da IA está chegando ao fim?

Analistas registraram uma queda em uma das principais métricas do mercado de IA — o…

11 horas atrás

Telefones celulares, smartphones, comunicações celulares, comunicadores, PDAs

Os novos smartphones dobráveis da Samsung serão entre €100 e €280 mais caros do que seus antecessores.

Informações divulgadas online indicam que os novos produtos da Samsung serão muito mais caros na…

11 horas atrás

Módulos de RAM, cartões de memória, pen drives, leitores de cartões

A escassez de memória refletida nas estatísticas de junho do Steam

A Valve publicou os resultados de sua Pesquisa de Hardware e Software do Steam referente…

11 horas atrás

Espaço

Uma operação para resgatar o observatório espacial Swift da NASA, que está caindo na Terra, foi iniciada.

Em 3 de julho de 2026, às 20h36, horário local (11h36, horário de Moscou), uma…

11 horas atrás

Todos os principais modelos de linguagem de IA são infratores de direitos autorais, e GPT-4 é o pior

Conteúdo relacionado

Postagens recentes

A Ampera imprimiu em 3D um pequeno reator de tório para alimentar centros de dados.

A Samsung pretende se tornar uma fabricante líder de chips de IA, incorporando as tecnologias Anthropic e Meta.

Em junho, os gastos dos usuários com IA caíram 20% – será que a febre da IA ​​está chegando ao fim?

Os novos smartphones dobráveis ​​da Samsung serão entre €100 e €280 mais caros do que seus antecessores.

A escassez de memória refletida nas estatísticas de junho do Steam

Uma operação para resgatar o observatório espacial Swift da NASA, que está caindo na Terra, foi iniciada.

Em junho, os gastos dos usuários com IA caíram 20% – será que a febre da IA está chegando ao fim?

Os novos smartphones dobráveis da Samsung serão entre €100 e €280 mais caros do que seus antecessores.