Todos os principais modelos de linguagem de IA são infratores de direitos autorais, e GPT-4 é o pior

A empresa de pesquisa de IA Patronus AI, fundada por ex-funcionários da Meta✴, examinou com que frequência os principais modelos de linguagem de grande porte (LLMs) criam conteúdo que viola direitos autorais. A empresa testou o GPT-4 da OpenAI, o Claude 2 da Anthropic, o Llama 2 da Meta✴ e o Mixtral da Mistral AI, comparando as respostas do modelo com textos de livros populares. O “líder” foi o modelo GPT-4, que produziu em média textos protegidos por direitos autorais em 44% das solicitações.

Fonte da imagem: Pixabay

Para coincidir com o lançamento de sua nova ferramenta CopyrightCatcher, a Patronus AI divulgou os resultados de um teste projetado para demonstrar com que frequência quatro modelos líderes de IA respondem às consultas dos usuários usando texto protegido por direitos autorais.

De acordo com um estudo publicado pela Patronus AI, nenhum livro popular está imune à violação de direitos autorais pelos principais modelos de IA. “Encontramos conteúdo protegido por direitos autorais em todos os modelos que avaliamos, tanto de código aberto quanto fechado”, disse Rebecca Qian, cofundadora e CTO da Patronus AI. Ela observou que o GPT-4 da OpenAI, talvez o modelo mais poderoso e popular, produz conteúdo protegido por direitos autorais em resposta a 44% das solicitações.

A Patronus testou seus modelos de IA usando livros protegidos por direitos autorais dos EUA, selecionando títulos populares do catálogo Goodreads. Os pesquisadores desenvolveram 100 pistas diferentes que poderiam ser consideradas provocativas. Em particular, perguntaram à modelo sobre o conteúdo do primeiro parágrafo do livro e pediram à modelo que continuasse o texto após uma citação do romance. Além disso, os modelos deveriam complementar o texto dos livros com base no título.

O modelo GPT-4 teve pior desempenho em termos de reprodução de conteúdo protegido por direitos autorais e foi “menos cauteloso” do que outros. Quando solicitada a continuar o texto, em 60% dos casos ela forneceu trechos inteiros do livro e exibiu o primeiro parágrafo do livro em resposta a cada quatro solicitações.

Claude 2, da Anthropic, mostrou-se mais difícil de enganar – quando solicitado a continuar o texto, produziu conteúdo protegido por direitos autorais apenas 16% das vezes e nunca retornou um trecho do início do livro como resposta. Ao mesmo tempo, Claude 2 informou aos pesquisadores que se tratava de um assistente de IA que não tinha acesso a livros protegidos por direitos autorais, mas em alguns casos ainda fornecia as linhas iniciais de um romance ou um resumo do início do livro.

O modelo Mixtral de Mistral continuou o primeiro parágrafo do livro 38% das vezes, mas apenas 6% das vezes continuou a frase de consulta com um trecho do livro. O Llama 2 do Meta✴ respondeu com conteúdo protegido por direitos autorais a 10% das consultas do primeiro parágrafo e 10% das consultas de conclusão de frase.

Fonte da imagem: Patronus AI

«No geral, o fato de que todos os modelos de linguagem produziram conteúdo protegido por direitos autorais literalmente foi realmente incrível”, disse Anand Kannappan, cofundador e CEO da Patronus AI, ex-Meta✴ Reality Labs. “Acho que quando começamos a montar isso, não percebíamos que seria relativamente fácil criar esse tipo de conteúdo literal.”

As conclusões do estudo são mais relevantes à medida que surgem tensões entre criadores e editores de modelos de IA, autores e artistas sobre o uso de materiais protegidos por direitos autorais para o ensino de LLM. Basta lembrar o processo de grande repercussão entre o The New York Times e a OpenAI, que alguns analistas consideram um ponto de viragem para a indústria. O processo multibilionário da agência de notícias, aberto em dezembro, busca responsabilizar a Microsoft e a OpenAI por infringirem sistematicamente os direitos autorais da publicação ao treinar modelos de IA.

A posição da OpenAI é que “como os direitos autorais hoje abrangem praticamente todas as formas de expressão humana, incluindo postagens em blogs, fotografias, postagens em fóruns, trechos de código e documentos governamentais, seria impossível treinar os principais modelos de IA atuais sem usar materiais protegidos por direitos autorais”.

De acordo com a OpenAI, limitar os dados de formação a livros e desenhos de domínio público criados há mais de um século pode ser uma experiência interessante, mas não fornecerá sistemas de IA que satisfaçam as necessidades do presente e do futuro.

avalanche

Postagens recentes

Intel lançou chipsets B860 e H810 para placas de baixo custo para Core Ultra 200

A Intel lançou oficialmente os chipsets B860 e H810, projetados para uso em placas-mãe relativamente…

4 horas atrás

A Asus apresentou a placa de overclocking ROG Crosshair X870E Apex – esta é a primeira placa Apex para Ryzen

A Asus apresentou a placa-mãe ROG Crosshair X870E Apex. Esta é a primeira placa-mãe desta…

5 horas atrás

Resultados de 2024: câmeras

O primeiro pensamento ao abordar o material final nas câmeras após uma pausa de dois…

6 horas atrás

AMD lançou chips móveis Ryzen AI 300 e o novo e antigo Ryzen 200 para laptops de baixo custo

Hoje, a AMD expandiu significativamente sua linha de processadores móveis, introduzindo duas novas séries que…

6 horas atrás