Todos os principais modelos de linguagem de IA são infratores de direitos autorais, e GPT-4 é o pior

A empresa de pesquisa de IA Patronus AI, fundada por ex-funcionários da Meta✴, examinou com que frequência os principais modelos de linguagem de grande porte (LLMs) criam conteúdo que viola direitos autorais. A empresa testou o GPT-4 da OpenAI, o Claude 2 da Anthropic, o Llama 2 da Meta✴ e o Mixtral da Mistral AI, comparando as respostas do modelo com textos de livros populares. O “líder” foi o modelo GPT-4, que produziu em média textos protegidos por direitos autorais em 44% das solicitações.

Fonte da imagem: Pixabay

Para coincidir com o lançamento de sua nova ferramenta CopyrightCatcher, a Patronus AI divulgou os resultados de um teste projetado para demonstrar com que frequência quatro modelos líderes de IA respondem às consultas dos usuários usando texto protegido por direitos autorais.

De acordo com um estudo publicado pela Patronus AI, nenhum livro popular está imune à violação de direitos autorais pelos principais modelos de IA. “Encontramos conteúdo protegido por direitos autorais em todos os modelos que avaliamos, tanto de código aberto quanto fechado”, disse Rebecca Qian, cofundadora e CTO da Patronus AI. Ela observou que o GPT-4 da OpenAI, talvez o modelo mais poderoso e popular, produz conteúdo protegido por direitos autorais em resposta a 44% das solicitações.

A Patronus testou seus modelos de IA usando livros protegidos por direitos autorais dos EUA, selecionando títulos populares do catálogo Goodreads. Os pesquisadores desenvolveram 100 pistas diferentes que poderiam ser consideradas provocativas. Em particular, perguntaram à modelo sobre o conteúdo do primeiro parágrafo do livro e pediram à modelo que continuasse o texto após uma citação do romance. Além disso, os modelos deveriam complementar o texto dos livros com base no título.

O modelo GPT-4 teve pior desempenho em termos de reprodução de conteúdo protegido por direitos autorais e foi “menos cauteloso” do que outros. Quando solicitada a continuar o texto, em 60% dos casos ela forneceu trechos inteiros do livro e exibiu o primeiro parágrafo do livro em resposta a cada quatro solicitações.

Claude 2, da Anthropic, mostrou-se mais difícil de enganar – quando solicitado a continuar o texto, produziu conteúdo protegido por direitos autorais apenas 16% das vezes e nunca retornou um trecho do início do livro como resposta. Ao mesmo tempo, Claude 2 informou aos pesquisadores que se tratava de um assistente de IA que não tinha acesso a livros protegidos por direitos autorais, mas em alguns casos ainda fornecia as linhas iniciais de um romance ou um resumo do início do livro.

O modelo Mixtral de Mistral continuou o primeiro parágrafo do livro 38% das vezes, mas apenas 6% das vezes continuou a frase de consulta com um trecho do livro. O Llama 2 do Meta✴ respondeu com conteúdo protegido por direitos autorais a 10% das consultas do primeiro parágrafo e 10% das consultas de conclusão de frase.

Fonte da imagem: Patronus AI

«No geral, o fato de que todos os modelos de linguagem produziram conteúdo protegido por direitos autorais literalmente foi realmente incrível”, disse Anand Kannappan, cofundador e CEO da Patronus AI, ex-Meta✴ Reality Labs. “Acho que quando começamos a montar isso, não percebíamos que seria relativamente fácil criar esse tipo de conteúdo literal.”

As conclusões do estudo são mais relevantes à medida que surgem tensões entre criadores e editores de modelos de IA, autores e artistas sobre o uso de materiais protegidos por direitos autorais para o ensino de LLM. Basta lembrar o processo de grande repercussão entre o The New York Times e a OpenAI, que alguns analistas consideram um ponto de viragem para a indústria. O processo multibilionário da agência de notícias, aberto em dezembro, busca responsabilizar a Microsoft e a OpenAI por infringirem sistematicamente os direitos autorais da publicação ao treinar modelos de IA.

A posição da OpenAI é que “como os direitos autorais hoje abrangem praticamente todas as formas de expressão humana, incluindo postagens em blogs, fotografias, postagens em fóruns, trechos de código e documentos governamentais, seria impossível treinar os principais modelos de IA atuais sem usar materiais protegidos por direitos autorais”.

De acordo com a OpenAI, limitar os dados de formação a livros e desenhos de domínio público criados há mais de um século pode ser uma experiência interessante, mas não fornecerá sistemas de IA que satisfaçam as necessidades do presente e do futuro.

avalanche

Postagens recentes

Estudo: 9 em cada 10 dicas financeiras de blogueiros foram consideradas ruins – mas as pessoas ainda ficaram satisfeitas.

Segundo um estudo realizado no Reino Unido, os conselhos de influenciadores financeiros nas redes sociais…

2 horas atrás

Agora você pode programar em qualquer lugar: o ChatGPT para smartphones agora tem o Codex.

A OpenAI aprimorou o aplicativo móvel ChatGPT para desenvolvedores que trabalham em qualquer lugar, adicionando…

2 horas atrás

A Samsung iniciou cortes emergenciais na produção em antecipação a uma greve em massa.

A Samsung Electronics está se preparando para uma greve geral de 18 dias, planejada pelos…

2 horas atrás

A Cerebras realizou o maior IPO deste ano, com as ações da concorrente da Nvidia disparando 68% no primeiro dia.

As ações da Cerebras Systems, que começaram a ser negociadas ontem na bolsa Nasdaq, fecharam…

2 horas atrás

A Hobot lançou o robô de limpeza de janelas Hobot SP10, equipado com raspadores móveis para resultados impecáveis.

A HOBOT lançou o robô de limpeza de janelas Hobot SP10, o primeiro do setor…

2 horas atrás

A JCB apresenta o Hydromax, um caminhão de corrida movido a hidrogênio com 1.200 cavalos de potência, projetado para quebrar recordes.

Recentemente, a empresa britânica JCB apresentou o Hydromax, um veículo de alta velocidade movido a…

2 horas atrás