Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes NeuraisMercado de tecnologia e TI. notícia

Todos os principais modelos de linguagem de IA são infratores de direitos autorais, e GPT-4 é o pior

A empresa de pesquisa de IA Patronus AI, fundada por ex-funcionários da Meta✴, examinou com que frequência os principais modelos de linguagem de grande porte (LLMs) criam conteúdo que viola direitos autorais. A empresa testou o GPT-4 da OpenAI, o Claude 2 da Anthropic, o Llama 2 da Meta✴ e o Mixtral da Mistral AI, comparando as respostas do modelo com textos de livros populares. O “líder” foi o modelo GPT-4, que produziu em média textos protegidos por direitos autorais em 44% das solicitações.

Fonte da imagem: Pixabay

Para coincidir com o lançamento de sua nova ferramenta CopyrightCatcher, a Patronus AI divulgou os resultados de um teste projetado para demonstrar com que frequência quatro modelos líderes de IA respondem às consultas dos usuários usando texto protegido por direitos autorais.

De acordo com um estudo publicado pela Patronus AI, nenhum livro popular está imune à violação de direitos autorais pelos principais modelos de IA. “Encontramos conteúdo protegido por direitos autorais em todos os modelos que avaliamos, tanto de código aberto quanto fechado”, disse Rebecca Qian, cofundadora e CTO da Patronus AI. Ela observou que o GPT-4 da OpenAI, talvez o modelo mais poderoso e popular, produz conteúdo protegido por direitos autorais em resposta a 44% das solicitações.

A Patronus testou seus modelos de IA usando livros protegidos por direitos autorais dos EUA, selecionando títulos populares do catálogo Goodreads. Os pesquisadores desenvolveram 100 pistas diferentes que poderiam ser consideradas provocativas. Em particular, perguntaram à modelo sobre o conteúdo do primeiro parágrafo do livro e pediram à modelo que continuasse o texto após uma citação do romance. Além disso, os modelos deveriam complementar o texto dos livros com base no título.

O modelo GPT-4 teve pior desempenho em termos de reprodução de conteúdo protegido por direitos autorais e foi “menos cauteloso” do que outros. Quando solicitada a continuar o texto, em 60% dos casos ela forneceu trechos inteiros do livro e exibiu o primeiro parágrafo do livro em resposta a cada quatro solicitações.

Claude 2, da Anthropic, mostrou-se mais difícil de enganar – quando solicitado a continuar o texto, produziu conteúdo protegido por direitos autorais apenas 16% das vezes e nunca retornou um trecho do início do livro como resposta. Ao mesmo tempo, Claude 2 informou aos pesquisadores que se tratava de um assistente de IA que não tinha acesso a livros protegidos por direitos autorais, mas em alguns casos ainda fornecia as linhas iniciais de um romance ou um resumo do início do livro.

O modelo Mixtral de Mistral continuou o primeiro parágrafo do livro 38% das vezes, mas apenas 6% das vezes continuou a frase de consulta com um trecho do livro. O Llama 2 do Meta✴ respondeu com conteúdo protegido por direitos autorais a 10% das consultas do primeiro parágrafo e 10% das consultas de conclusão de frase.

Fonte da imagem: Patronus AI

«No geral, o fato de que todos os modelos de linguagem produziram conteúdo protegido por direitos autorais literalmente foi realmente incrível”, disse Anand Kannappan, cofundador e CEO da Patronus AI, ex-Meta✴ Reality Labs. “Acho que quando começamos a montar isso, não percebíamos que seria relativamente fácil criar esse tipo de conteúdo literal.”

As conclusões do estudo são mais relevantes à medida que surgem tensões entre criadores e editores de modelos de IA, autores e artistas sobre o uso de materiais protegidos por direitos autorais para o ensino de LLM. Basta lembrar o processo de grande repercussão entre o The New York Times e a OpenAI, que alguns analistas consideram um ponto de viragem para a indústria. O processo multibilionário da agência de notícias, aberto em dezembro, busca responsabilizar a Microsoft e a OpenAI por infringirem sistematicamente os direitos autorais da publicação ao treinar modelos de IA.

A posição da OpenAI é que “como os direitos autorais hoje abrangem praticamente todas as formas de expressão humana, incluindo postagens em blogs, fotografias, postagens em fóruns, trechos de código e documentos governamentais, seria impossível treinar os principais modelos de IA atuais sem usar materiais protegidos por direitos autorais”.

De acordo com a OpenAI, limitar os dados de formação a livros e desenhos de domínio público criados há mais de um século pode ser uma experiência interessante, mas não fornecerá sistemas de IA que satisfaçam as necessidades do presente e do futuro.

avalanche

Próximo Samsung Galaxy A55 e Galaxy A35 apareceram em imagens oficiais antes da apresentação em 11 de março »

Anterior « A Intel lançará em 14 de março um processador Core i9-14900KS selecionado com frequência de até 6,2 GHz e maior consumo de energia

Deixar comentário

Publicado por

avalanche

2 anos atrás

Todos os principais modelos de linguagem de IA são infratores de direitos autorais, e GPT-4 é o pior

Postagens recentes

Apple revela o smartwatch Watch Ultra 3 com comunicação via satélite e bateria com duração de 42 horas por US$ 799

Apple revela o smartwatch Watch Ultra 3 com comunicação via satélite e bateria com duração de 42 horas por US$ 799

Apple anuncia data de lançamento do iOS 26 com design de vidro para todos os dispositivos compatíveis

Controle sem fio Apple N1 é lançado para Wi-Fi 7 e Bluetooth 6 em novos iPhones

Apple revela alça de ombro para iPhone 17 Air por US$ 59 e outros acessórios de moda

Apple apresenta o smartwatch Watch Series 11 — o mais fino, com 5G e detector de hipertensão por US$ 399

Todos os principais modelos de linguagem de IA são infratores de direitos autorais, e GPT-4 é o pior

Conteúdo relacionado

Postagens recentes

Apple revela o smartwatch Watch Ultra 3 com comunicação via satélite e bateria com duração de 42 horas por US$ 799

Apple revela o smartwatch Watch Ultra 3 com comunicação via satélite e bateria com duração de 42 horas por US$ 799

Apple anuncia data de lançamento do iOS 26 com design de vidro para todos os dispositivos compatíveis

Controle sem fio Apple N1 é lançado para Wi-Fi 7 e Bluetooth 6 em novos iPhones

Apple revela alça de ombro para iPhone 17 Air por US$ 59 e outros acessórios de moda

Apple apresenta o smartwatch Watch Series 11 — o mais fino, com 5G e detector de hipertensão por US$ 399