Os advogados da Meta✴ alertaram a empresa contra o uso de cópias piratas de livros para treinar inteligência artificial, mas ela o fez mesmo assim, de acordo com um processo de direitos autorais movido contra a empresa no verão passado, relata a Reuters.
No dia anterior, ações judiciais contra a Meta✴ foram consolidadas pela comediante Sarah Silverman, pelo ganhador do Prêmio Pulitzer Michael Chabon e vários outros autores que afirmam que a empresa usou seus trabalhos sem permissão para treinar o grande modelo de linguagem Llama. Os documentos mostram registros de bate-papo em um servidor Discord nos quais um membro, o pesquisador Meta✴ Tim Dettmers, descreve sua discussão com o departamento jurídico da empresa sobre se seria legal treinar IA em cópias digitais de livros.
Os advogados de Meta✴ disseram a ele que “os dados não podem ser usados [para treinar o modelo] ou os modelos não podem ser publicados se forem treinados com base nesses dados”. Mas a empresa admitiu que ainda utilizou esses dados para treinar a primeira versão do Llama. Os interlocutores de Dettmers, no entanto, insistem que o uso de literatura protegida por direitos autorais deve estar “sujeito ao uso justo”, uma doutrina jurídica nos Estados Unidos que, em certos casos, permite o uso de obras protegidas por direitos autorais sem o consentimento de seus autores.
Este ano, as empresas de tecnologia foram atingidas por vários processos judiciais de vários criadores, acusando desenvolvedores de IA de usar ilegalmente obras protegidas por direitos autorais. A sua vitória poderá representar uma ameaça para a nascente indústria de IA generativa, uma vez que o custo do desenvolvimento de modelos aumentará devido à necessidade de pagar royalties. A Lei de IA pré-aprovada da Europa exige que os desenvolvedores divulguem os dados que usam para treinar seus modelos.
Em fevereiro, Meta✴ revelou a primeira versão do grande modelo de linguagem Llama e revelou o conjunto de dados usados para treiná-lo, incluindo um bloco que supostamente contém 196.640 livros. No verão passado, a segunda versão do Llama foi apresentada, e o Meta✴ não divulgou mais quais dados foram usados para treiná-lo. Empresas que executam serviços com menos de 700 milhões de usuários mensais podem usar o Llama 2 gratuitamente.