Vários gigantes da tecnologia, incluindo Apple, Anthropic, Nvidia e Salesforce, treinaram seus modelos de inteligência artificial em vídeos do YouTube sem o consentimento do proprietário da plataforma Google e dos autores dos vídeos, descobriu um relatório investigativo do Proof News.
O suposto infrator de direitos autorais foi a EleutherAI, uma organização sem fins lucrativos que, segundo seu próprio comunicado, ajuda desenvolvedores a treinar modelos de IA. Seu público-alvo não são gigantes da tecnologia, mas pequenos desenvolvedores e cientistas. A EleutherAI lançou o conjunto de dados Pile, uma parte significativa do qual está disponível e aberta a qualquer pessoa na Internet – tudo que você precisa são os recursos para baixá-lo, armazená-lo e processá-lo.
O conjunto de dados do Pile incluía legendas para 173.536 vídeos do YouTube que foram baixados de mais de 48 mil canais – os arquivos de legenda são, na verdade, transcrições de vídeos, e as regras da plataforma do YouTube proíbem o download de seus materiais sem permissão. No entanto, Apple, Nvidia e Salesforce – empresas com capitalizações de centenas de bilhões e trilhões de dólares – admitiram em seus artigos científicos que usaram Pile para treinar IA. A Apple, em particular, usou o Pile para treinar modelos OpenELM lançados em abril, e já em junho falou sobre novos recursos de IA que aparecerão no iPhone e Mac.
Se houve de facto violação de direitos de autor neste incidente, foi a organização sem fins lucrativos EleutherAI que o fez em primeiro lugar, e os gigantes da tecnologia podem ter sido utilizadores genuínos do conjunto de dados disponível publicamente. Este exemplo mostra mais uma vez que o domínio da formação em IA ainda não está bem estabelecido do ponto de vista jurídico.