A Nvidia baixou vídeos em massa do YouTube e de outras plataformas para treinar seus modelos de IA, ignorando questões de direitos autorais. A empresa justifica o uso de vídeos de outras pessoas para treinar IA citando o “espírito da lei de direitos autorais”, mas as plataformas discordam.
De acordo com documentos internos e correspondência obtida pela 404 Media, a Nvidia coletou vídeos “durante a vida de uma pessoa” de vários recursos da Internet. De acordo com um ex-funcionário da Nvidia que desejou permanecer anônimo, os trabalhadores foram encarregados de baixar vídeos do Netflix e do YouTube e de outras plataformas para treinar um modelo de IA projetado para gerar o mundo tridimensional do Omniverse, sistemas de carros autônomos e futuros “humanos digitais”. “produtos. O projeto tem o codinome Cosmos.
Os funcionários da empresa usaram software gratuito e de código aberto yt-dlp e máquinas virtuais que atualizam endereços IP para evitar bloqueios do YouTube para download em massa de conteúdo. O objetivo era obter informações equivalentes a “80 anos de vida” todos os dias.
E-mails revisados pela 404 Media mostram que os gerentes de projeto discutiram o uso de 20 a 30 máquinas virtuais na Amazon Web Services para carregar um volume tão grande de vídeos por dia. Quando os funcionários levantaram questões sobre a legalidade do uso de conteúdo protegido por direitos autorais, a administração garantiu-lhes que a decisão havia sido aprovada ao mais alto nível da empresa.
Em uma mensagem à 404 Media, um porta-voz da Nvidia disse que a empresa respeita os direitos de todos os criadores de conteúdo e acredita que seus modelos e esforços de pesquisa “cumprem totalmente a letra e o espírito da lei de direitos autorais”.
«A lei de direitos autorais protege o produto final, mas não os fatos, ideias, dados ou informações. Qualquer pessoa pode aprender factos, ideias, dados ou informações de outra fonte e utilizá-los para criar o seu próprio produto. O uso justo também protege a capacidade de usar uma obra para um propósito transformador, como treinar um modelo de IA”, afirma a empresa.
No entanto, YouTube e Netflix enfatizaram que tal uso de seus conteúdos viola os termos de serviço das plataformas. Um representante da Netflix também disse à 404 Media que eles não têm acordo com a Nvidia para fornecer conteúdo, e os termos de uso da plataforma não permitem web scraping, que é usado por scripts de servidor para realizar downloads automaticamente.