A Microsoft removeu recentemente uma postagem em seu blog que, segundo críticos, incentivava o uso ilegal dos livros de Harry Potter para treinar modelos de IA. De acordo com Pooja Kamath, gerente sênior de produtos da Microsoft, que publicou a postagem em novembro de 2024, “usar um conjunto de dados conhecido”, como os livros de Harry Potter, “para treinar IA teria boa aceitação entre um público amplo”.
Kamath escreveu esta postagem para promover um novo recurso da Microsoft que, segundo o post do blog, facilitava “adicionar recursos de IA generativa aos seus próprios aplicativos com apenas algumas linhas de código usando o Azure SQL DB, LangChain e LLM”. Os livros de Harry Potter são “uma das séries mais famosas e amadas da história da literatura”. Kamath recomendou o uso de grandes modelos de linguagem treinados com esses livros para criar um sistema que forneça “respostas contextuais” e gere “novas fanfics de Harry Potter” que “certamente encantarão os fãs”.
Para ajudar os clientes da Microsoft a implementar essa proposta, o blog incluiu um link para um conjunto de dados do Kaggle contendo todos os sete livros de Harry Potter, que estava disponível online há anos e erroneamente rotulado como “domínio público”. Aparentemente, esse conjunto de dados passou despercebido devido ao seu baixo número de downloads (cerca de 10.000) e não chamou a atenção de J.K. Rowling. Ele foi prontamente removido ontem.
A postagem de Kamath no blog da Microsoft foi publicada há quase um ano e meio. Naquela época, as empresas de IA começavam a enfrentar processos judiciais por modelos de IA que supostamente infringiam direitos autorais ao serem treinados com material pirateado e reproduzirem obras palavra por palavra.
Apesar disso, a postagem no blog recomendava que os usuários treinassem seus próprios modelos de IA com o conjunto de dados de Harry Potter e, em seguida, carregassem os arquivos de texto no Armazenamento de Blobs do Azure. Ela fornecia exemplos de modelos baseados no conjunto de dados, que a Microsoft aparentemente carregou no Armazenamento de Blobs do Azure, e que incluía apenas…O primeiro livro, Harry Potter e a Pedra Filosofal.
Ao treinar grandes modelos de linguagem, os fãs de Harry Potter poderiam criar sistemas de perguntas e respostas capazes de extrair trechos relevantes dos livros. Um exemplo de consulta foi “Lanches do Mundo Bruxo”, que recuperou uma passagem de A Pedra Filosofal onde Harry admira guloseimas estranhas como os Doces de Todos os Sabores de Bertie Bott e os Sapos de Chocolate. Outra pergunta foi: “O que Harry sentiu quando descobriu que era um bruxo?”
Fonte da imagem: blog da Microsoft excluído
Kamath propôs um caso de uso ainda mais interessante para os usuários: criar fanfics para “explorar novas aventuras” e “até mesmo criar finais alternativos”. Ela acreditava que tal modelo poderia pesquisar rapidamente um conjunto de dados em busca de trechos contextualmente semelhantes que poderiam ser usados para criar novas histórias alinhadas com narrativas existentes e incorporar elementos dos fragmentos descobertos.
Como exemplo, Kamath apresentou uma história gerada por IA na qual Harry conhece um novo amigo no trem para Hogwarts, que lhe conta sobre o suporte vetorial integrado da Microsoft em SQL “no mundo trouxa”. Baseando-se em trechos de A Pedra Filosofal, onde Harry aprende sobre Quadribol e conhece Hermione Granger, a fanfic retrata um garoto convencendo Harry dos benefícios do “incrível” novo recurso da Microsoft.
O recurso foi comparado a um feitiço que encontra instantaneamente o que ele procura entre milhares de possibilidades e é ideal para aprendizado de máquina, IA e sistemas de recomendação. Kamath também gerou uma imagem de Harry com seu novo amigo, apresentando o logotipo da Microsoft.
Especialistas acreditam que esse uso de obras protegidas por direitos autorais pode irritar os detentores desses direitos, já que fanfics frequentemente se apropriam de elementos expressivos, enredos e sequências. Se a Microsoft algum dia for questionada sobre se usou conscientemente livros pirateados para treinar seus modelos, um tribunal poderá rejeitar o argumento do uso justo.
Acredita-se queAs ações da Microsoft podem ser consideradas uso justo, visto que o guia de treinamento tinha fins educacionais. No entanto, a Microsoft pode ser considerada culpada de facilitar a violação de direitos autorais, uma vez que o blog permaneceu ativo por um ano.
Os desenvolvedores do estúdio americano Santa Monica não têm pressa em revelar o futuro dos…
Em entrevista à Variety, o cofundador e CEO da Ubisoft, Yves Guillemot, falou sobre o…
O site Windows Latest noticiou que a Microsoft está adicionando suporte a imagens ao Bloco…
Na manhã de hoje, a NASA concluiu um ensaio geral de dois dias para o…
A capitalização de mercado do USDT, a maior stablecoin do mundo, caiu significativamente neste mês,…
A Microsoft Research e a Salesforce analisaram mais de 200.000 conversas com modelos avançados de…