Durante quase um ano e meio, a Microsoft recomendou o treinamento de IA usando livros pirateados de Harry Potter.

A Microsoft removeu recentemente uma postagem em seu blog que, segundo críticos, incentivava o uso ilegal dos livros de Harry Potter para treinar modelos de IA. De acordo com Pooja Kamath, gerente sênior de produtos da Microsoft, que publicou a postagem em novembro de 2024, “usar um conjunto de dados conhecido”, como os livros de Harry Potter, “para treinar IA teria boa aceitação entre um público amplo”.

Kamath escreveu esta postagem para promover um novo recurso da Microsoft que, segundo o post do blog, facilitava “adicionar recursos de IA generativa aos seus próprios aplicativos com apenas algumas linhas de código usando o Azure SQL DB, LangChain e LLM”. Os livros de Harry Potter são “uma das séries mais famosas e amadas da história da literatura”. Kamath recomendou o uso de grandes modelos de linguagem treinados com esses livros para criar um sistema que forneça “respostas contextuais” e gere “novas fanfics de Harry Potter” que “certamente encantarão os fãs”.

Para ajudar os clientes da Microsoft a implementar essa proposta, o blog incluiu um link para um conjunto de dados do Kaggle contendo todos os sete livros de Harry Potter, que estava disponível online há anos e erroneamente rotulado como “domínio público”. Aparentemente, esse conjunto de dados passou despercebido devido ao seu baixo número de downloads (cerca de 10.000) e não chamou a atenção de J.K. Rowling. Ele foi prontamente removido ontem.

A postagem de Kamath no blog da Microsoft foi publicada há quase um ano e meio. Naquela época, as empresas de IA começavam a enfrentar processos judiciais por modelos de IA que supostamente infringiam direitos autorais ao serem treinados com material pirateado e reproduzirem obras palavra por palavra.

Apesar disso, a postagem no blog recomendava que os usuários treinassem seus próprios modelos de IA com o conjunto de dados de Harry Potter e, em seguida, carregassem os arquivos de texto no Armazenamento de Blobs do Azure. Ela fornecia exemplos de modelos baseados no conjunto de dados, que a Microsoft aparentemente carregou no Armazenamento de Blobs do Azure, e que incluía apenas…O primeiro livro, Harry Potter e a Pedra Filosofal.

Ao treinar grandes modelos de linguagem, os fãs de Harry Potter poderiam criar sistemas de perguntas e respostas capazes de extrair trechos relevantes dos livros. Um exemplo de consulta foi “Lanches do Mundo Bruxo”, que recuperou uma passagem de A Pedra Filosofal onde Harry admira guloseimas estranhas como os Doces de Todos os Sabores de Bertie Bott e os Sapos de Chocolate. Outra pergunta foi: “O que Harry sentiu quando descobriu que era um bruxo?”

Fonte da imagem: blog da Microsoft excluído

Kamath propôs um caso de uso ainda mais interessante para os usuários: criar fanfics para “explorar novas aventuras” e “até mesmo criar finais alternativos”. Ela acreditava que tal modelo poderia pesquisar rapidamente um conjunto de dados em busca de trechos contextualmente semelhantes que poderiam ser usados ​​para criar novas histórias alinhadas com narrativas existentes e incorporar elementos dos fragmentos descobertos.

Como exemplo, Kamath apresentou uma história gerada por IA na qual Harry conhece um novo amigo no trem para Hogwarts, que lhe conta sobre o suporte vetorial integrado da Microsoft em SQL “no mundo trouxa”. Baseando-se em trechos de A Pedra Filosofal, onde Harry aprende sobre Quadribol e conhece Hermione Granger, a fanfic retrata um garoto convencendo Harry dos benefícios do “incrível” novo recurso da Microsoft.

O recurso foi comparado a um feitiço que encontra instantaneamente o que ele procura entre milhares de possibilidades e é ideal para aprendizado de máquina, IA e sistemas de recomendação. Kamath também gerou uma imagem de Harry com seu novo amigo, apresentando o logotipo da Microsoft.

Especialistas acreditam que esse uso de obras protegidas por direitos autorais pode irritar os detentores desses direitos, já que fanfics frequentemente se apropriam de elementos expressivos, enredos e sequências. Se a Microsoft algum dia for questionada sobre se usou conscientemente livros pirateados para treinar seus modelos, um tribunal poderá rejeitar o argumento do uso justo.

Acredita-se queAs ações da Microsoft podem ser consideradas uso justo, visto que o guia de treinamento tinha fins educacionais. No entanto, a Microsoft pode ser considerada culpada de facilitar a violação de direitos autorais, uma vez que o blog permaneceu ativo por um ano.

admin

Compartilhar
Publicado por
admin

Postagens recentes

SUBSTITUÍDO – Amor e Ódio em Phenix City. Crítica

Intel Core i5-8400 2.8 GHz / AMD Ryzen 5 2600 3.4 GHz, 16 GB de…

1 hora atrás

SUBSTITUÍDO — Amor e Ódio em Phenix City. Análise / Jogos

Intel Core i5-8400 2.8 GHz / AMD Ryzen 5 2600 3.4 GHz, 16 GB de…

1 hora atrás

A ASRock apresenta o poderoso sistema de refrigeração líquida WS 360D para processadores AMD Threadripper e Intel Xeon W.

A ASRock lançou no Japão os sistemas de refrigeração WS TR 360D, que não necessitam…

2 horas atrás

Um britânico construiu uma motocicleta movida a vapor que se tornou a segunda moto mais rápida do mundo.

No evento Festival of Power, na vila britânica de Podington, Bedfordshire, na pista de aceleração…

4 horas atrás

Astrônomos observaram, pela primeira vez, uma explosão de supernova inexplicável, o que exige uma nova teoria.

Astrônomos podem ter descoberto um novo tipo de explosão cósmica, apelidada de "superkilonova". Este evento,…

7 horas atrás

Um entusiasta de hardware modificou a VBIOS de uma placa gráfica S3 antiga para tornar o preto verdadeiramente preto.

Um criador de conteúdo do canal do YouTube Bits und Bolts descobriu uma falha em…

7 horas atrás