Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

Durante quase um ano e meio, a Microsoft recomendou o treinamento de IA usando livros pirateados de Harry Potter.

A Microsoft removeu recentemente uma postagem em seu blog que, segundo críticos, incentivava o uso ilegal dos livros de Harry Potter para treinar modelos de IA. De acordo com Pooja Kamath, gerente sênior de produtos da Microsoft, que publicou a postagem em novembro de 2024, “usar um conjunto de dados conhecido”, como os livros de Harry Potter, “para treinar IA teria boa aceitação entre um público amplo”.

Kamath escreveu esta postagem para promover um novo recurso da Microsoft que, segundo o post do blog, facilitava “adicionar recursos de IA generativa aos seus próprios aplicativos com apenas algumas linhas de código usando o Azure SQL DB, LangChain e LLM”. Os livros de Harry Potter são “uma das séries mais famosas e amadas da história da literatura”. Kamath recomendou o uso de grandes modelos de linguagem treinados com esses livros para criar um sistema que forneça “respostas contextuais” e gere “novas fanfics de Harry Potter” que “certamente encantarão os fãs”.

Para ajudar os clientes da Microsoft a implementar essa proposta, o blog incluiu um link para um conjunto de dados do Kaggle contendo todos os sete livros de Harry Potter, que estava disponível online há anos e erroneamente rotulado como “domínio público”. Aparentemente, esse conjunto de dados passou despercebido devido ao seu baixo número de downloads (cerca de 10.000) e não chamou a atenção de J.K. Rowling. Ele foi prontamente removido ontem.

A postagem de Kamath no blog da Microsoft foi publicada há quase um ano e meio. Naquela época, as empresas de IA começavam a enfrentar processos judiciais por modelos de IA que supostamente infringiam direitos autorais ao serem treinados com material pirateado e reproduzirem obras palavra por palavra.

Apesar disso, a postagem no blog recomendava que os usuários treinassem seus próprios modelos de IA com o conjunto de dados de Harry Potter e, em seguida, carregassem os arquivos de texto no Armazenamento de Blobs do Azure. Ela fornecia exemplos de modelos baseados no conjunto de dados, que a Microsoft aparentemente carregou no Armazenamento de Blobs do Azure, e que incluía apenas…O primeiro livro, Harry Potter e a Pedra Filosofal.

Ao treinar grandes modelos de linguagem, os fãs de Harry Potter poderiam criar sistemas de perguntas e respostas capazes de extrair trechos relevantes dos livros. Um exemplo de consulta foi “Lanches do Mundo Bruxo”, que recuperou uma passagem de A Pedra Filosofal onde Harry admira guloseimas estranhas como os Doces de Todos os Sabores de Bertie Bott e os Sapos de Chocolate. Outra pergunta foi: “O que Harry sentiu quando descobriu que era um bruxo?”

Fonte da imagem: blog da Microsoft excluído

Kamath propôs um caso de uso ainda mais interessante para os usuários: criar fanfics para “explorar novas aventuras” e “até mesmo criar finais alternativos”. Ela acreditava que tal modelo poderia pesquisar rapidamente um conjunto de dados em busca de trechos contextualmente semelhantes que poderiam ser usados para criar novas histórias alinhadas com narrativas existentes e incorporar elementos dos fragmentos descobertos.

Como exemplo, Kamath apresentou uma história gerada por IA na qual Harry conhece um novo amigo no trem para Hogwarts, que lhe conta sobre o suporte vetorial integrado da Microsoft em SQL “no mundo trouxa”. Baseando-se em trechos de A Pedra Filosofal, onde Harry aprende sobre Quadribol e conhece Hermione Granger, a fanfic retrata um garoto convencendo Harry dos benefícios do “incrível” novo recurso da Microsoft.

O recurso foi comparado a um feitiço que encontra instantaneamente o que ele procura entre milhares de possibilidades e é ideal para aprendizado de máquina, IA e sistemas de recomendação. Kamath também gerou uma imagem de Harry com seu novo amigo, apresentando o logotipo da Microsoft.

Especialistas acreditam que esse uso de obras protegidas por direitos autorais pode irritar os detentores desses direitos, já que fanfics frequentemente se apropriam de elementos expressivos, enredos e sequências. Se a Microsoft algum dia for questionada sobre se usou conscientemente livros pirateados para treinar seus modelos, um tribunal poderá rejeitar o argumento do uso justo.

Acredita-se queAs ações da Microsoft podem ser consideradas uso justo, visto que o guia de treinamento tinha fins educacionais. No entanto, a Microsoft pode ser considerada culpada de facilitar a violação de direitos autorais, uma vez que o blog permaneceu ativo por um ano.

admin

Próximo A NASA finalmente concluiu um ensaio geral na água para o lançamento do foguete lunar SLS – agora é hora de começar. »

Anterior « O USDT está prestes a sofrer sua maior queda mensal desde o colapso da FTX.

Deixar comentário

Publicado por

admin

4 meses atrás

Postagens recentes

Jogos

“Não consigo esperar sete anos por isso”: o ambicioso mod Silksoul para Hollow Knight: Silksong impressiona os fãs com seu primeiro trailer.

Lançado em 2025, Hollow Knight: Silksong, do estúdio australiano Team Cherry, surpreendeu pelo tamanho considerável…

24 minutos atrás

Vírus, cavalos de Troia, vulnerabilidades de software, problemas de segurança

A Apple acelerou as atualizações de segurança em função da crescente ameaça da inteligência artificial.

Como observado pelo 9to5Mac, nesta semana a Apple lançou as atualizações 26.5.2 do iOS, iPadOS…

24 minutos atrás

Sistemas operacionais

A jornada da Huawei rumo a um sistema operacional sem Android está ganhando força: o HarmonyOS 6 já foi instalado em mais de 70 milhões de dispositivos.

Na primeira quinzena deste mês, foi anunciado que o sistema operacional HarmonyOS 6 da Huawei…

24 minutos atrás

Redes e comunicações

A China acelerou as velocidades da fibra óptica para 51,3 Tbps em uma distância de mais de 200 km sem repetidores.

Em 16 de junho, a Yangtze Optical Fiber and Cable Joint Stock Limited Company (YOFC),…

2 horas atrás

Jogos

State of Decay 3 pode não ser lançado – a Undead Labs corre o risco de fechar as portas.

A reformulação dos negócios do Xbox, iniciada pela CEO Asha Sharma, ameaça resultar em demissões…

2 horas atrás

Telefones celulares, smartphones, comunicações celulares, comunicadores, PDAs

Segredos da Apple vazados para o mundo: Hackers publicaram imagens do iPhone 18 Pro e outros dados roubados da Tata Electronics.

Com o anúncio do iPhone 18 Pro da Apple em setembro se aproximando, é natural…

3 horas atrás