Uma das fontes de dados para treinar sistemas generativos de inteligência artificial são os recursos da web disponíveis publicamente. A Apple deu a seus proprietários a oportunidade de optar por não coletar dados para treinar o sistema Apple Intelligence, e muitos dos maiores recursos aproveitaram essa oportunidade. Isso inclui Facebook✴ e Instagram✴, bem como os principais meios de comunicação e notícias, incluindo o New York Times e o The Atlantic.
Nos últimos anos, a Apple tem usado um rastreador da web chamado AppleBot, que usa os dados coletados para treinar o Siri e o mecanismo de busca Spotlight. E, mais recentemente, a empresa conectou-se ao AppleBot e ao Apple Intelligence. Esta é uma prática controversa, uma vez que a IA moderna toma liberdade com materiais protegidos por direitos autorais – em áreas restritas onde não há muito material, os sistemas citam parágrafos inteiros quase inalterados.
A Apple afirma que coleta informações de forma ética, filtrando dados pessoais, usando apenas materiais licenciados e dados publicamente disponíveis provenientes do scanner AppleBot. Para dar aos webmasters a oportunidade de se recusarem a coletar informações apenas para treinamento em IA, a empresa usou o pseudônimo Applebot-Extended – a indexação de pesquisa padrão permanece em vigor quando esse pseudônimo é proibido.
A recusa é realizada inserindo a diretiva apropriada no arquivo robots.txt disponível publicamente nos recursos da web, o que significa que qualquer pessoa tem a oportunidade de ver qual editor bloqueou o acesso ao Apple Intelligence. Isso foi feito pelo Facebook✴, Instagram✴, Craigslist, Tumblr, New York Times, Financial Times, The Atlantic, Vox Media, USA Today Network e Condé Nast, revista Wired estabelecida. Pouco mais de um quarto dos principais sites de notícias americanos (294 de 1.167) recusaram-se a permitir a entrada da IA da Apple em seus sites, disse o jornalista Ben Welsh.
De acordo com informações não confirmadas, a Apple celebrou acordos com algumas empresas de mídia, pagando-lhes pelo direito de usar seus materiais para treinar IA. Provavelmente, estas considerações estão a atrasar outros recursos – estão simplesmente à espera de dinheiro.