Foi introduzido um padrão aberto de licenciamento de conteúdo, o Really Simple Licensing (RSL), que permitirá que empresas de mídia definam condições de pagamento para bots que coletam dados para treinar IA. O novo padrão permitirá que editores da web definam os termos de uso de seus trabalhos diretamente no arquivo robots.txt em seus sites. Muitas grandes empresas, incluindo Reddit, Yahoo, Medium, Quora, IGN e People Inc., já anunciaram suporte ao RSL.

Crédito da imagem: RSL
O padrão RSL é baseado no protocolo robots.txt, que permitia que os editores instruíssem os mecanismos de busca sobre quais partes do site eles poderiam ou não acessar. Mas, em vez de simplesmente dizer sim ou não a robôs específicos, os sites agora podem adicionar termos de licenciamento e royalties ao seu arquivo robots.txt. Eles também podem incorporar esses termos em livros, vídeos e conjuntos de dados de treinamento online, pelos quais devem ser remunerados.
O padrão RSL é apoiado pelo recém-formado RSL Collective, um grupo de defesa liderado por Eckart Walther, coautor do padrão Really Simple Syndication (RSS), e Doug Leeds, ex-CEO da IAC Publishing e Ask.com. “O objetivo é criar um novo modelo de negócios escalável para a internet”, disse Walther. “O RSL pega algumas dessas ideias iniciais de RSS e cria uma nova camada para toda a web, onde os direitos de licenciamento e os direitos de compensação são definidos.” O padrão RSL suporta uma variedade de modelos de licenciamento, incluindo os gratuitos. Proprietários de sites podem solicitar que empresas de IA paguem uma assinatura ou cobrem uma taxa por cada rastreamento. Eles também podem introduzir taxas de saída, permitindo que os sites sejam compensados quando um modelo de IA faz referência ao seu trabalho para gerar uma resposta. Bots que rastreiam sites para outros fins, como arquivamento ou inclusão em mecanismos de busca, podem continuar operando normalmente.Várias empresas de mídia, incluindo a Vox Media, a empresa-mãe do The Verge, a News Corp, dona do The Wall Street Journal, e o The New York Times, já fecharam acordos de licenciamento com desenvolvedores individuais de IA, como a OpenAI eO Amazon.RSL Collective visa simplificar o processo, permitindo que qualquer proprietário ou criador de site seja pago por seu trabalho sem ter que negociar vários contratos separados.
Assim como acontece com muitos padrões, o sucesso do RSL depende da adesão dos principais players do setor. Desenvolvedores de IA foram acusados de ignorar arquivos robots.txt, e não há uma maneira fácil de calcular a taxa de uma listagem sem a contribuição deles. O RSL Collective aposta que um grupo dos maiores editores da web tornará o padrão mais atraente para adoção. “Nosso trabalho é chegar lá e convencer um grande grupo de pessoas a dizer que isso é do seu interesse. É eficaz porque você pode negociar com todos ao mesmo tempo e é juridicamente vinculativo porque, se você não o fizer, estará violando tudo”, diz Leeds.
O padrão RSL em si não pode bloquear bots de visitar um site, ao contrário do sistema “pay to crawl” da Cloudflare. O RSL Collective está atualmente trabalhando com a rede de distribuição de conteúdo Fastly para permitir que bots de IA acessem sites apenas se eles concordarem com as políticas de licenciamento. Fastly é “o segurança na porta do clube, e eles não deixam ninguém entrar sem um documento de identidade válido”, explicou Leeds.
Leeds acredita que a RSL Collective também poderia legalmente impor licenças, o que, segundo ele, permitiria que “todos na organização de direitos coletivos participassem do combate a qualquer violação” e compartilhassem os custos legais. Ele compara a RSL a organizações de direitos digitais existentes, como o grupo de direitos musicais ASCAP, que cobra taxas de licenciamento.taxas e as distribui entre os participantes.
Embora o licenciamento de música tradicional desfrute de um precedente legal particularmente forte e bem estabelecido para a proteção de direitos autorais, a coleta não autorizada de dados e o uso de arquivos de mídia para treinar sistemas de IA ainda se enquadram em uma área jurídica cinzenta. Grandes players de IA estão sendo processados pelo Reddit, Getty Images e muitos outros editores online.
“Sempre houve a dúvida se os bots concordariam com termos que não conseguem ver”, explicam os desenvolvedores. “O RSL muda isso fundamentalmente, informando os bots de busca sobre os termos antes mesmo de eles visitarem o site.” Eles esperam que o novo padrão de licenciamento de conteúdo crie uma maneira intuitiva de navegar pelo licenciamento de treinamento de IA.
