Mais de 14 publicações de notícias importantes das 1.000 principais fecharam o acesso aos seus materiais para o mecanismo de busca SearchGPT AI da OpenAI uma semana após seu lançamento. A decisão pode impactar a integridade e precisão dos resultados de pesquisa do SearchGPT e também levanta questões sobre a credibilidade e as práticas de dados da OpenAI.
Cerca de uma semana atrás, a OpenAI lançou o mecanismo de busca de IA SearchGPT, mas já 14 dos 1.000 maiores sites de notícias, incluindo The New York Times, Wired, The New Yorker, Vogue, Vanity Fair e GQ, já bloquearam seu robô de busca . O OAI-SearchBot indexa informações para que o SearchGPT possa retornar resultados relevantes aos usuários.
Segundo a Originality.ai, empresa que monitora esses bloqueios, essa decisão foi inesperada. Jon Gillham, CEO da Originality.ai, expressou perplexidade com esta situação: “Não entendo por que os editores o estão bloqueando. Eles precisam desse tráfego.”
A OpenAI enfatizou que o OAI-SearchBot não coleta dados para treinar modelos de IA como o GPT-5 e recomendou que os proprietários de sites permitissem que o bot garantisse que os sites estivessem visíveis nos resultados de pesquisa. Segundo a OpenAI, isso ajudará os recursos a permanecerem nos resultados de pesquisa e atrair mais tráfego. No entanto, a falta de acesso a alguns sites pode tornar os resultados de pesquisa do SearchGPT menos abrangentes que os do Google.
Outro bot de busca OpenAI, o GPTbot, que coleta dados para treinar modelos de IA, já foi bloqueado por centenas de sites. Esta solução é mais compreensível porque os editores desejam obter tráfego dos motores de busca, mas não querem compartilhar conteúdo para treinamento em IA. A OpenAI passou anos coletando dados online sem permissão, então a desconfiança na empresa pode ser um dos motivos para a proibição.
Gillam sugere que os editores podem não confiar na afirmação da OpenAI de que seu novo bot não coleta dados para treinar modelos de IA. Outra razão pode ser evitar uma situação em que novos motores de busca de IA, a fim de reter os utilizadores, lhes mostrem um resumo do conteúdo em vez de os redireccionarem para os sites originais, o que reduz o tráfego e as receitas para os editores.
Gillam também observou que a OpenAI tem buscado ativamente acordos com editores este ano para usar seus materiais arquivados. Isto pode parecer uma estratégia inteligente para a OpenAI primeiro construir relacionamentos com editores por meio de parcerias e depois anunciar o lançamento do SearchGPT.
O New York Times se tornou o principal oponente do OpenAI entre os editores, entrando com uma ação judicial contra ele e a Microsoft. A editora alega que as duas empresas de tecnologia estão usando ilegalmente seus materiais para criar produtos concorrentes. Como disse Charlie Stadtlander, porta-voz do The New York Times: “O Times não permite o uso de seus materiais para pesquisa generativa ou treinamento de IA sem um acordo por escrito, independentemente de bloquearmos ou não o acesso de qualquer bot ao nosso conteúdo”.
Na sua queixa contra a OpenAI e a Microsoft, o The New York Times enfatizou que os motores de busca de IA poderiam potencialmente desviar o tráfego dos editores, prejudicando as suas finanças: “Ao fornecer conteúdo ao The Times sem permissão, as ferramentas dos réus prejudicam o relacionamento do The Times com os leitores e privá-los de receitas provenientes de assinaturas, licenciamento, publicidade e programas afiliados.”
«“Os réus também usam o mecanismo de busca Bing da Microsoft, que copia e categoriza o conteúdo online do The Times para gerar respostas com trechos literais e resumos detalhados de artigos do The Times que são muito mais longos e detalhados do que aqueles produzidos pelos mecanismos de busca tradicionais”, afirma a denúncia da editora. .
O surgimento do SearchGPT e a reação dos editores mostram a complexidade da relação entre as tecnologias de IA e a mídia tradicional. A desconfiança na OpenAI e o desejo de proteger as suas receitas estão a levar os editores a tomar precauções. No futuro, teremos de ver como estas contradições serão resolvidas e que impacto isso terá na disponibilidade e qualidade da informação na Internet.