Grandes modelos de linguagem (LLMs) provaram ser capazes de gerar novas ideias de pesquisa em nível de especialistas. Além disso, de acordo com um novo estudo, estas ideias revelaram-se mais originais e interessantes do que as propostas por especialistas. Isto põe em causa a singularidade da inteligência humana no domínio da inovação científica e abre novos horizontes para o desenvolvimento da IA na comunidade científica.
Os avanços em grandes modelos de linguagem provocaram uma onda de entusiasmo entre os pesquisadores. Acontece que modelos de IA como ChatGPT da OpenAI e Claude da Anthropic são capazes de gerar e confirmar de forma independente novas hipóteses científicas. Acreditava-se que a criação de novos conhecimentos e a realização de descobertas científicas eram prerrogativas exclusivas dos humanos, em contraste com a combinação mecânica do conhecimento da IA a partir de dados de treino. No entanto, tendo já suplantado os humanos nas áreas da expressão artística, da música e da programação, a IA voltou-se agora para a ciência, mostrando a capacidade de gerar ideias de investigação que são, em média, mais recentes do que as propostas pelos cientistas.
Para testar essa hipótese, foram realizadas pesquisas na área de processamento de linguagem natural (PNL). A PNL é um campo da IA que trata da comunicação entre humanos e IA em uma linguagem que ambas as partes entendem. Abrange não apenas a sintaxe básica, mas também as nuances da linguagem, a compreensão do contexto e, mais recentemente, até mesmo o tom verbal e as nuances emocionais da fala. O estudo envolveu 100 especialistas em PNL (PhDs e doutores de 36 institutos diferentes), que entraram numa espécie de competição científica com “agentes de ideias” baseados no LLM. O objetivo era descobrir quais ideias de pesquisa seriam mais originais, interessantes e viáveis.
Para garantir a integridade do experimento, 49 especialistas formularam ideias sobre 7 temas específicos na área de PNL, enquanto uma IA especialmente treinada pelos pesquisadores gerou ideias sobre os mesmos temas. Para motivar os brainstormers a produzir ideias de qualidade, foram pagos 300 dólares por cada conceito proposto pelos especialistas, e cada uma das cinco principais ideias humanas recebeu 1.000 dólares adicionais. Uma vez concluído o projeto, o LLM foi utilizado para padronizar os estilos de redação de cada artigo, mantendo o conteúdo original para equilibrar as probabilidades e tornar a pesquisa o mais imparcial possível.
Todos os artigos submetidos foram revisados por 79 especialistas externos que avaliaram cegamente todas as ideias de pesquisa. O painel de especialistas apresentou 298 avaliações, dando a cada ideia duas a quatro avaliações independentes. Os resultados foram surpreendentes. As ideias geradas pela IA receberam classificações estatisticamente significativamente mais altas em termos de novidade e entusiasmo em comparação com as ideias humanas. No entanto, as ideias de IA eram ligeiramente inferiores em viabilidade e ligeiramente superiores em eficácia do que as ideias humanas, embora estas diferenças não fossem estatisticamente significativas.
O estudo também revelou algumas deficiências no desempenho da IA, como a falta de diversidade de ideias. Mesmo com instruções claras para não se repetir, a IA rapidamente se esqueceu disso. Além disso, a IA não foi capaz de testar e avaliar ideias de forma consistente e recebeu pontuações baixas por concordar com os julgamentos humanos. É importante notar que o estudo também revelou certas limitações na metodologia. Em particular, a avaliação da “originalidade” de uma ideia, mesmo por um grupo de especialistas, permanece subjetiva, por isso está prevista a realização de um estudo mais abrangente no qual as ideias geradas tanto pela IA como pelos humanos serão totalmente formalizadas em projetos, que irão permitir um estudo mais aprofundado do seu impacto em cenários da vida real. No entanto, os primeiros resultados do estudo são certamente impressionantes.
Hoje, quando os modelos de IA, embora se tornem ferramentas incrivelmente poderosas, ainda sofrem com a sua falta de fiabilidade e tendência para “alucinar”, o que no contexto de uma abordagem científica que exige precisão e fiabilidade absolutas da informação se torna crítica. Segundo algumas estimativas, pelo menos 10% dos artigos científicos são agora de coautoria da IA. Por outro lado, não subestime o potencial da IA para acelerar o progresso em algumas áreas da atividade humana. Um excelente exemplo disso é o sistema GNoME da DeepMind, que em apenas alguns meses alcançou o equivalente a cerca de 800 anos de pesquisa em ciência de materiais e gerou a estrutura de cerca de 380.000 novos cristais inorgânicos que poderiam revolucionar uma variedade de campos.
A IA é agora a tecnologia de crescimento mais rápido que a humanidade alguma vez viu e, por isso, é razoável esperar que muitas das suas deficiências sejam corrigidas nos próximos anos. Muitos investigadores de IA acreditam que a humanidade se aproxima do nascimento da superinteligência geral – o ponto em que a IA de uso geral ultrapassará a experiência humana em praticamente todos os campos. A capacidade da IA de gerar ideias mais originais e estimulantes do que as dos cientistas pode levar a repensar o processo de descoberta científica e o papel dos humanos nele.