Algumas IAs modernas são capazes de passar no teste de Turing — o teste clássico para verificar se uma máquina é indistinguível de um humano na comunicação baseada em texto. No experimento, os juízes — participantes que tinham que distinguir entre um humano e uma IA em mensagens de texto — identificaram o GPT-4.5 como humano em 73% dos casos quando o modelo de IA foi apresentado a um estímulo específico que definia sua personalidade e padrão de fala.
Fonte da imagem: Igor Omilaev / unsplash.com
O estudo foi conduzido por Cameron R. Jones e Benjamin K. Bergen. Eles testaram se modelos de linguagem em larga escala (LLMs, na sigla em inglês) modernos poderiam convencer avaliadores humanos de que estavam se comunicando com uma pessoa real. O Teste de Turing, proposto pelo matemático britânico Alan Turing em 1950, é simples: um avaliador se comunica simultaneamente por meio de bate-papo por texto com um humano e uma máquina, e então decide qual dos dois é real.
De acordo com os cientistas, esse formato é muito mais representativo dos testes padrão de IA. As pontuações de referência convencionais são estáticas — pontuações altas podem refletir a memorização de dados de treinamento em vez de uma verdadeira adaptabilidade na conversação. O Teste de Turing permite que os avaliadores façam perguntas abertas e investiguem as fraquezas da máquina.
Os cientistas realizaram uma série de experimentos online envolvendo quase 500 participantes. Eles avaliaram os modelos de IA GPT-4.5, LLaMa-3.1-405B e GPT-4o, bem como um chatbot simples da década de 1960, o ELIZA, como linha de base. O primeiro estudo envolveu 126 estudantes da Universidade da Califórnia, em San Diego, e o segundo, 158 participantes da plataforma online Prolific. Os papéis de juiz e interlocutor foram atribuídos aleatoriamente.
Os pesquisadores criaram uma interface semelhante a um aplicativo de mensagens conhecido. A conversa durou exatamente cinco minutos. O juiz, então, determinava quem era a pessoa real, avaliava sua confiança e explicava seu raciocínio. Os cientistas testaram dois tipos de instruções. A primeira simplesmente informava ao modelo de IA que ele estava participando de um teste de Turing. A segunda pedia que ele interpretasse o papel de um jovem introvertido, bem versado na cultura da internet e na gíria moderna. A instrução com um determinado papel alterou os resultados drasticamente.O GPT-4.5 foi reconhecido como humano em 73% das vezes — enganando os avaliadores com muito mais frequência do que os participantes humanos. O LLaMa-3.1-405B, com o mesmo estímulo, obteve 56% de acerto. Com os estímulos corretos, os modelos de linguagem natural avançados demonstram o mesmo tom, franqueza, humor e propensão a erros que os humanos, observou Jones. Ele acrescentou que o teste mostrou que os modelos de IA podem reproduzir de forma convincente traços de comportamento social, e não apenas produzir informações sobre qualquer assunto.
Com um estímulo padrão, o cenário foi diferente. O GPT-4.5 foi reconhecido como humano em apenas 36% das vezes, enquanto o LLaMa-3.1-405B obteve 38%. Sistemas mais antigos tiveram um desempenho ainda pior: o ELIZA foi reconhecido como humano em 23% das vezes, enquanto o GPT-405B obteve 21%. De acordo com Bergen, os modelos de IA têm a capacidade de parecer humanos, mas talvez lhes falte a capacidade de descobrir, de forma independente, o que é necessário para alcançar esse resultado.
Para testar a robustez dos resultados, os cientistas realizaram um experimento adicional com 205 novos participantes e aumentaram o tempo de interação para 15 minutos. Eles utilizaram o GPT-5, o LLaMa-3.1-405B e o ELIZA. Mesmo com o tempo adicional, os avaliadores tiveram dificuldade em identificar as máquinas que se passavam por humanos: o GPT-5 foi reconhecido como humano em 59% das vezes, enquanto o LLaMa-3.1-405B foi reconhecido em 56%. O simples ELIZA foi facilmente reconhecido, sendo identificado como humano em apenas 17% das vezes.
A maioria dos avaliadores tentou iniciar uma conversa informal, perguntando sobre atividades cotidianas, opiniões pessoais e experiências emocionais. Eles tenderam a classificar os participantes como humanos se estes cometessem pequenos erros de digitação, demonstrassem lacunas em seu conhecimento ou respondessem diretamente, sem formalidades excessivas. De acordo com Bergen, essas características estão longe da inteligência matemática e lógica que Turing provavelmente tinha em mente.Os autores alertam contra erros incorretos.Interpretações: Passar no teste não significa que uma máquina possua inteligência ou consciência genuínas. Em vez disso, significa que ela corresponde excepcionalmente bem às expectativas das pessoas sobre como outro ser humano poderia interagir online. As altas pontuações no LLM (Teste de Liderança em Aprendizagem) dependiam inteiramente do Prompt — sem instruções detalhadas, os modelos de IA não conseguiam enganar os avaliadores de forma consistente. Isso demonstra que eles ainda precisam de orientação humana para se comportarem de maneira convincente.
Os resultados têm implicações práticas para a confiança online. De acordo com Jones, ajustar o Prompt para tornar um modelo de IA indistinguível de um humano é relativamente fácil e, ao se comunicar com estranhos online, as pessoas devem confiar muito menos na certeza de que estão falando com um ser humano.
Até o momento, os suspeitos de tentar contrabandear placas gráficas da Nvidia para a China,…
A Microsoft corrigiu duas vulnerabilidades de dia zero no Windows Defender, o antivírus usado em…
O modelo de IA Gemini do Google está em ascensão. O algoritmo já foi integrado…
Um grupo de defesa do consumidor da União Europeia apresentou queixas contra o Google, Meta✴…
Hoje, a Xiaomi está realizando um grande evento de lançamento de produtos na China, cujo…
As ações de empresas de computação quântica dispararam no pregão de hoje, após notícias de…