Categorias: Notícias da rede

O modelo de IA GPT-4.5 foi bem-sucedido no teste de Turing, sendo confundido com um humano em 73% das vezes, mas não é tão simples assim.

Algumas IAs modernas são capazes de passar no teste de Turing — o teste clássico para verificar se uma máquina é indistinguível de um humano na comunicação baseada em texto. No experimento, os juízes — participantes que tinham que distinguir entre um humano e uma IA em mensagens de texto — identificaram o GPT-4.5 como humano em 73% dos casos quando o modelo de IA foi apresentado a um estímulo específico que definia sua personalidade e padrão de fala.

Fonte da imagem: Igor Omilaev / unsplash.com

O estudo foi conduzido por Cameron R. Jones e Benjamin K. Bergen. Eles testaram se modelos de linguagem em larga escala (LLMs, na sigla em inglês) modernos poderiam convencer avaliadores humanos de que estavam se comunicando com uma pessoa real. O Teste de Turing, proposto pelo matemático britânico Alan Turing em 1950, é simples: um avaliador se comunica simultaneamente por meio de bate-papo por texto com um humano e uma máquina, e então decide qual dos dois é real.

De acordo com os cientistas, esse formato é muito mais representativo dos testes padrão de IA. As pontuações de referência convencionais são estáticas — pontuações altas podem refletir a memorização de dados de treinamento em vez de uma verdadeira adaptabilidade na conversação. O Teste de Turing permite que os avaliadores façam perguntas abertas e investiguem as fraquezas da máquina.

Os cientistas realizaram uma série de experimentos online envolvendo quase 500 participantes. Eles avaliaram os modelos de IA GPT-4.5, LLaMa-3.1-405B e GPT-4o, bem como um chatbot simples da década de 1960, o ELIZA, como linha de base. O primeiro estudo envolveu 126 estudantes da Universidade da Califórnia, em San Diego, e o segundo, 158 participantes da plataforma online Prolific. Os papéis de juiz e interlocutor foram atribuídos aleatoriamente.

Os pesquisadores criaram uma interface semelhante a um aplicativo de mensagens conhecido. A conversa durou exatamente cinco minutos. O juiz, então, determinava quem era a pessoa real, avaliava sua confiança e explicava seu raciocínio. Os cientistas testaram dois tipos de instruções. A primeira simplesmente informava ao modelo de IA que ele estava participando de um teste de Turing. A segunda pedia que ele interpretasse o papel de um jovem introvertido, bem versado na cultura da internet e na gíria moderna. A instrução com um determinado papel alterou os resultados drasticamente.O GPT-4.5 foi reconhecido como humano em 73% das vezes — enganando os avaliadores com muito mais frequência do que os participantes humanos. O LLaMa-3.1-405B, com o mesmo estímulo, obteve 56% de acerto. Com os estímulos corretos, os modelos de linguagem natural avançados demonstram o mesmo tom, franqueza, humor e propensão a erros que os humanos, observou Jones. Ele acrescentou que o teste mostrou que os modelos de IA podem reproduzir de forma convincente traços de comportamento social, e não apenas produzir informações sobre qualquer assunto.

Com um estímulo padrão, o cenário foi diferente. O GPT-4.5 foi reconhecido como humano em apenas 36% das vezes, enquanto o LLaMa-3.1-405B obteve 38%. Sistemas mais antigos tiveram um desempenho ainda pior: o ELIZA foi reconhecido como humano em 23% das vezes, enquanto o GPT-405B obteve 21%. De acordo com Bergen, os modelos de IA têm a capacidade de parecer humanos, mas talvez lhes falte a capacidade de descobrir, de forma independente, o que é necessário para alcançar esse resultado.

Para testar a robustez dos resultados, os cientistas realizaram um experimento adicional com 205 novos participantes e aumentaram o tempo de interação para 15 minutos. Eles utilizaram o GPT-5, o LLaMa-3.1-405B e o ELIZA. Mesmo com o tempo adicional, os avaliadores tiveram dificuldade em identificar as máquinas que se passavam por humanos: o GPT-5 foi reconhecido como humano em 59% das vezes, enquanto o LLaMa-3.1-405B foi reconhecido em 56%. O simples ELIZA foi facilmente reconhecido, sendo identificado como humano em apenas 17% das vezes.

A maioria dos avaliadores tentou iniciar uma conversa informal, perguntando sobre atividades cotidianas, opiniões pessoais e experiências emocionais. Eles tenderam a classificar os participantes como humanos se estes cometessem pequenos erros de digitação, demonstrassem lacunas em seu conhecimento ou respondessem diretamente, sem formalidades excessivas. De acordo com Bergen, essas características estão longe da inteligência matemática e lógica que Turing provavelmente tinha em mente.Os autores alertam contra erros incorretos.Interpretações: Passar no teste não significa que uma máquina possua inteligência ou consciência genuínas. Em vez disso, significa que ela corresponde excepcionalmente bem às expectativas das pessoas sobre como outro ser humano poderia interagir online. As altas pontuações no LLM (Teste de Liderança em Aprendizagem) dependiam inteiramente do Prompt — sem instruções detalhadas, os modelos de IA não conseguiam enganar os avaliadores de forma consistente. Isso demonstra que eles ainda precisam de orientação humana para se comportarem de maneira convincente.

Os resultados têm implicações práticas para a confiança online. De acordo com Jones, ajustar o Prompt para tornar um modelo de IA indistinguível de um humano é relativamente fácil e, ao se comunicar com estranhos online, as pessoas devem confiar muito menos na certeza de que estão falando com um ser humano.

admin

Próximo O CapCut será integrado ao Gemini, permitindo que os usuários editem vídeos sem nenhuma habilidade específica. »

Anterior « Europeus acusaram o Google, a Meta e o TikTok de não combaterem a fraude.

Deixar comentário

Publicado por

admin

1 hora atrás

Postagens recentes

Servidores, clusters, supercomputadores, computadores industriais e multiprocessadores

Três taiwaneses foram presos por contrabando de placas gráficas da Nvidia para a China, desafiando as sanções dos EUA.

Até o momento, os suspeitos de tentar contrabandear placas gráficas da Nvidia para a China,…

45 minutos atrás

Vírus, cavalos de Troia, vulnerabilidades de software, problemas de segurança

A Microsoft identificou algumas vulnerabilidades de dia zero na segurança do Windows e recomenda a atualização imediata.

A Microsoft corrigiu duas vulnerabilidades de dia zero no Windows Defender, o antivírus usado em…

1 hora atrás

Programas

O CapCut será integrado ao Gemini, permitindo que os usuários editem vídeos sem nenhuma habilidade específica.

O modelo de IA Gemini do Google está em ascensão. O algoritmo já foi integrado…

1 hora atrás

Notícias da rede

Europeus acusaram o Google, a Meta e o TikTok de não combaterem a fraude.

Um grupo de defesa do consumidor da União Europeia apresentou queixas contra o Google, Meta✴…

1 hora atrás

Telefones celulares, smartphones, comunicações celulares, comunicadores, PDAs

O Xiaomi 17 Max foi apresentado – um modelo topo de linha com Snapdragon 8 Elite Gen 5, câmera de 200 MP e bateria de 8000 mAh, com preço inicial de US$ 630.

Hoje, a Xiaomi está realizando um grande evento de lançamento de produtos na China, cujo…

1 hora atrás

Na vanguarda da ciência

As empresas de computação quântica viram seus preços subirem acentuadamente após a promessa de apoio do governo dos EUA.

As ações de empresas de computação quântica dispararam no pregão de hoje, após notícias de…

1 hora atrás

O modelo de IA GPT-4.5 foi bem-sucedido no teste de Turing, sendo confundido com um humano em 73% das vezes, mas não é tão simples assim.

Conteúdo relacionado

Postagens recentes

Três taiwaneses foram presos por contrabando de placas gráficas da Nvidia para a China, desafiando as sanções dos EUA.

A Microsoft identificou algumas vulnerabilidades de dia zero na segurança do Windows e recomenda a atualização imediata.

O CapCut será integrado ao Gemini, permitindo que os usuários editem vídeos sem nenhuma habilidade específica.

Europeus acusaram o Google, a Meta e o TikTok de não combaterem a fraude.

O Xiaomi 17 Max foi apresentado – um modelo topo de linha com Snapdragon 8 Elite Gen 5, câmera de 200 MP e bateria de 8000 mAh, com preço inicial de US$ 630.

As empresas de computação quântica viram seus preços subirem acentuadamente após a promessa de apoio do governo dos EUA.