As habilidades intelectuais do ChatGPT diminuíram devido a tentativas de melhorá-lo, descobriram os cientistas

Os cientistas relataram outro problema que pode assombrar os chatbots baseados em plataformas de inteligência artificial – esse fenômeno é chamado de “drift” (deriva) e reflete a degradação das habilidades intelectuais do sistema.

Fonte da imagem: Dkoi / unsplash.com

O ChatGPT, que estreou no ano passado, revolucionou o campo da inteligência artificial e até contribuiu indiretamente para a greve dos roteiristas que estourou em Hollywood. Mas um estudo publicado por cientistas da Universidade de Stanford e da Universidade da Califórnia em Berkeley (EUA) aponta para um novo problema para a IA: o ChatGPT piorou na execução de algumas operações matemáticas elementares. Esse fenômeno é conhecido como “desvio”: uma tentativa de melhorar uma parte de um modelo complexo de IA leva à deterioração de outras áreas dele. E isso, observam os pesquisadores, complica muito a melhoria contínua das redes neurais.

Os cientistas chegaram a essa conclusão quando testaram duas versões do GPT: disponível para todos gratuitamente 3.5; e 4.0, que só pode ser usado com uma assinatura paga. O chatbot recebeu uma tarefa elementar: determinar se um determinado número é primo. Um número primo é um número natural que só é divisível por 1 e por ele mesmo. Se o número for grande o suficiente, não se pode julgar se ele é primo na mente. Mas um computador pode lidar com essa tarefa pela força bruta: verifique sua divisibilidade por 2, 3, 5 etc. A base do teste foi uma amostra de 1.000 números. Em março, o prêmio GPT-4 deu 84% de acertos, o que já é um resultado duvidoso para um computador, mas em junho a taxa de acertos caiu para 51%.

Fonte da imagem: wsj.com

Em geral, o GPT-4 apresentou degradação em seis das oito tarefas. O GPT-3.5, ao contrário, mostrou progresso em seis tarefas, mas na maioria dos casos permaneceu mais fraco que seu irmão avançado. Um aumento no número de respostas incorretas foi notado por muitos usuários de chatbots e, de acordo com as descobertas de cientistas de Stanford e Berkeley, essas não são sensações subjetivas – a degradação é confirmada por dados empíricos. “Quando lançamos novas versões de modelos, nossa prioridade é torná-los mais inteligentes em todos os aspectos. Fazemos esforços para melhorar as novas versões em toda a gama de tarefas. Ao mesmo tempo, a nossa metodologia de avaliação é imperfeita, e estamos constantemente a melhorá-la”, comentou o trabalho científico na OpenAI.

Não se fala em degradação total dos modelos de IA: em vários testes, o menos preciso GPT-3.5 em geral mostrou progresso e o GPT-4 piorou seus resultados. Além dos problemas de matemática, os pesquisadores pediram aos chatbots que respondessem a 1.500 perguntas. E se em março um chatbot baseado em GPT-4 respondeu a 98% das perguntas, em junho deu respostas a apenas 23%, e muitas vezes eram muito curtas: a IA afirmou que a pergunta era subjetiva e não tinha opinião própria.

Os cientistas de Stanford e Berkeley dizem que em seu estudo não pedem o abandono das tecnologias de IA, mas sim uma observação atenta de sua dinâmica. Uma pessoa está acostumada a perceber o conhecimento como uma solução para uma série de problemas, onde cada um subsequente é baseado no anterior. No caso da IA, o esquema acaba sendo diferente: um passo à frente corresponde a um passo atrás ou em outra direção imprevisível. Os serviços de IA provavelmente continuarão a evoluir, mas sua jornada não será em linha reta.

avalanche

Postagens recentes

Itália inicia investigação sobre monetização agressiva de jogos para dispositivos móveis da Activision Blizzard

A Autoridade Italiana da Concorrência e do Mercado (AGCM) iniciou duas investigações contra a Activision…

44 minutos atrás

O antigo chefe da divisão Optimus da Tesla agora irá construir robôs na Boston Dynamics.

Em junho de 2025, Milan Kovac, vice-presidente sênior da Tesla e chefe de desenvolvimento do…

44 minutos atrás

A China será o primeiro país a acender o Sol artificial na Terra – o mais tardar em 2030, prometeram os cientistas.

Na Conferência de Tecnologia e Indústria de Energia de Fusão de 2026, em Hefei, cientistas…

3 horas atrás

A Rusnano iniciou a montagem de microchips em Zelenograd utilizando tecnologia russa.

Este mês, a empresa estatal Rusnano inaugurará um novo complexo de montagem e testes para…

4 horas atrás

O Threads ultrapassou o antigo Twitter em termos de audiência, atingindo 320 milhões de usuários.

Em janeiro de 2026, a plataforma Threads da Meta✴ atingiu 320 milhões de usuários ativos,…

4 horas atrás