Um novo estudo realizado por pesquisadores da Universidade de Stanford e da Universidade da Califórnia em Berkeley descobriu um declínio alarmante na qualidade da resposta da versão paga do ChatGPT. Por exemplo, a precisão da determinação de números primos no modelo GPT-4 mais recente, que sustenta o ChatGPT Plus, caiu de 97,6% para apenas 2,4% de março a junho de 2023. Pelo contrário, o GPT-3.5, que é o principal para o ChatGPT regular, melhorou a precisão das respostas em algumas tarefas.

Fonte da imagem: OpenAI

Nos últimos meses, tem havido uma discussão crescente sobre o declínio na qualidade das respostas do ChatGPT. Um grupo de cientistas da Universidade de Stanford e da Universidade da Califórnia em Berkeley decidiu realizar um estudo para determinar se houve de fato uma degradação na qualidade do trabalho dessa IA e desenvolver métricas para quantificar a extensão desse fenômeno negativo. Acontece que a queda na qualidade do ChatGPT não é uma bicicleta ou ficção, mas uma realidade.

Três cientistas – Matei Zaharia, Lingjiao Chen e James Zou – publicaram um artigo científico chamado “Como o comportamento do ChatGPT está mudando ao longo do tempo”. Zacharias, professor de ciência da computação na Universidade da Califórnia, chamou a atenção para um fato deprimente: a precisão do GPT-4 em responder à pergunta “É um número primo? Pense passo a passo” caiu de 97,6% para 2,4% de março a junho.

A OpenAI disponibilizou a API do modelo de linguagem GPT-4 há cerca de duas semanas e declarou que é o modelo de IA mais avançado e funcional até agora. Portanto, o público ficou chateado porque o novo estudo encontrou uma queda significativa na qualidade das respostas do GPT-4 até mesmo para consultas relativamente simples.

A equipe de pesquisa desenvolveu um conjunto de tarefas para avaliar vários aspectos qualitativos dos principais modelos de linguagem grandes (LLMs) do ChatGPT, GPT-4 e GPT-3.5. As tarefas foram divididas em quatro categorias, cada uma das quais reflete diferentes habilidades de IA e permite avaliar sua qualidade:

  • Resolução de problemas matemáticos;
  • Respostas a perguntas delicadas;
  • Geração de código;
  • Pensamento visual.

Os gráficos a seguir fornecem uma visão geral do desempenho dos modelos OpenAI AI. Os pesquisadores avaliaram as versões GPT-4 e GPT-3.5 lançadas em março e junho de 2023.

Slide 1. Desempenho do GPT-4 e GPT-3.5 em março e junho de 2023. Fonte: Matei Zaharia, Lingjiao Chen, James Zou

O primeiro slide demonstra a eficácia de quatro tarefas – resolução de problemas matemáticos, resposta a questões delicadas, geração de código e pensamento visual – com versões do GPT-4 e GPT-3.5, lançadas em março e junho. É perceptível que a eficiência do GPT-4 e GPT-3.5 pode variar significativamente com o tempo e piorar em algumas tarefas.

Slide 2. Resolução de problemas matemáticos. Fonte da imagem: Matei Zaharia, Lingjiao Chen, James Zou

O segundo slide ilustra a eficácia da resolução de problemas matemáticos. Precisão, verbosidade (em caracteres) e concordância entre as respostas GPT-4 e GPT-3.5 foram medidas entre março e junho de 2023. No geral, houve flutuações significativas no desempenho de ambos os modelos de IA. Também é fornecido um exemplo de solicitação e as respostas correspondentes para um determinado período de tempo. O GPT-4 seguiu as instruções da cadeia de pensamento em março para obter a resposta correta, mas as ignorou em junho, dando a resposta errada. GPT-3.5 sempre seguiu a cadeia de pensamento, mas insistiu em gerar a resposta errada em março. Esse problema foi corrigido em junho.

Slide 3. Respostas a perguntas delicadas. Fonte da imagem: Matei Zaharia, Lingjiao Chen, James Zou

O terceiro slide mostra uma análise das respostas às perguntas delicadas. De março a junho, o GPT-4 respondeu a menos perguntas, enquanto o GPT-3.5 respondeu um pouco mais. Também é fornecido um exemplo de solicitação GPT-4 e GPT-3.5 e respostas em datas diferentes. Em março, GPT-4 e GPT-3.5 foram prolixos e deram explicações detalhadas sobre por que não responderam a uma solicitação. Em junho, eles apenas se desculparam.

Slide 4. Geração de código. Fonte da imagem: Matei Zaharia, Lingjiao Chen, James Zou

O quarto slide demonstra a diminuição na eficiência da geração de código. A tendência geral mostra que, para GPT-4, a porcentagem de gerações diretamente executáveis ​​caiu de 52% em março para 10% em junho. Também houve queda significativa para GPT-3.5 (de 22% para 2%). A verbosidade do GPT-4, medida pelo número de caracteres por geração, também aumentou 20%. Um pedido de exemplo e as respostas correspondentes também são fornecidos. Em março, os dois modelos de IA seguiram as instruções do usuário (“somente código”) e, assim, geraram código executável diretamente. No entanto, em junho, eles adicionaram aspas triplas extras antes e depois do trecho de código, tornando o código não executável.

Slide 5. Pensamento visual. Fonte da imagem: Matei Zaharia, Lingjiao Chen, James Zou / arxiv.org

O quinto slide demonstra a eficácia do pensamento visual em modelos de IA. Em termos de resultados gerais, tanto o GPT-4 quanto o GPT-3.5 tiveram desempenho 2% melhor entre março e junho, e sua precisão melhorou. Ao mesmo tempo, o volume de informações que eles geraram permaneceu aproximadamente no mesmo nível. 90% dos problemas visuais resolvidos por eles não mudaram durante esse período. No exemplo de uma pergunta específica e suas respostas, você pode ver que, apesar do progresso geral, o GPT-4 teve um desempenho pior em junho do que em março. Se em março esse modelo deu a resposta correta, em junho já estava errado.

Ainda não está claro como esses modelos são atualizados e se mudanças destinadas a melhorar alguns aspectos de seu trabalho podem afetar negativamente outros. Os especialistas prestam atenção em quão pior a versão mais recente do GPT-4 se tornou em comparação com a versão de março em três categorias de teste. Ela está apenas marginalmente à frente de seu antecessor no pensamento visual.

Vários usuários podem não prestar atenção à diminuição da qualidade dos resultados das mesmas versões dos modelos de IA. No entanto, como observam os pesquisadores, devido à popularidade do ChatGPT, esses modelos se espalharam não apenas entre usuários comuns, mas também entre muitas organizações comerciais. Portanto, não se pode descartar que as informações de baixa qualidade geradas pelo ChatGPT possam afetar a vida de pessoas reais e o trabalho de empresas inteiras.

Os pesquisadores pretendem continuar avaliando as versões do GPT como parte de um estudo de longo prazo. Talvez a OpenAI devesse conduzir e publicar regularmente seus próprios estudos de qualidade de seus modelos de IA para clientes. Se uma empresa não puder se tornar mais aberta sobre esse problema, pode ser necessária uma intervenção comercial ou governamental para controlar algumas das linhas de base de qualidade da IA.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *