Uma nova pesquisa lança dúvidas sobre as afirmações do Google de que os grandes modelos de linguagem do Gemini são capazes de processar grandes volumes de dados, mostrando que são significativamente menos eficazes na análise de textos e vídeos longos.

Fonte da imagem: Google

Estudos recentes revelaram deficiências significativas no trabalho dos principais modelos de inteligência artificial generativa do Google, Gemini 1.5 Pro e 1.5 Flash, escreve o TechCrunch. O Google destacou repetidamente a capacidade do Gemini de processar grandes quantidades de dados graças à sua grande janela de contexto, dizendo que seus modelos podem analisar documentos com centenas de páginas e procurar informações em gravações de vídeo. No entanto, dois estudos independentes demonstraram que, na prática, estes modelos lidam muito pior com tais tarefas.

Cientistas da UMass Amherst, do Instituto Allen de IA e da Universidade de Princeton testaram o Gemini quanto à sua capacidade de responder a perguntas sobre o conteúdo de livros de ficção. O livro submetido para a prova continha aproximadamente 260 mil palavras (cerca de 520 páginas). Os resultados foram decepcionantes. O Gemini 1.5 Pro respondeu corretamente apenas 46,7% das vezes e o Gemini 1.5 Flash apenas 20% das vezes. Calculando ainda mais a média dos resultados, descobriu-se que nenhum dos modelos foi capaz de obter precisão ao responder perguntas acima do acaso.

Marzena Karpinska, coautora do estudo, observou: “Embora modelos como o Gemini 1.5 Pro possam tecnicamente lidar com contextos longos, vimos muitos casos indicando que os modelos não entendem realmente o conteúdo”.

O segundo estudo, conduzido por cientistas da Universidade da Califórnia, em Santa Bárbara, focou na capacidade do Gemini 1.5 Flash de analisar conteúdo de vídeo, especificamente slides de imagens. Os resultados também se mostraram insatisfatórios – de 25 imagens, a IA deu respostas corretas apenas em metade dos casos e, com o aumento do número de imagens, a precisão das respostas caiu para 30%, o que lança dúvida sobre a eficácia do modelo no trabalho com dados multimídia.

Porém, nota-se que nenhum dos estudos passou pelo processo de revisão por pares e, além disso, as versões mais recentes dos modelos com contexto de 2 milhões de tokens não foram testadas. No entanto, as descobertas levantam sérias questões sobre as capacidades reais dos modelos generativos de IA em geral e a validade das afirmações de marketing dos gigantes da tecnologia.

A pesquisa surge em meio ao crescente ceticismo em relação à IA generativa. Assim, pesquisas recentes da empresa de consultoria internacional Boston Consulting Group mostraram que cerca de metade dos executivos seniores entrevistados não esperam um aumento significativo na produtividade com o uso de IA generativa e estão preocupados com possíveis erros e problemas de segurança de dados.

Os especialistas apelam ao desenvolvimento de critérios mais objetivos para avaliar as capacidades da IA ​​e a uma maior atenção e críticas independentes. O Google ainda não comentou os resultados desses estudos.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *