A versatilidade dos chatbots populares em termos de busca de informações necessárias, como se verifica, não os torna adequados para realizar diagnósticos médicos precisos com dados limitados. Em mais de 80% dos casos, os chatbots emitem diagnósticos incorretos, o que os torna inadequados como substitutos para a consulta com um médico especialista.

Fonte da imagem: Unsplash, Elen Sher
Um estudo publicado no Jama Network Open, citado pelo Financial Times, utilizou 29 relatos de casos clínicos da literatura médica de referência para testar o desempenho diagnóstico de chatbots populares. O estudo constatou que, quando apresentados com informações limitadas sobre os sintomas, grandes modelos de linguagem têm dificuldade em selecionar possíveis diagnósticos e frequentemente se restringem a uma única opção, que não pode ser considerada confiável para tratamentos subsequentes. Se os dados de entrada forem suficientemente detalhados, esses problemas com diagnósticos precisos deixam de ser observados.
Durante o experimento, dados médicos foram transmitidos aos chatbots em etapas, incluindo histórico médico, resultados de exames e resultados de testes laboratoriais. Os chatbots foram questionados sobre o diagnóstico de doenças, e a precisão e a completude de suas respostas foram medidas. A amostra de modelos de IA testados incluiu duas dezenas de chatbots populares, incluindo aqueles desenvolvidos pela OpenAI, Anthropic, Google, xAI e DeepSeek. Sem informações completas sobre a condição do paciente, todos demonstraram uma tendência a diagnósticos incorretos em mais de 80% dos casos. Quanto mais completas as informações, mais precisos os resultados. Nos melhores casos, a precisão ultrapassou 90%; em média, ocorreram diagnósticos incorretos em menos de 40% dos casos.
O Google e a Anthropic afirmaram que seus chatbots recomendam fortemente o contato com especialistas quando os usuários buscam aconselhamento médico. A OpenAI declara em seus termos de serviço que seus chatbots não devem ser usados para obter aconselhamento médico que exija…A presença de uma licença apropriada. A xAI e a DeepSeek recusaram-se a comentar o assunto ao Financial Times. Alguns desses desenvolvedores estão criando modelos médicos altamente especializados. O AMIE do Google, por exemplo, apresenta bons resultados, mas suas conclusões são difíceis de serem totalmente confiáveis, como observam especialistas médicos, já que um médico humano depende muito da avaliação visual da condição do paciente. No entanto, tais modelos de IA têm o direito de existir em regiões onde o acesso a cuidados médicos de qualidade, no sentido clássico, é problemático.