A equipe de Resposta a Incidentes da Cisco Talos testou a precisão de modelos de linguagem em larga escala (LLMs) na geração de relatórios técnicos sobre incidentes cibernéticos. Os resultados mostraram que relatórios aparentemente perfeitos continham erros factuais, conclusões inconsistentes e inconsistências.

Fonte da imagem: KeepCoding / unsplash.com
Nate Pors, Gerente Sênior de Resposta a Incidentes da Cisco Talos, descreveu as descobertas no blog da empresa. Os modelos ChatGPT, Claude e Gemini receberam notas brutas e foram solicitados a gerar um relatório técnico. Os três produziram documentos visualmente refinados, mas uma análise detalhada revelou imprecisões e conclusões atípicas. De acordo com a Cisco, a maioria das inconsistências decorre da natureza probabilística dos próprios modelos de aprendizado de máquina (LLMs): os modelos de IA geram texto prevendo a próxima palavra com base em pesos estatísticos, e não na compreensão do significado.
Segundo Pors, os LLMs distorcem os relatórios de quatro maneiras. Primeiro, o modelo se baseia em diferentes conjuntos de dados para cada consulta, o que torna “difícil confiar nos LLMs para produzir resultados de investigação reproduzíveis e padronizados”.
Em segundo lugar, os mesmos dados de entrada levam a conclusões diferentes: em um caso, o modelo de IA recomenda uma alteração obrigatória de senha em toda a organização, enquanto em outro, recomenda uma alteração de senha direcionada, e “frequentemente se apega à primeira recomendação gerada”, independentemente de sua qualidade.
Em terceiro lugar, como os modelos de lógica de aprendizado de máquina (LLMs) geram texto token por token, podem produzir documentos com estruturas e formatações diferentes a cada solicitação, o que é crucial para “ambientes profissionais onde modelos padronizados são necessários para o controle de qualidade”.
Em quarto lugar, quando o volume de dados de entrada atinge o limite da janela de contexto, a IA pode descartar informações carregadas no início da sessão e perder informações críticas, e a “poluição de contexto” leva a resultados imprevisíveis ou inconsistentes.
CiscoO problema é teoricamente solucionável — modelos de IA podem ser incumbidos de uma seção específica de um relatório. No entanto, essa abordagem anula a economia de tempo obtida com o uso da IA. Em cibersegurança, o custo do erro é especialmente alto. A Cisco alerta que os autores de relatórios precisam entender e assumir a responsabilidade por cada palavra no documento final, e as recomendações do LLM (Liderança em Liderança) têm se mostrado repetitivas, irrelevantes ou inadequadas para uso prático.