A equipe de Resposta a Incidentes da Cisco Talos testou a precisão de modelos de linguagem em larga escala (LLMs) na geração de relatórios técnicos sobre incidentes cibernéticos. Os resultados mostraram que relatórios aparentemente perfeitos continham erros factuais, conclusões inconsistentes e inconsistências.
Fonte da imagem: KeepCoding / unsplash.com
Nate Pors, Gerente Sênior de Resposta a Incidentes da Cisco Talos, descreveu as descobertas no blog da empresa. Os modelos ChatGPT, Claude e Gemini receberam notas brutas e foram solicitados a gerar um relatório técnico. Os três produziram documentos visualmente refinados, mas uma análise detalhada revelou imprecisões e conclusões atípicas. De acordo com a Cisco, a maioria das inconsistências decorre da natureza probabilística dos próprios modelos de aprendizado de máquina (LLMs): os modelos de IA geram texto prevendo a próxima palavra com base em pesos estatísticos, e não na compreensão do significado.
Segundo Pors, os LLMs distorcem os relatórios de quatro maneiras. Primeiro, o modelo se baseia em diferentes conjuntos de dados para cada consulta, o que torna “difícil confiar nos LLMs para produzir resultados de investigação reproduzíveis e padronizados”.
Em segundo lugar, os mesmos dados de entrada levam a conclusões diferentes: em um caso, o modelo de IA recomenda uma alteração obrigatória de senha em toda a organização, enquanto em outro, recomenda uma alteração de senha direcionada, e “frequentemente se apega à primeira recomendação gerada”, independentemente de sua qualidade.
Em terceiro lugar, como os modelos de lógica de aprendizado de máquina (LLMs) geram texto token por token, podem produzir documentos com estruturas e formatações diferentes a cada solicitação, o que é crucial para “ambientes profissionais onde modelos padronizados são necessários para o controle de qualidade”.
Em quarto lugar, quando o volume de dados de entrada atinge o limite da janela de contexto, a IA pode descartar informações carregadas no início da sessão e perder informações críticas, e a “poluição de contexto” leva a resultados imprevisíveis ou inconsistentes.
CiscoO problema é teoricamente solucionável — modelos de IA podem ser incumbidos de uma seção específica de um relatório. No entanto, essa abordagem anula a economia de tempo obtida com o uso da IA. Em cibersegurança, o custo do erro é especialmente alto. A Cisco alerta que os autores de relatórios precisam entender e assumir a responsabilidade por cada palavra no documento final, e as recomendações do LLM (Liderança em Liderança) têm se mostrado repetitivas, irrelevantes ou inadequadas para uso prático.
A Administração Nacional de Segurança Rodoviária (NHTSA) anunciou o recall de 14.575 veículos elétricos Tesla…
A Anthropic realizou uma conferência de dois dias para desenvolvedores, chamada Code with Claude, em…
O Google atualizou mais uma vez seu ranking Android Bench, que reúne os melhores modelos…
Coincidindo com o lançamento do smartphone Realme 16T, a empresa apresentou o novo smartwatch Realme…
A Sparkle lançou a placa gráfica profissional Intel Arc Pro B50 16GB Blower (SBP50W-16G). A…
A Creative lançou na Europa a placa de som Sound Blaster AE-X, que se conecta…