As placas de vídeo Nvidia GeForce RTX 5090 e RTX Pro 6000 foram afetadas por um problema de redefinição do recurso de virtualização reproduzível que pode fazer com que as placas de vídeo fiquem completamente sem resposta até que o sistema host seja reinicializado fisicamente.

Fonte da imagem: Reddit

A CloudRift, provedora de computação em nuvem com GPUs, publicou uma descrição detalhada de um problema encontrado em vários sistemas equipados com aceleradores Blackwell. A empresa chegou a anunciar uma recompensa pública de US$ 1.000 para quem corrigir ou encontrar a causa raiz. De acordo com a CloudRift, o erro ocorre após a GPU ser conectada a uma máquina virtual usando KVM e VFIO. Ao desligar o convidado ou reatribuir a GPU, o host executa uma Redefinição de Nível de Função PCIe (FLR), que é um procedimento padrão para limpar um dispositivo conectado ao sistema host. Mas, em vez de retornar a um estado conhecido como bom, a GPU deixa de responder e um erro de kernel aparece: “não pronto 65535ms após FLR; desistindo”. Nesse ponto, a placa também se torna ilegível pelo lspci, resultando em erros de “cabeçalho tipo 7f desconhecido”. A CloudRift observa que a única maneira de restaurar a operação normal é reinicializar todo o sistema.

A Tiny Corp, startup de IA que desenvolve a estrutura de aprendizado profundo tinygrad, chamou a atenção para o problema ao publicar as descobertas da CloudRift no X.com com a seguinte pergunta: “A RTX 5090 e a RTX Pro 6000 apresentam algum defeito de hardware? Investigamos o problema, mas não encontramos uma solução.”

Discussões nos fóruns do Proxmox e na comunidade Level1Techs indicam que usuários domésticos e outros proprietários da RTX 5090 também estão enfrentando comportamento semelhante.Assim, em um caso, o usuário relatou um congelamento completo do host após desligar o sistema convidado do Windows, enquantoA GPU falhou ao reinicializar mesmo após a reinicialização do sistema operacional. Em outro caso, um usuário relatou: “Descobri que meu host parou de responder. Uma depuração mais aprofundada mostrou que a CPU do host travou após um tempo limite de FLR, que ocorreu após o desligamento do LinuxVM. Minha placa RTX 4080 anterior não apresentou problemas.”

Vários usuários confirmaram que a troca das configurações PCIe ASPM ou ACS não corrigiu o problema. GPUs Nvidia de gerações anteriores, como a RTX 4090, não apresentaram problemas, sugerindo que o bug pode ser específico da atual família de GPUs Nvidia Blackwell.

O FLR é um recurso crítico em configurações de passagem de GPU, permitindo que o dispositivo seja reiniciado com segurança e reutilizado entre convidados. Se o FLR não estiver funcionando, cargas de trabalho de IA multiusuário e laboratórios domésticos que usam virtualização tornam-se arriscados, especialmente quando uma única falha de GPU pode derrubar todo o host. A Nvidia ainda não reconheceu oficialmente o problema e, no momento da publicação deste artigo, não havia uma solução conhecida.

By admin

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *