As placas de vídeo Nvidia GeForce RTX 5090 e RTX Pro 6000 foram afetadas por um problema de redefinição do recurso de virtualização reproduzível que pode fazer com que as placas de vídeo fiquem completamente sem resposta até que o sistema host seja reinicializado fisicamente.
Fonte da imagem: Reddit
A CloudRift, provedora de computação em nuvem com GPUs, publicou uma descrição detalhada de um problema encontrado em vários sistemas equipados com aceleradores Blackwell. A empresa chegou a anunciar uma recompensa pública de US$ 1.000 para quem corrigir ou encontrar a causa raiz. De acordo com a CloudRift, o erro ocorre após a GPU ser conectada a uma máquina virtual usando KVM e VFIO. Ao desligar o convidado ou reatribuir a GPU, o host executa uma Redefinição de Nível de Função PCIe (FLR), que é um procedimento padrão para limpar um dispositivo conectado ao sistema host. Mas, em vez de retornar a um estado conhecido como bom, a GPU deixa de responder e um erro de kernel aparece: “não pronto 65535ms após FLR; desistindo”. Nesse ponto, a placa também se torna ilegível pelo lspci, resultando em erros de “cabeçalho tipo 7f desconhecido”. A CloudRift observa que a única maneira de restaurar a operação normal é reinicializar todo o sistema.
A Tiny Corp, startup de IA que desenvolve a estrutura de aprendizado profundo tinygrad, chamou a atenção para o problema ao publicar as descobertas da CloudRift no X.com com a seguinte pergunta: “A RTX 5090 e a RTX Pro 6000 apresentam algum defeito de hardware? Investigamos o problema, mas não encontramos uma solução.”
Discussões nos fóruns do Proxmox e na comunidade Level1Techs indicam que usuários domésticos e outros proprietários da RTX 5090 também estão enfrentando comportamento semelhante.Assim, em um caso, o usuário relatou um congelamento completo do host após desligar o sistema convidado do Windows, enquantoA GPU falhou ao reinicializar mesmo após a reinicialização do sistema operacional. Em outro caso, um usuário relatou: “Descobri que meu host parou de responder. Uma depuração mais aprofundada mostrou que a CPU do host travou após um tempo limite de FLR, que ocorreu após o desligamento do LinuxVM. Minha placa RTX 4080 anterior não apresentou problemas.”
Vários usuários confirmaram que a troca das configurações PCIe ASPM ou ACS não corrigiu o problema. GPUs Nvidia de gerações anteriores, como a RTX 4090, não apresentaram problemas, sugerindo que o bug pode ser específico da atual família de GPUs Nvidia Blackwell.
O FLR é um recurso crítico em configurações de passagem de GPU, permitindo que o dispositivo seja reiniciado com segurança e reutilizado entre convidados. Se o FLR não estiver funcionando, cargas de trabalho de IA multiusuário e laboratórios domésticos que usam virtualização tornam-se arriscados, especialmente quando uma única falha de GPU pode derrubar todo o host. A Nvidia ainda não reconheceu oficialmente o problema e, no momento da publicação deste artigo, não havia uma solução conhecida.
A Nvidia e a AMD estão aumentando os preços de seus chips gráficos e kits…
A Intel decidiu descontinuar seus processadores Core de 12ª geração, também conhecidos como Alder Lake.…
Tradicionalmente, as fontes de alimentação continuam sendo um dos componentes de PC mais subestimados, apesar…
A Asus lançou novos recursos de ajuste de cores para monitores selecionados da série ProArt,…
De acordo com novos dados da consultoria Gartner, as remessas globais de PCs por meio…
Raymond Chen, da Microsoft, explicou por que manter pressionada a tecla Shift durante a reinicialização…