GeForce RTX 5090 começou a travar nas estações de trabalho – o motivo não está claro e apenas uma reinicialização ajuda

As placas de vídeo Nvidia GeForce RTX 5090 e RTX Pro 6000 foram afetadas por um problema de redefinição do recurso de virtualização reproduzível que pode fazer com que as placas de vídeo fiquem completamente sem resposta até que o sistema host seja reinicializado fisicamente.

Fonte da imagem: Reddit

A CloudRift, provedora de computação em nuvem com GPUs, publicou uma descrição detalhada de um problema encontrado em vários sistemas equipados com aceleradores Blackwell. A empresa chegou a anunciar uma recompensa pública de US$ 1.000 para quem corrigir ou encontrar a causa raiz. De acordo com a CloudRift, o erro ocorre após a GPU ser conectada a uma máquina virtual usando KVM e VFIO. Ao desligar o convidado ou reatribuir a GPU, o host executa uma Redefinição de Nível de Função PCIe (FLR), que é um procedimento padrão para limpar um dispositivo conectado ao sistema host. Mas, em vez de retornar a um estado conhecido como bom, a GPU deixa de responder e um erro de kernel aparece: “não pronto 65535ms após FLR; desistindo”. Nesse ponto, a placa também se torna ilegível pelo lspci, resultando em erros de “cabeçalho tipo 7f desconhecido”. A CloudRift observa que a única maneira de restaurar a operação normal é reinicializar todo o sistema.

A Tiny Corp, startup de IA que desenvolve a estrutura de aprendizado profundo tinygrad, chamou a atenção para o problema ao publicar as descobertas da CloudRift no X.com com a seguinte pergunta: “A RTX 5090 e a RTX Pro 6000 apresentam algum defeito de hardware? Investigamos o problema, mas não encontramos uma solução.”

Discussões nos fóruns do Proxmox e na comunidade Level1Techs indicam que usuários domésticos e outros proprietários da RTX 5090 também estão enfrentando comportamento semelhante.Assim, em um caso, o usuário relatou um congelamento completo do host após desligar o sistema convidado do Windows, enquantoA GPU falhou ao reinicializar mesmo após a reinicialização do sistema operacional. Em outro caso, um usuário relatou: “Descobri que meu host parou de responder. Uma depuração mais aprofundada mostrou que a CPU do host travou após um tempo limite de FLR, que ocorreu após o desligamento do LinuxVM. Minha placa RTX 4080 anterior não apresentou problemas.”

Vários usuários confirmaram que a troca das configurações PCIe ASPM ou ACS não corrigiu o problema. GPUs Nvidia de gerações anteriores, como a RTX 4090, não apresentaram problemas, sugerindo que o bug pode ser específico da atual família de GPUs Nvidia Blackwell.

O FLR é um recurso crítico em configurações de passagem de GPU, permitindo que o dispositivo seja reiniciado com segurança e reutilizado entre convidados. Se o FLR não estiver funcionando, cargas de trabalho de IA multiusuário e laboratórios domésticos que usam virtualização tornam-se arriscados, especialmente quando uma única falha de GPU pode derrubar todo o host. A Nvidia ainda não reconheceu oficialmente o problema e, no momento da publicação deste artigo, não havia uma solução conhecida.

admin

Postagens recentes

A MSI aumentou os preços de suas placas de vídeo, e a Asus e a Gigabyte seguirão o exemplo até o final do mês.

A Nvidia e a AMD estão aumentando os preços de seus chips gráficos e kits…

47 minutos atrás

A Intel revelou quando irá descontinuar o Core i9-12900K e outros processadores de desktop da série Alder Lake.

A Intel decidiu descontinuar seus processadores Core de 12ª geração, também conhecidos como Alder Lake.…

57 minutos atrás

A Asus adiciona a função Color Sync aos computadores Apple Mac em monitores ProArt.

A Asus lançou novos recursos de ajuste de cores para monitores selecionados da série ProArt,…

2 horas atrás

O mercado de PCs está crescendo, mas não graças à IA — a culpa é da Microsoft.

De acordo com novos dados da consultoria Gartner, as remessas globais de PCs por meio…

2 horas atrás

Um veterano da Microsoft finalmente explicou por que manter pressionada a tecla Shift acelerava as reinicializações do Windows 95.

Raymond Chen, da Microsoft, explicou por que manter pressionada a tecla Shift durante a reinicialização…

2 horas atrás