GeForce RTX 5090 começou a travar nas estações de trabalho – o motivo não está claro e apenas uma reinicialização ajuda

As placas de vídeo Nvidia GeForce RTX 5090 e RTX Pro 6000 foram afetadas por um problema de redefinição do recurso de virtualização reproduzível que pode fazer com que as placas de vídeo fiquem completamente sem resposta até que o sistema host seja reinicializado fisicamente.

Fonte da imagem: Reddit

A CloudRift, provedora de computação em nuvem com GPUs, publicou uma descrição detalhada de um problema encontrado em vários sistemas equipados com aceleradores Blackwell. A empresa chegou a anunciar uma recompensa pública de US$ 1.000 para quem corrigir ou encontrar a causa raiz. De acordo com a CloudRift, o erro ocorre após a GPU ser conectada a uma máquina virtual usando KVM e VFIO. Ao desligar o convidado ou reatribuir a GPU, o host executa uma Redefinição de Nível de Função PCIe (FLR), que é um procedimento padrão para limpar um dispositivo conectado ao sistema host. Mas, em vez de retornar a um estado conhecido como bom, a GPU deixa de responder e um erro de kernel aparece: “não pronto 65535ms após FLR; desistindo”. Nesse ponto, a placa também se torna ilegível pelo lspci, resultando em erros de “cabeçalho tipo 7f desconhecido”. A CloudRift observa que a única maneira de restaurar a operação normal é reinicializar todo o sistema.

A Tiny Corp, startup de IA que desenvolve a estrutura de aprendizado profundo tinygrad, chamou a atenção para o problema ao publicar as descobertas da CloudRift no X.com com a seguinte pergunta: “A RTX 5090 e a RTX Pro 6000 apresentam algum defeito de hardware? Investigamos o problema, mas não encontramos uma solução.”

Discussões nos fóruns do Proxmox e na comunidade Level1Techs indicam que usuários domésticos e outros proprietários da RTX 5090 também estão enfrentando comportamento semelhante.Assim, em um caso, o usuário relatou um congelamento completo do host após desligar o sistema convidado do Windows, enquantoA GPU falhou ao reinicializar mesmo após a reinicialização do sistema operacional. Em outro caso, um usuário relatou: “Descobri que meu host parou de responder. Uma depuração mais aprofundada mostrou que a CPU do host travou após um tempo limite de FLR, que ocorreu após o desligamento do LinuxVM. Minha placa RTX 4080 anterior não apresentou problemas.”

Vários usuários confirmaram que a troca das configurações PCIe ASPM ou ACS não corrigiu o problema. GPUs Nvidia de gerações anteriores, como a RTX 4090, não apresentaram problemas, sugerindo que o bug pode ser específico da atual família de GPUs Nvidia Blackwell.

O FLR é um recurso crítico em configurações de passagem de GPU, permitindo que o dispositivo seja reiniciado com segurança e reutilizado entre convidados. Se o FLR não estiver funcionando, cargas de trabalho de IA multiusuário e laboratórios domésticos que usam virtualização tornam-se arriscados, especialmente quando uma única falha de GPU pode derrubar todo o host. A Nvidia ainda não reconheceu oficialmente o problema e, no momento da publicação deste artigo, não havia uma solução conhecida.

admin

Postagens recentes

NVIDIA, CoreWeave e Google viraram as costas para a startup de IA Poolside.

A startup de IA Poolside está negociando com provedores de nuvem, incluindo o Google, na…

33 minutos atrás

Os modelos de IA demonstraram propensão a mentir e distorcer os fatos para proteger sua própria espécie.

Os modelos de inteligência artificial são propensos a enganar os usuários e a outras manipulações…

33 minutos atrás

A Yandex está se preparando para um lançamento em massa de robotáxis e carros autônomos até 2028.

A Yandex planeja começar a comercializar veículos robóticos em 2028, tanto no setor de táxis…

46 minutos atrás

Golpistas começaram a disfarçar malware como código-fonte vazado do Anthropic Claude Code.

Esta semana, o código-fonte do serviço Claude Code da Anthropic vazou — a empresa tomou…

59 minutos atrás

A JEDEC permitirá o crescimento da memória HBM4E para simplificar a produção e reduzir custos.

A memória empilhada, chamada HBM, é considerada uma das mais rápidas do mercado, mas continua…

59 minutos atrás