Categorias: Mercado de tecnologia e TI. notíciaPlacas de vídeo

GeForce RTX 5090 começou a travar nas estações de trabalho – o motivo não está claro e apenas uma reinicialização ajuda

As placas de vídeo Nvidia GeForce RTX 5090 e RTX Pro 6000 foram afetadas por um problema de redefinição do recurso de virtualização reproduzível que pode fazer com que as placas de vídeo fiquem completamente sem resposta até que o sistema host seja reinicializado fisicamente.

Fonte da imagem: Reddit

A CloudRift, provedora de computação em nuvem com GPUs, publicou uma descrição detalhada de um problema encontrado em vários sistemas equipados com aceleradores Blackwell. A empresa chegou a anunciar uma recompensa pública de US$ 1.000 para quem corrigir ou encontrar a causa raiz. De acordo com a CloudRift, o erro ocorre após a GPU ser conectada a uma máquina virtual usando KVM e VFIO. Ao desligar o convidado ou reatribuir a GPU, o host executa uma Redefinição de Nível de Função PCIe (FLR), que é um procedimento padrão para limpar um dispositivo conectado ao sistema host. Mas, em vez de retornar a um estado conhecido como bom, a GPU deixa de responder e um erro de kernel aparece: “não pronto 65535ms após FLR; desistindo”. Nesse ponto, a placa também se torna ilegível pelo lspci, resultando em erros de “cabeçalho tipo 7f desconhecido”. A CloudRift observa que a única maneira de restaurar a operação normal é reinicializar todo o sistema.

A Tiny Corp, startup de IA que desenvolve a estrutura de aprendizado profundo tinygrad, chamou a atenção para o problema ao publicar as descobertas da CloudRift no X.com com a seguinte pergunta: “A RTX 5090 e a RTX Pro 6000 apresentam algum defeito de hardware? Investigamos o problema, mas não encontramos uma solução.”

Discussões nos fóruns do Proxmox e na comunidade Level1Techs indicam que usuários domésticos e outros proprietários da RTX 5090 também estão enfrentando comportamento semelhante.Assim, em um caso, o usuário relatou um congelamento completo do host após desligar o sistema convidado do Windows, enquantoA GPU falhou ao reinicializar mesmo após a reinicialização do sistema operacional. Em outro caso, um usuário relatou: “Descobri que meu host parou de responder. Uma depuração mais aprofundada mostrou que a CPU do host travou após um tempo limite de FLR, que ocorreu após o desligamento do LinuxVM. Minha placa RTX 4080 anterior não apresentou problemas.”

Vários usuários confirmaram que a troca das configurações PCIe ASPM ou ACS não corrigiu o problema. GPUs Nvidia de gerações anteriores, como a RTX 4090, não apresentaram problemas, sugerindo que o bug pode ser específico da atual família de GPUs Nvidia Blackwell.

O FLR é um recurso crítico em configurações de passagem de GPU, permitindo que o dispositivo seja reiniciado com segurança e reutilizado entre convidados. Se o FLR não estiver funcionando, cargas de trabalho de IA multiusuário e laboratórios domésticos que usam virtualização tornam-se arriscados, especialmente quando uma única falha de GPU pode derrubar todo o host. A Nvidia ainda não reconheceu oficialmente o problema e, no momento da publicação deste artigo, não havia uma solução conhecida.

admin

Próximo O processo 14A da Intel será significativamente mais caro do que o 18A devido ao hardware EUV de alta NA »

Anterior « Golpistas enganam Grok para distribuir links maliciosos

Deixar comentário

Publicado por

admin

10 meses atrás

Postagens recentes

Notícias da rede

A série God of War será refeita com um novo Kratos – Ryan Hurst ficou gravemente ferido

\nA produção da próxima série God of War da Amazon MGM Studios, baseada na série…

1 hora atrás

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

A Moonshot AI chinesa lançou o maior modelo de IA aberto do mundo, Kimi K3 – tem 2,8 trilhões de parâmetros

\nA empresa chinesa Moonshot AI apresentou um grande modelo de linguagem, Kimi K3 – possui…

2 horas atrás

Módulos de RAM, cartões de memória, pen drives, leitores de cartões

A bolha da IA começou a esvaziar? Kioxia perdeu metade do seu valor em um mês

\nA crescente volatilidade no mercado de ações sugere que os investidores não estão mais tão…

2 horas atrás

Jogos

Apenas raiva: o trailer cinematográfico de Wolverine da Marvel lembrou aos jogadores a dor de perder discos

\nA editora Sony Interactive Entertainment e os desenvolvedores da Insomniac Games (duologia do Homem-Aranha da…

2 horas atrás

Espaço

Outro voo de teste da SpaceX Starship foi cancelado no último momento

\nA SpaceX planejava realizar o 13º teste de lançamento do foguete Starship, mas no último…

2 horas atrás

Carros, motos, veículos

A investigação confirmou que o motorista que bateu em uma casa de um Tesla Model 3 assumiu o controle do piloto automático pressionando o pedal do acelerador.

\nMesmo nos estágios iniciais da investigação de um acidente no Texas, que resultou na morte…

3 horas atrás

GeForce RTX 5090 começou a travar nas estações de trabalho – o motivo não está claro e apenas uma reinicialização ajuda

Conteúdo relacionado

Postagens recentes

A série God of War será refeita com um novo Kratos – Ryan Hurst ficou gravemente ferido

A Moonshot AI chinesa lançou o maior modelo de IA aberto do mundo, Kimi K3 – tem 2,8 trilhões de parâmetros

A bolha da IA ​​começou a esvaziar? Kioxia perdeu metade do seu valor em um mês

Apenas raiva: o trailer cinematográfico de Wolverine da Marvel lembrou aos jogadores a dor de perder discos

Outro voo de teste da SpaceX Starship foi cancelado no último momento

A investigação confirmou que o motorista que bateu em uma casa de um Tesla Model 3 assumiu o controle do piloto automático pressionando o pedal do acelerador.

A bolha da IA começou a esvaziar? Kioxia perdeu metade do seu valor em um mês