NVIDIA explicou por que os aceleradores GeForce RTX série 30 tiveram tanto desempenho

A NVIDIA revelou a nova geração de placas de vídeo para jogos Ampere em 1º de setembro, mas a apresentação inicial era apenas técnica. Agora, alguns dias depois, a empresa lançou a documentação que esclarece de onde vem a impressionante vantagem de desempenho que diferencia a placa de vídeo GeForce RTX série 30 de suas predecessoras.

Muitos perceberam imediatamente que as especificações oficiais da GeForce RTX 3090, GeForce RTX 3080 e GeForce RTX 3070 no site da NVIDIA indicavam um número esmagador de processadores CUDA.

Como se viu, a duplicação do desempenho FP32 dos processadores para jogos Ampere em comparação com o Turing está realmente ocorrendo, e é devido a uma mudança na arquitetura dos blocos de construção básicos das GPUs – processadores stream (SM).

Enquanto o SM nas GPUs da geração Turing tinha um caminho computacional para operações de ponto flutuante, em Ampère, cada processador de fluxo recebeu dois caminhos, que no total podem realizar até 128 operações FMA por clock em comparação com 64 para Turing. Ao mesmo tempo, metade dos dispositivos executivos Ampere disponíveis são capazes de realizar operações de número inteiro (INT) e operações de ponto flutuante de 32 bits (FP32), enquanto a outra metade dos dispositivos é projetada exclusivamente para operações FP32. Essa abordagem foi usada para economizar o orçamento do transistor, assumindo que a carga do jogo gera significativamente mais operações FP32 do que INT. No entanto, em Turing, não havia nenhum atuador combinado.

Ao mesmo tempo, para fornecer aos processadores de stream reforçados a quantidade necessária de dados, a NVIDIA aumentou a quantidade de cache L1 no SM em um terço (de 96 para 128 KB) e também dobrou sua taxa de transferência.

Outro grande aprimoramento no Ampere é que CUDA, RT e Tensor Cores agora podem ser executados completamente em paralelo. Isso permite que o mecanismo gráfico, por exemplo, use DLSS para dimensionar um quadro e, ao mesmo tempo, calcular o próximo quadro nos núcleos CUDA e RT, reduzindo o tempo de inatividade dos nós funcionais e aumentando o desempenho geral.

A isso deve ser adicionado que os núcleos RT de segunda geração, que são implementados em Amrere, podem calcular interseções de raios de triângulos duas vezes mais rápido do que em Turing. E os novos núcleos tensores de terceira geração dobraram o desempenho matemático ao trabalhar com matrizes esparsas.

Dobrar a velocidade de cálculo de interseções de triângulo em Ampère deve ter um impacto significativo no desempenho dos aceleradores GeForce RTX série 30 em jogos com suporte para ray tracing. De acordo com a NVIDIA, essa característica é o gargalo da arquitetura de Turing, enquanto os indicadores da velocidade de cálculo das interseções dos raios dos paralelepípedos delimitadores não causam reclamações. Agora o equilíbrio de desempenho no roteamento está otimizado e, além disso, em Ampère os dois tipos de operações com raios (com triângulos e paralelepípedos) podem ser realizados em paralelo.

Além disso, uma nova funcionalidade foi adicionada para núcleos RT em Ampère para interpolar a posição dos triângulos. Isso pode ser usado para desfocar objetos em movimento quando nem todos os triângulos na cena estão em uma posição constante.

Para ilustrar tudo isso, a NVIDIA mostrou uma comparação direta de como as GPUs Turing e Ampere trabalham no rastreamento de raios em Wolfenstein Youngblood em 4K. Como segue da ilustração apresentada, o Ampere ganha visivelmente na velocidade de construção de quadros devido aos cálculos matemáticos FP32 mais rápidos e graças aos núcleos RT de segunda geração, bem como à operação paralela de recursos GPU heterogêneos.

Além disso, para suporte prático do acima exposto, a NVIDIA apresentou resultados de teste adicionais para a GeForce RTX 3090, GeForce RTX 3080 e GeForce RTX 3070. De acordo com eles, a GeForce RTX 3070 está cerca de 60% à frente da GeForce RTX 2070 em uma resolução de 1440p, e esta imagem é observada como nos jogos com suporte RTX, e com rasterização tradicional, em particular, em Borderlands 3.

O desempenho da GeForce RTX 3080 é duas vezes melhor que o da GeForce RTX 2080 com resolução de 4K. É verdade que, neste caso, em Borderlands 3 sem suporte RTX, a vantagem do novo mapa não é dupla, mas cerca de 80 por cento.

E a placa mais antiga, GeForce RTX 3090, nos próprios testes da NVIDIA mostra meia vantagem sobre a Titan RTX.

As análises completas do projeto de referência GeForce RTX 3080 devem ser publicadas em 14 de setembro, de acordo com jornalistas técnicos. Três dias depois, em 17 de setembro, será permitida a publicação de dados de teste dos modelos de produção GeForce RTX 3080 dos parceiros da empresa. Assim, o aparecimento na Web dos resultados de testes independentes de representantes da série GeForce RTX 30 é muito pouco que esperar.

avalanche

Postagens recentes

Google vai estender a funcionalidade de versões mais antigas do Android

O Google anunciou o lançamento da estrutura Extension Software Developer Kit, que permitirá aos desenvolvedores…

13 minutos atrás

O desenvolvedor mostrou um protótipo do jogo para o qual as redes neurais ajudaram a criar o personagem principal e todo o local

Um desenvolvedor da Finlândia trabalhou recentemente em um protótipo do jogo, ao mesmo tempo em…

14 minutos atrás

“James Webb” mostra como uma onda de choque do tamanho da Via Láctea muda o espaço ao redor de um grupo de galáxias

Colisões de galáxias geram ondas de choque gigantes, que levam a muitos fenômenos interessantes até…

29 minutos atrás

Meta removerá o botão de loja da barra de navegação do Instagram

O aplicativo Instagram* está prestes a receber uma atualização que trará uma barra de navegação…

34 minutos atrás

Os hackers podem forçar remotamente os dispositivos Wi-Fi a esgotar suas baterias – usando o próprio Wi-Fi

Os dispositivos habilitados para Wi-Fi se comunicam entre si mesmo que não estejam conectados à…

49 minutos atrás