Uma investigação de cinco meses da SemiAnalysis descobriu que a série AMD MI300X de aceleradores de IA dedicados não estava atingindo seu potencial máximo devido a sérios problemas de software. Este fato torna inúteis todos os esforços da empresa para impor uma concorrência acirrada da Nvidia, que domina o mercado de hardware de IA.

Fonte da imagem: O Decodificador

O estudo descobriu que o software AMD está repleto de bugs que tornam o treinamento de modelos de IA quase impossível sem uma depuração significativa. Assim, enquanto a AMD trabalha para garantir a qualidade e facilidade de uso de seus aceleradores, a Nvidia continua a ampliar a lacuna, lançando novos recursos, bibliotecas e melhorando o desempenho de suas soluções.

Após extensos testes, incluindo testes GEMM e treinamento de nó único, os pesquisadores concluíram que a AMD é incapaz de superar o que eles chamam de “fosso inexpugnável CUDA” – a forte vantagem de software que os aceleradores Nvidia têm.

Fonte da imagem: SemiAnalysis

O AMD MI300X parece impressionante no papel: 1307 teraflops em cálculos FP16 e 192 GB de memória HBM3. Para efeito de comparação, os aceleradores Nvidia H100 têm desempenho de 989 teraflops e possuem apenas 80 GB de memória. No entanto, a nova geração de aceleradores Nvidia H200 AI, com configurações de até 141 GB de memória, está diminuindo a lacuna no buffer de memória disponível. Além disso, os sistemas baseados em aceleradores AMD também oferecem menor custo total de propriedade devido aos preços mais baixos do sistema e ao suporte de infraestrutura de rede mais acessível.

Fonte da imagem: SemiAnalysis

No entanto, estas vantagens significam pouco na prática. De acordo com SemiAnalysis, comparar especificações básicas é como “comparar câmeras simplesmente verificando a contagem de megapixels de uma com a outra”. A AMD, dizem os analistas, está “apenas brincando com números”, mas suas soluções não fornecem um nível suficiente de desempenho em tarefas reais.


Os pesquisadores observam que tiveram que trabalhar diretamente com os engenheiros da AMD para corrigir vários bugs no software e obter resultados de testes avaliáveis. Ao mesmo tempo, os sistemas baseados em aceleradores Nvidia funcionaram perfeitamente e sem quaisquer configurações adicionais.

«


Um caso particularmente revelador para SemiAnalysis foi quando a TensorWave, o maior fornecedor de soluções em nuvem baseadas em GPU da AMD, foi forçada a dar à equipe de engenharia da AMD acesso gratuito às suas GPUs – o mesmo hardware que a TensorWave comprou da AMD – apenas para solucionar problemas de fornecimento de software. .

Para resolver os problemas, os especialistas da SemiAnalysis recomendam que a CEO da AMD, Lisa Su, invista mais ativamente no desenvolvimento e testes de software. Especificamente, eles propõem dedicar milhares de chips MI300X para testes automatizados (uma abordagem semelhante que a Nvidia segue para seus aceleradores), simplificando variáveis ​​de ambiente complexas e introduzindo configurações padrão mais eficientes para aceleradores. “Torne a experiência final utilizável!” – chamam os especialistas.

Representantes da SemiAnalysis admitem em seu relatório que desejam sucesso à AMD na competição com a Nvidia, mas observam que “infelizmente, ainda há muito a ser feito para isso”. Sem melhorias significativas de software, a AMD corre o risco de ficar ainda mais para trás enquanto a Nvidia se prepara para lançar em massa sua próxima geração de aceleradores Blackwell. Embora, segundo relatos, esse processo também não esteja indo totalmente bem para a Nvidia.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *