A AWS pretende atrair mais pessoas para desenvolver aplicativos e estruturas de IA usando a família de aceleradores Tranium da Amazon. Como parte da nova iniciativa Build on Trainium, com US$ 110 milhões em financiamento, a academia receberá clusters UltraClaster, incluindo até 40 mil aceleradores, relata o The Register.
Como parte do programa Build on Trainium, está previsto fornecer acesso ao cluster a representantes de universidades que estejam engajadas no desenvolvimento de novos algoritmos de IA que possam aumentar a eficiência do uso de aceleradores e melhorar o escalonamento de cálculos em grandes sistemas distribuídos. . Não está especificado em qual geração de chips, Trainium1 ou Trainium2, os clusters serão construídos.
Como explica o próprio blog da AWS, os pesquisadores podem criar novas arquiteturas de modelos de IA ou novas tecnologias de otimização de desempenho, mas podem não ter acesso a recursos de HPC para grandes experimentos. Igualmente importante, espera-se que os frutos do trabalho sejam distribuídos através de um modelo de código aberto, para que todo o ecossistema de aprendizagem automática beneficie disto.
No entanto, há pouco altruísmo por parte da AWS. Em primeiro lugar, serão emitidos 110 milhões de dólares para projetos selecionados na forma de empréstimos na nuvem, o que não é a primeira vez que isto acontece. Em segundo lugar, a empresa está, na verdade, a tentar transferir algumas das suas tarefas para outras pessoas. Os chips personalizados da AWS, incluindo aceleradores de IA para treinamento e inferência, foram originalmente desenvolvidos para melhorar a eficiência das tarefas internas da empresa. No entanto, estruturas de baixo nível, etc. O software não foi projetado para ser usado livremente por uma ampla gama de pessoas, como, por exemplo, é o caso do NVIDIA CUDA.
Em outras palavras, para popularizar o Trainium, a AWS precisa de um software mais fácil de aprender e, ainda melhor, de soluções prontas para problemas de aplicação. Não é por acaso que a Intel e a AMD tendem a oferecer aos desenvolvedores estruturas prontas como PyTorch e TensorFlow otimizadas para seus aceleradores, em vez de tentar forçá-los a fazer programação de baixo nível. A AWS faz a mesma coisa com produtos como o SageMaker.
O projeto é em grande parte possível graças à nova Neuron Kernel Interface (NKI) para AWS Tranium e Inferentia, que fornece acesso direto ao conjunto de instruções do chip e permite aos pesquisadores construir kernels de computação otimizados para novos modelos, otimização de desempenho e inovação em geral. No entanto, os cientistas – ao contrário dos desenvolvedores comuns – estão frequentemente interessados em trabalhar com sistemas de baixo nível.