A divisão Amazon Web Services (AWS) da Amazon anunciou em sua conferência re:Invent que os clientes de sua plataforma em nuvem agora podem usar sistemas alimentados por aceleradores Trainium2, projetados para treinar e executar grandes modelos de linguagem de inteligência artificial.
Os chips lançados no ano passado são quatro vezes mais rápidos que seus antecessores: uma instância EC2 com 16 aceleradores Trainium2 oferece desempenho de até 20,8 Pflops. Isso significa que ao implantar o modelo em escala Meta✴ Llama 405B na plataforma Amazon Bedrock, o cliente receberá um “aumento de 3x na velocidade de geração de token em comparação com outras ofertas disponíveis dos principais provedores de nuvem”. Você também pode escolher o sistema EC2 Trn2 UltraServer com 64 aceleradores Trainium2 e 83,2 Pflops de desempenho. Nota-se que o valor de 20,8 Pflops refere-se a modelos densos e precisão de FP8, e 83,2 Pflops refere-se a modelos esparsos e FP8. Para comunicação entre aceleradores em sistemas UltraServer, é utilizada a interconexão NeuronLink.
Juntamente com o seu parceiro Anthropic, principal concorrente da OpanAI na área de grandes modelos de linguagem, a AWS pretende construir um grande cluster de sistemas UltraServer com “centenas de milhares de chips Trainium2” onde a startup possa treinar os seus modelos. Será cinco vezes mais poderoso do que o cluster no qual a Anthropic treinou seus modelos de geração atual – a AWS estima que “será o maior cluster de computação de IA do mundo relatado até o momento”. O projeto ajudará a empresa a superar o desempenho dos atuais aceleradores Nvidia, que ainda são muito procurados e escassos. Embora no início do próximo ano a Nvidia esteja se preparando para lançar uma nova geração de aceleradores Blackwell, que, com 72 chips por rack, oferecerá até 720 Pflops para FP8.
Talvez seja por isso que a AWS já anunciou a próxima geração de aceleradores Trainium3, que oferecem outro aumento de quatro vezes no desempenho dos sistemas UltraServer – os aceleradores serão fabricados usando a tecnologia de processo de 3 nm e sua implantação começará no final de 2025. A empresa justificou a necessidade de sistemas de nova geração pelo fato de que os modelos modernos de IA estão se aproximando de trilhões de parâmetros em escala. Atualmente, as instâncias Trn2 estão disponíveis apenas na região Leste dos EUA da infraestrutura da AWS, mas em breve aparecerão em outras; Os sistemas UltraServer atualmente operam em modo de pré-acesso.