Oracle e NVIDIA anunciaram o maior cluster de IA em nuvem até o momento, composto por 131.072 aceleradores NVIDIA B200 (Blackwell). Segundo as empresas, este é o primeiro sistema de 2,4 Zflops (FP8) do mundo. O cluster começará a operar no primeiro semestre de 2025, mas a empresa está pronta para aceitar pedidos de instâncias bare-metal e Supercluster OCI agora. Os clientes também poderão escolher o tipo de conexão: RoCEv2 (ConnectX-7/8) ou InfiniBand (Quantum-2).
Segundo a empresa, o novo cluster de IA é seis vezes maior do que o que AWS, Microsoft Azure e Google Cloud podem oferecer. Além disso, a empresa oferece outros clusters com aceleradores NVIDIA: 32768xA100, 16384xH100, 65536xH200 e 3840xL40S. E para o ano que vem estão prometidos clusters baseados no GB200 NVL72, combinando mais de 100 mil aceleradores GB200. VMs GPU.A100.1 e GPU.H100.1 muito mais modestas com um acelerador A100/H100 (80 GB) também aparecerão em breve.
As instâncias GPU.H200.8 estão disponíveis para pedido agora, apresentando oito aceleradores H200 (141 GB), 30,7 TB de armazenamento NVMe local e conectividade 200G. A família de instâncias baseadas em NVIDIA Blackwell até agora inclui apenas duas opções. GPU.B200.8 oferece oito aceleradores B200 (192 GB), 30,7 TB de armazenamento NVMe local e conectividade 400G. Por fim, o GPU.GB200 é essencialmente o superacelerador GB200 NVL72 e inclui 72 aceleradores B200, 36 processadores Arm Grace e 533 TB de armazenamento NVMe local. A velocidade agregada da conexão de rede é de 7,2 Tbit/s.
Para todas as novas instâncias, a Oracle fornecerá armazenamento Lustre gerenciado com desempenho de até 8 Gbps por TB. Além disso, a empresa oferecerá ferramentas avançadas de monitoramento e gerenciamento, assistência na configuração de infraestrutura para atingir o nível desejado de desempenho no mundo real, bem como um conjunto de software otimizado para trabalhar com IA, inclusive para Arm.