O Google revelou hoje o Projeto Deschutes, uma tecnologia de energia CC de 400 V de quinta geração e um sistema de resfriamento líquido para racks de última geração, projetados para dar suporte ao rápido avanço da IA. A empresa vem usando energia de 48 VCC nos últimos dez anos, mas a mudança para o novo padrão aumentará a potência máxima por rack de 100 kW para 1 MW.
Espera-se que racks individuais com sistemas de IA consumam mais de 500 kW até 2030. Assim, o próximo superacelerador NVIDIA Rubin Ultra NVL576, que aparecerá em 2027, será “embalado” em um rack Kyber de nova geração e consumirá cerca de 600 kW. O Google provavelmente desenvolverá sua própria modificação deste acelerador, adaptado aos seus data centers, como já fez para o GB200 NVL72.
O uso de 400 V permite o uso da cadeia de suprimentos usada pela indústria de veículos elétricos, o que ajuda a reduzir custos e melhorar a qualidade. O Google está trabalhando com a Meta✴ e a Microsoft no Mt. Diablo, que desenvolve padrões comuns para interfaces elétricas e mecânicas. A primeira versão das especificações (v0.5) estará disponível para comentários da indústria em maio de 2025.

Fonte da imagem: Google
O subsistema de energia no Monte Diablo foi movido para um módulo separado (sidecar). Isso aumenta o espaço útil em racks de servidores, permitindo que eles sejam inteiramente dedicados a aceleradores, e melhora a eficiência energética geral em aproximadamente 3%, o que é muito significativo em uma escala de hiperescala. Olhando para o futuro, estamos planejando migrar para a distribuição direta de energia CC de alta tensão dentro do data center para obter ainda mais eficiência e densidade.

Fonte da imagem: Google
Com o aumento acentuado no consumo de energia dos chips, o uso de sistemas de resfriamento líquido se tornou inevitável. Nos últimos sete anos, o Google implantou o LSS em mais de 2.000 clusters TPU Pod. O resfriamento líquido foi usado pela primeira vez nos aceleradores de IA TPU v3, que surgiram em 2018. A empresa usa blocos de água, o que permite quase dobrar a densidade de poder de computação em comparação ao resfriamento a ar. Ao migrar do TPU v2 para o TPU v3, isso também permitiu que os tamanhos dos clusters fossem quadruplicados. Sistemas de resfriamento líquido também são usados para aceleradores Ironwood (TPU v7).
A arquitetura CDU do Projeto Deschutes, que utiliza trocadores de calor e bombas redundantes, oferece 99,999% de disponibilidade. O Google planeja entregar a quinta geração do Projeto Deschutes ao Open Compute Project (OCP) em 2025. A publicação de especificações, dados de design e recomendações operacionais acelerará a implementação em massa do LSS no setor. A empresa está confiante de que os esforços conjuntos ajudarão o setor a lidar com os desafios futuros do setor de IA e a aumentar ainda mais o poder da computação.
