Grande IA precisa de um grande sistema de resfriamento líquido: Google fala sobre sistema de resfriamento TPU

O resfriamento líquido é usado em data centers há muito tempo, embora não em todos os lugares. Recentemente, tornou-se cada vez mais importante em vista do aumento do consumo de energia e da geração de calor dos equipamentos de IA. O Google falou sobre a evolução do resfriamento em nível de data center para seus aceleradores de IA TPU, segundo relatórios da Chips and Cheese.

O Google equipou suas TPUs com refrigeração líquida pela primeira vez em 2018, após uma série de experimentos, e vem aprimorando o sistema desde então. As soluções atuais são projetadas especificamente para a escala de data centers. Assim, racks com seis (5+1) unidades de distribuição de líquidos (CDUs) atendem até oito racks com TPUs. Mangueiras flexíveis e conexões de liberação rápida são utilizadas para facilitar a manutenção.

No circuito interno, os chips do circuito são conectados em série, o que leva ao aquecimento do líquido de arrefecimento, de modo que o cálculo da capacidade de resfriamento é realizado de acordo com o chip mais quente na extremidade de cada circuito. Da unidade de distribuição de calor (CDU), por meio de trocadores de calor, o calor é transferido para o sistema geral de abastecimento de água da instalação sem misturar líquidos (água em ambos os circuitos). De acordo com o Google, o consumo de energia das bombas do LSS é inferior a 5% da potência dos ventiladores necessários para o resfriamento do ar.

Fonte da imagem: Chips and Cheese

O Google utiliza um bloco de água de fluxo dividido. Para resfriar o TPUv4, utilizou um sistema de resfriamento bare-die. Este método não é totalmente seguro, mas no caso do TPUv4, essa abordagem é necessária, já que tais aceleradores consomem 1,6 vezes mais energia do que o TPUv3. Além disso, a empresa teve que lidar com os problemas de vazamentos e o surgimento de microrganismos.

Fonte da imagem: Chips and Cheese

O Google testa exaustivamente componentes em busca de vazamentos, utiliza sistemas especiais de notificação de vazamentos e realiza manutenção e filtragem programadas. Além disso, a empresa possui um conjunto de protocolos para responder a problemas e alertas, o que lhe permite eliminar rapidamente ameaças que podem ser bastante significativas na escala de um data center.

Fonte da imagem: Chips and Cheese

Em maio, o Google estaria preparando racks de megawatts. De fato, a empresa já começou a usar 416 VCA na entrada dos racks e conversores CC, além de equipá-los com UPSs integrados. Além disso, gerencia dinamicamente o consumo de energia e o desempenho tanto das TPUs individuais quanto dos racks como um todo.

admin

Postagens recentes

A Basis implementou suporte para infraestrutura geodistribuída no Basis Workplace.

A Basis, líder no mercado russo de software de gerenciamento de infraestrutura dinâmica, lançou uma…

27 minutos atrás

Do Ryzen 7 1800X ao Ryzen 7 9850X3D: Nove anos de evolução da AMD em um único teste / Processadores e Memória

Em março de 2017, a AMD lançou sua arquitetura Zen e os primeiros processadores Ryzen,…

9 horas atrás

A Samsung tentará corrigir os problemas de tela do Galaxy S26 com atualizações de software.

A Samsung prometeu corrigir em breve os problemas com a tela do Galaxy S26 Ultra,…

14 horas atrás

MSI XpertStation WS300 – uma estação de trabalho de IA baseada na NVIDIA GB300

A MSI apresentou oficialmente a poderosa estação de trabalho XpertStation WS300, focada em IA. O…

14 horas atrás