Grande IA precisa de um grande sistema de resfriamento líquido: Google fala sobre sistema de resfriamento TPU

O resfriamento líquido é usado em data centers há muito tempo, embora não em todos os lugares. Recentemente, tornou-se cada vez mais importante em vista do aumento do consumo de energia e da geração de calor dos equipamentos de IA. O Google falou sobre a evolução do resfriamento em nível de data center para seus aceleradores de IA TPU, segundo relatórios da Chips and Cheese.

O Google equipou suas TPUs com refrigeração líquida pela primeira vez em 2018, após uma série de experimentos, e vem aprimorando o sistema desde então. As soluções atuais são projetadas especificamente para a escala de data centers. Assim, racks com seis (5+1) unidades de distribuição de líquidos (CDUs) atendem até oito racks com TPUs. Mangueiras flexíveis e conexões de liberação rápida são utilizadas para facilitar a manutenção.

No circuito interno, os chips do circuito são conectados em série, o que leva ao aquecimento do líquido de arrefecimento, de modo que o cálculo da capacidade de resfriamento é realizado de acordo com o chip mais quente na extremidade de cada circuito. Da unidade de distribuição de calor (CDU), por meio de trocadores de calor, o calor é transferido para o sistema geral de abastecimento de água da instalação sem misturar líquidos (água em ambos os circuitos). De acordo com o Google, o consumo de energia das bombas do LSS é inferior a 5% da potência dos ventiladores necessários para o resfriamento do ar.

Fonte da imagem: Chips and Cheese

O Google utiliza um bloco de água de fluxo dividido. Para resfriar o TPUv4, utilizou um sistema de resfriamento bare-die. Este método não é totalmente seguro, mas no caso do TPUv4, essa abordagem é necessária, já que tais aceleradores consomem 1,6 vezes mais energia do que o TPUv3. Além disso, a empresa teve que lidar com os problemas de vazamentos e o surgimento de microrganismos.

Fonte da imagem: Chips and Cheese

O Google testa exaustivamente componentes em busca de vazamentos, utiliza sistemas especiais de notificação de vazamentos e realiza manutenção e filtragem programadas. Além disso, a empresa possui um conjunto de protocolos para responder a problemas e alertas, o que lhe permite eliminar rapidamente ameaças que podem ser bastante significativas na escala de um data center.

Fonte da imagem: Chips and Cheese

Em maio, o Google estaria preparando racks de megawatts. De fato, a empresa já começou a usar 416 VCA na entrada dos racks e conversores CC, além de equipá-los com UPSs integrados. Além disso, gerencia dinamicamente o consumo de energia e o desempenho tanto das TPUs individuais quanto dos racks como um todo.

admin

Postagens recentes

“Eu nem imaginava que isso fosse possível”: modder assume a tarefa de portar The Elder Scrolls III: Morrowind para Elden Ring

Enquanto alguns fãs estão recriando The Elder Scrolls III: Morrowind no motor Skyrim, outros estão…

6 horas atrás

Kojima revelará segredo sobre jogos futuros em homenagem ao 10º aniversário da Kojima Productions

O estúdio japonês Kojima Productions, fundado no final de 2015 pelo renomado designer de jogos…

8 horas atrás

Calendário de Lançamentos – 1 a 7 de setembro: Hollow Knight: Silksong, Cronos: The New Dawn e Metal Eden

Análise do modo ranqueado de Warface: fácil de pegar o jeito, difícil de largar

9 horas atrás

CD Projekt Red intriga fãs de Cyberpunk 2077 com teaser misterioso do presidente dos EUA

Embora o suporte de conteúdo para o RPG de ação cyberpunk em primeira pessoa Cyberpunk…

9 horas atrás

A seleção de horas e minutos do despertador do iPhone não é um ciclo, mas uma longa lista com um final inesperado

Parece difícil imaginar algo mais elementar do ponto de vista do usuário do que escolher…

10 horas atrás