O resfriamento líquido é usado em data centers há muito tempo, embora não em todos os lugares. Recentemente, tornou-se cada vez mais importante em vista do aumento do consumo de energia e da geração de calor dos equipamentos de IA. O Google falou sobre a evolução do resfriamento em nível de data center para seus aceleradores de IA TPU, segundo relatórios da Chips and Cheese.
O Google equipou suas TPUs com refrigeração líquida pela primeira vez em 2018, após uma série de experimentos, e vem aprimorando o sistema desde então. As soluções atuais são projetadas especificamente para a escala de data centers. Assim, racks com seis (5+1) unidades de distribuição de líquidos (CDUs) atendem até oito racks com TPUs. Mangueiras flexíveis e conexões de liberação rápida são utilizadas para facilitar a manutenção.
No circuito interno, os chips do circuito são conectados em série, o que leva ao aquecimento do líquido de arrefecimento, de modo que o cálculo da capacidade de resfriamento é realizado de acordo com o chip mais quente na extremidade de cada circuito. Da unidade de distribuição de calor (CDU), por meio de trocadores de calor, o calor é transferido para o sistema geral de abastecimento de água da instalação sem misturar líquidos (água em ambos os circuitos). De acordo com o Google, o consumo de energia das bombas do LSS é inferior a 5% da potência dos ventiladores necessários para o resfriamento do ar.
Fonte da imagem: Chips and Cheese
O Google utiliza um bloco de água de fluxo dividido. Para resfriar o TPUv4, utilizou um sistema de resfriamento bare-die. Este método não é totalmente seguro, mas no caso do TPUv4, essa abordagem é necessária, já que tais aceleradores consomem 1,6 vezes mais energia do que o TPUv3. Além disso, a empresa teve que lidar com os problemas de vazamentos e o surgimento de microrganismos.
Fonte da imagem: Chips and Cheese
O Google testa exaustivamente componentes em busca de vazamentos, utiliza sistemas especiais de notificação de vazamentos e realiza manutenção e filtragem programadas. Além disso, a empresa possui um conjunto de protocolos para responder a problemas e alertas, o que lhe permite eliminar rapidamente ameaças que podem ser bastante significativas na escala de um data center.
Fonte da imagem: Chips and Cheese
Em maio, o Google estaria preparando racks de megawatts. De fato, a empresa já começou a usar 416 VCA na entrada dos racks e conversores CC, além de equipá-los com UPSs integrados. Além disso, gerencia dinamicamente o consumo de energia e o desempenho tanto das TPUs individuais quanto dos racks como um todo.
Enquanto alguns fãs estão recriando The Elder Scrolls III: Morrowind no motor Skyrim, outros estão…
O estúdio japonês Kojima Productions, fundado no final de 2015 pelo renomado designer de jogos…
A Apple deve lançar o primeiro iPhone com tela flexível, possivelmente chamado de iPhone Fold,…
Análise do modo ranqueado de Warface: fácil de pegar o jeito, difícil de largar
Embora o suporte de conteúdo para o RPG de ação cyberpunk em primeira pessoa Cyberpunk…
Parece difícil imaginar algo mais elementar do ponto de vista do usuário do que escolher…