Grande IA precisa de um grande sistema de resfriamento líquido: Google fala sobre sistema de resfriamento TPU

O resfriamento líquido é usado em data centers há muito tempo, embora não em todos os lugares. Recentemente, tornou-se cada vez mais importante em vista do aumento do consumo de energia e da geração de calor dos equipamentos de IA. O Google falou sobre a evolução do resfriamento em nível de data center para seus aceleradores de IA TPU, segundo relatórios da Chips and Cheese.

O Google equipou suas TPUs com refrigeração líquida pela primeira vez em 2018, após uma série de experimentos, e vem aprimorando o sistema desde então. As soluções atuais são projetadas especificamente para a escala de data centers. Assim, racks com seis (5+1) unidades de distribuição de líquidos (CDUs) atendem até oito racks com TPUs. Mangueiras flexíveis e conexões de liberação rápida são utilizadas para facilitar a manutenção.

No circuito interno, os chips do circuito são conectados em série, o que leva ao aquecimento do líquido de arrefecimento, de modo que o cálculo da capacidade de resfriamento é realizado de acordo com o chip mais quente na extremidade de cada circuito. Da unidade de distribuição de calor (CDU), por meio de trocadores de calor, o calor é transferido para o sistema geral de abastecimento de água da instalação sem misturar líquidos (água em ambos os circuitos). De acordo com o Google, o consumo de energia das bombas do LSS é inferior a 5% da potência dos ventiladores necessários para o resfriamento do ar.

Fonte da imagem: Chips and Cheese

O Google utiliza um bloco de água de fluxo dividido. Para resfriar o TPUv4, utilizou um sistema de resfriamento bare-die. Este método não é totalmente seguro, mas no caso do TPUv4, essa abordagem é necessária, já que tais aceleradores consomem 1,6 vezes mais energia do que o TPUv3. Além disso, a empresa teve que lidar com os problemas de vazamentos e o surgimento de microrganismos.

Fonte da imagem: Chips and Cheese

O Google testa exaustivamente componentes em busca de vazamentos, utiliza sistemas especiais de notificação de vazamentos e realiza manutenção e filtragem programadas. Além disso, a empresa possui um conjunto de protocolos para responder a problemas e alertas, o que lhe permite eliminar rapidamente ameaças que podem ser bastante significativas na escala de um data center.

Fonte da imagem: Chips and Cheese

Em maio, o Google estaria preparando racks de megawatts. De fato, a empresa já começou a usar 416 VCA na entrada dos racks e conversores CC, além de equipá-los com UPSs integrados. Além disso, gerencia dinamicamente o consumo de energia e o desempenho tanto das TPUs individuais quanto dos racks como um todo.

admin

Postagens recentes

A Mozilla está preparando uma grande reformulação do Firefox, com o codinome Nova – veja como ele ficará.

A Mozilla está desenvolvendo um Firefox radicalmente redesenhado, com o codinome Nova. O navegador atualizado…

1 hora atrás

A X começou a testar “publicidade sem anúncios” — recomendações de marcas diretamente abaixo das postagens.

A rede social X está testando um novo formato de publicidade que exibe uma recomendação…

5 horas atrás

A X começou a testar “publicidade sem anúncios” — recomendações de marcas diretamente abaixo das postagens.

A rede social X está testando um novo formato de publicidade que exibe uma recomendação…

5 horas atrás

Um entusiasta transformou um Sony PlayStation 5 em um PC gamer baseado em Linux e rodou GTA V nele.

O entusiasta Andy Nguyen rodou Linux em um PlayStation 5 da Sony, transformando-o em uma…

5 horas atrás

A DJI pagou US$ 30.000 a um usuário que acidentalmente invadiu o sistema de 7.000 aspiradores robô Romo.

Em fevereiro, foi revelado que várias vulnerabilidades haviam sido descobertas nos aspiradores robóticos DJI Romo.…

5 horas atrás