Grande IA precisa de um grande sistema de resfriamento líquido: Google fala sobre sistema de resfriamento TPU

O resfriamento líquido é usado em data centers há muito tempo, embora não em todos os lugares. Recentemente, tornou-se cada vez mais importante em vista do aumento do consumo de energia e da geração de calor dos equipamentos de IA. O Google falou sobre a evolução do resfriamento em nível de data center para seus aceleradores de IA TPU, segundo relatórios da Chips and Cheese.

O Google equipou suas TPUs com refrigeração líquida pela primeira vez em 2018, após uma série de experimentos, e vem aprimorando o sistema desde então. As soluções atuais são projetadas especificamente para a escala de data centers. Assim, racks com seis (5+1) unidades de distribuição de líquidos (CDUs) atendem até oito racks com TPUs. Mangueiras flexíveis e conexões de liberação rápida são utilizadas para facilitar a manutenção.

No circuito interno, os chips do circuito são conectados em série, o que leva ao aquecimento do líquido de arrefecimento, de modo que o cálculo da capacidade de resfriamento é realizado de acordo com o chip mais quente na extremidade de cada circuito. Da unidade de distribuição de calor (CDU), por meio de trocadores de calor, o calor é transferido para o sistema geral de abastecimento de água da instalação sem misturar líquidos (água em ambos os circuitos). De acordo com o Google, o consumo de energia das bombas do LSS é inferior a 5% da potência dos ventiladores necessários para o resfriamento do ar.

Fonte da imagem: Chips and Cheese

O Google utiliza um bloco de água de fluxo dividido. Para resfriar o TPUv4, utilizou um sistema de resfriamento bare-die. Este método não é totalmente seguro, mas no caso do TPUv4, essa abordagem é necessária, já que tais aceleradores consomem 1,6 vezes mais energia do que o TPUv3. Além disso, a empresa teve que lidar com os problemas de vazamentos e o surgimento de microrganismos.

Fonte da imagem: Chips and Cheese

O Google testa exaustivamente componentes em busca de vazamentos, utiliza sistemas especiais de notificação de vazamentos e realiza manutenção e filtragem programadas. Além disso, a empresa possui um conjunto de protocolos para responder a problemas e alertas, o que lhe permite eliminar rapidamente ameaças que podem ser bastante significativas na escala de um data center.

Fonte da imagem: Chips and Cheese

Em maio, o Google estaria preparando racks de megawatts. De fato, a empresa já começou a usar 416 VCA na entrada dos racks e conversores CC, além de equipá-los com UPSs integrados. Além disso, gerencia dinamicamente o consumo de energia e o desempenho tanto das TPUs individuais quanto dos racks como um todo.

admin

Postagens recentes

O jogo de tiro clássico Starship Troopers: Ultimate Bug War, dos criadores de Warhammer 40,000: Boltgun, recebeu data de lançamento e uma demo no Steam.

A editora Dotemu e os desenvolvedores do estúdio britânico Auroch Digital (Warhammer 40,000: Boltgun) anunciaram…

2 horas atrás

Uma demo do jogo de ação cyberpunk Replaced foi lançada no Steam, e os primeiros jogadores estão encantados.

A Sad Cat Studios, uma equipe polonesa com raízes bielorrussas, e a editora Thunderful Publishing…

2 horas atrás

A T-Mobile lançará tradução automática em tempo real de chamadas telefônicas em 50 idiomas, sem a necessidade de aplicativos adicionais.

A T-Mobile está se preparando para lançar um novo recurso com inteligência artificial chamado "Tradução…

2 horas atrás

Resistência zero e 10 vezes mais compacto: a Microsoft está preparando uma revolução supercondutora para data centers.

A Microsoft está explorando a criação de data centers mais eficientes usando materiais condutores de…

3 horas atrás

Há sessenta anos, a Luna 9 tornou-se a primeira espaçonave a pousar suavemente na Lua – e agora os cientistas estão à sua procura novamente.

Em 3 de fevereiro de 1966, a sonda interplanetária soviética não tripulada Luna 9 realizou…

3 horas atrás