A provedora de nuvem Turbo Cloud (parte do cluster de TI comercial da Rostelecom) lançou a Inference Platform, uma plataforma para implantação e operação de modelos de inteligência artificial baseados em aceleradores NVIDIA H200SXM com interconexão InfiniBand.
A Inference Platform suporta diversos tipos de modelos de IA, incluindo soluções de código aberto. Os usuários podem fazer upload de seus próprios modelos ou usar imagens conteinerizadas, implantando-os na nuvem sem qualquer configuração adicional de infraestrutura. O serviço oferece escalonamento automático de recursos (autoscaling) com base na carga de trabalho. Essa abordagem otimiza a utilização da GPU e reduz custos em cargas de trabalho irregulares, segundo a empresa.
A plataforma suporta inferência distribuída, permitindo que modelos com até 1.000 parâmetros sejam executados em vários nós de computação. O uso flexível de recursos de GPU também está disponível, incluindo sua fragmentação para tarefas menores. Um benefício adicional é a precificação de recursos por minuto, o que garante um controle de custos mais preciso em comparação com a cobrança por hora.

Fonte da imagem: Omar Lopez-Rincon / unsplash.com
O novo produto já está disponível para testes: as empresas podem avaliar suas funcionalidades em seus próprios modelos.
Se você encontrar algum erro, selecione-o com o mouse e pressione CTRL+ENTER. | Você pode melhorá-lo? Ficaremos felizes em receber seu feedback.
Fonte: