A Nebius (antiga controladora da Yandex) lançou a plataforma Nebius Token Factory para inferência: ela permite a implantação e otimização de modelos de IA abertos e personalizados em escala, com alto nível de confiabilidade e controle.

A Nebius observa que o uso de modelos de IA proprietários pode criar desafios de escalabilidade. Embora os modelos abertos e personalizados abordem essas limitações, gerenciá-los e garantir a segurança continua sendo uma tarefa tecnicamente complexa e que exige muitos recursos para a maioria das equipes. A plataforma Nebius Token Factory resolve esses desafios: ela combina a flexibilidade dos modelos abertos com a capacidade de gerenciamento, o desempenho e a relação custo-benefício que as organizações exigem para projetos de IA em larga escala.

A Nebius Token Factory é baseada na infraestrutura abrangente de IA da Nebius. A nova plataforma integra inferência de alto desempenho, pós-treinamento e gerenciamento de acesso. Há suporte para mais de 40 modelos de código aberto, incluindo as versões mais recentes do Deep Seek, Llama, OpenAI e Qwen.

Fonte da imagem: Nebius

Os principais benefícios do Nebius Token Factory incluem a conformidade com os requisitos de segurança corporativos (HIPAA, ISO 27001 e ISO 27799), latência previsível (menos de 1 segundo), escalonamento automático de throughput e disponibilidade de 99,9%. A inferência é realizada em data centers na Europa e nos EUA, sem que nenhum dado seja armazenado nos servidores da Nebius. A plataforma utiliza o ecossistema de nuvem Nebius AI Cloud 3.0 Aether, que oferece segurança de nível empresarial, monitoramento proativo e desempenho estável.

O Nebius Token Factory é indicado para uma ampla gama de tarefas de IA: desde chatbots inteligentes, assistentes de codificação e RAG (Real-Action Group) até buscas de alto desempenho, análise de documentos e suporte automatizado ao cliente. Ferramentas integradas de ajuste fino e destilação permitem que as empresas adaptem grandes modelos de código aberto aos seus próprios dados. Isso reduz os custos de inferência em até 70%. Os modelos otimizados podem então ser implantados rapidamente sem a necessidade de configuração manual da infraestrutura.

Se você notar algum erro, selecione-o com o mouse e pressione CTRL+ENTER. | Você consegue escrever uma versão melhor? Ficaremos felizes em receber suas sugestões.

Fonte:

By admin

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *