«Sber apresentou oficialmente uma versão melhorada de sua rede neural generativa Kandinsky 3.1, que permite criar imagens com base em descrições de texto em russo e inglês. O algoritmo atualizado foi adicionalmente treinado em um conjunto ampliado de imagens, com o qual foi possível melhorar a qualidade das gerações.
Uma das principais características da nova versão do algoritmo é aumentar a velocidade de geração de imagens. Segundo a empresa, o tempo de criação de uma imagem foi reduzido em quase 10 vezes, e a resolução das gerações pode ser aumentada para o formato 4K. Além disso, os usuários agora podem ativar o recurso de aprimoramento de consulta de texto usando o modelo de linguagem. Estão disponíveis funções para criar diferentes versões de imagens, misturar imagens e texto, criar pacotes de adesivos, além da possibilidade de fazer alterações locais na imagem sem alterar toda a composição.
Ao mesmo tempo, Sber anunciou o surgimento iminente do algoritmo Kandinsky Video 1.1, projetado para gerar vídeos com base em descrições de texto. Os desenvolvedores conseguiram melhorar significativamente a qualidade da geração aumentando o volume de pares texto-vídeo usados para treinar o conjunto de dados, bem como alterando a arquitetura do modelo. As alterações feitas permitiram dobrar a resolução do vídeo em comparação com as capacidades do algoritmo Kandinsky 1.0. O modelo foi desenvolvido por especialistas da Sber AI em conjunto com cientistas do Instituto AIRI de Inteligência Artificial nos conjuntos de dados combinados da Sber AI e da empresa SberDevices.