Esta semana, a Alibaba da China anunciou sua família Qwen3 de modelos de IA emblemáticos, que usam um método chamado “mistura de especialistas” para alcançar resultados comparáveis aos dos modelos de raciocínio híbrido. Poucos dias depois, a gigante do comércio eletrônico e da computação em nuvem revelou um modelo leve Qwen2.5-Omni-3B baseado na arquitetura da geração anterior, projetado para operação autônoma em PCs e laptops de consumo.

Fonte da imagem: BoliviaInteligente/Unsplash
Qwen2.5-Omni-3B é uma versão reduzida de 3 bilhões de parâmetros do algoritmo principal de 7 bilhões de parâmetros. Apesar do tamanho reduzido, esta versão do modelo de IA manteve mais de 90% do desempenho multimodal e pode fornecer geração online de texto e fala natural.
Os desenvolvedores conseguiram um aumento significativo na eficiência do uso da memória do acelerador gráfico. Note-se que o Qwen2.5-Omni-3B tem uma redução de 50% no consumo de memória de vídeo ao processar contextos longos de até 25 mil lexemas. Após otimizar as configurações, o consumo de memória caiu de 60,2 GB para o modelo de 7 bilhões de parâmetros para 28,2 GB para o modelo de 3 bilhões de parâmetros. Devido a isso, o algoritmo Qwen2.5-Omni-3B pode ser implantado em um dispositivo que usa um acelerador gráfico com 24 GB de memória de vídeo. Essas placas de vídeo geralmente podem ser encontradas em PCs e laptops premium.
O Qwen2.5-Omni-3B já está disponível para download no Hugging Face, GitHub e ModelScope. No entanto, as condições de licenciamento permitem que o algoritmo seja usado apenas para fins de pesquisa. Isso significa que, sem obter uma licença do Alibaba para usar a família de modelos Qwen, nenhum produto comercial baseado no Qwen2.5-Omni-3B pode ser criado. Os resultados dos testes do algoritmo em benchmarks indicam que, apesar da redução no tamanho do modelo de IA, ele continua bastante competitivo.

Fonte da imagem: venturebeat.com
O Qwen2.5-Omni-3B é capaz de processar diferentes tipos de dados recebidos simultaneamente, gerando respostas de texto ou voz em tempo real. Há uma escolha entre vozes femininas e masculinas, que são usadas para dar respostas às consultas dos usuários. Desabilitar a geração de som quando ela não é necessária reduzirá ainda mais o consumo de memória. A equipe de desenvolvimento enfatiza a natureza aberta do projeto, fornecendo acesso a conjuntos de ferramentas de acompanhamento, versões pré-treinadas do algoritmo, bem como a capacidade de usar a API correspondente e orientação sobre a implantação do modelo de IA.
Embora o Qwen2.5-Omni-3B reduza as barreiras técnicas e de hardware para experimentar modelos de IA multimodais, a exigência de obter uma licença do Alibaba para uso comercial do algoritmo ainda deixa algumas limitações. No entanto, os desenvolvedores corporativos poderão usar o algoritmo para testar suas próprias ideias, avaliar arquiteturas ou decidir se devem licenciá-lo para uso comercial. Nesse contexto, o Qwen2.5-Omni-3B deixa de ser uma opção de implantação e passa a ser uma ferramenta de avaliação estratégica ou uma forma de chegar mais perto do uso de um modelo de IA multimodal com menos recursos.
