Esta semana, a Alibaba da China anunciou sua família Qwen3 de modelos de IA emblemáticos, que usam um método chamado “mistura de especialistas” para alcançar resultados comparáveis ​​aos dos modelos de raciocínio híbrido. Poucos dias depois, a gigante do comércio eletrônico e da computação em nuvem revelou um modelo leve Qwen2.5-Omni-3B baseado na arquitetura da geração anterior, projetado para operação autônoma em PCs e laptops de consumo.

Fonte da imagem: BoliviaInteligente/Unsplash

Qwen2.5-Omni-3B é uma versão reduzida de 3 bilhões de parâmetros do algoritmo principal de 7 bilhões de parâmetros. Apesar do tamanho reduzido, esta versão do modelo de IA manteve mais de 90% do desempenho multimodal e pode fornecer geração online de texto e fala natural.

Os desenvolvedores conseguiram um aumento significativo na eficiência do uso da memória do acelerador gráfico. Note-se que o Qwen2.5-Omni-3B tem uma redução de 50% no consumo de memória de vídeo ao processar contextos longos de até 25 mil lexemas. Após otimizar as configurações, o consumo de memória caiu de 60,2 GB para o modelo de 7 bilhões de parâmetros para 28,2 GB para o modelo de 3 bilhões de parâmetros. Devido a isso, o algoritmo Qwen2.5-Omni-3B pode ser implantado em um dispositivo que usa um acelerador gráfico com 24 GB de memória de vídeo. Essas placas de vídeo geralmente podem ser encontradas em PCs e laptops premium.

O Qwen2.5-Omni-3B já está disponível para download no Hugging Face, GitHub e ModelScope. No entanto, as condições de licenciamento permitem que o algoritmo seja usado apenas para fins de pesquisa. Isso significa que, sem obter uma licença do Alibaba para usar a família de modelos Qwen, nenhum produto comercial baseado no Qwen2.5-Omni-3B pode ser criado. Os resultados dos testes do algoritmo em benchmarks indicam que, apesar da redução no tamanho do modelo de IA, ele continua bastante competitivo.

Fonte da imagem: venturebeat.com

O Qwen2.5-Omni-3B é capaz de processar diferentes tipos de dados recebidos simultaneamente, gerando respostas de texto ou voz em tempo real. Há uma escolha entre vozes femininas e masculinas, que são usadas para dar respostas às consultas dos usuários. Desabilitar a geração de som quando ela não é necessária reduzirá ainda mais o consumo de memória. A equipe de desenvolvimento enfatiza a natureza aberta do projeto, fornecendo acesso a conjuntos de ferramentas de acompanhamento, versões pré-treinadas do algoritmo, bem como a capacidade de usar a API correspondente e orientação sobre a implantação do modelo de IA.

Embora o Qwen2.5-Omni-3B reduza as barreiras técnicas e de hardware para experimentar modelos de IA multimodais, a exigência de obter uma licença do Alibaba para uso comercial do algoritmo ainda deixa algumas limitações. No entanto, os desenvolvedores corporativos poderão usar o algoritmo para testar suas próprias ideias, avaliar arquiteturas ou decidir se devem licenciá-lo para uso comercial. Nesse contexto, o Qwen2.5-Omni-3B deixa de ser uma opção de implantação e passa a ser uma ferramenta de avaliação estratégica ou uma forma de chegar mais perto do uso de um modelo de IA multimodal com menos recursos.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *