A Qwen, divisão da Alibaba focada em inteligência artificial, apresentou uma nova linha de modelos, todos com tamanho compacto e alto desempenho, com qualidade de resposta significativamente superior aos principais concorrentes americanos.
Fonte da imagem: Alibaba
Os modelos de nível básico da nova linha da Alibaba, o Qwen3.5-0.8B e 2B, são descritos como “miniaturas” e “rápidos”. Eles são projetados para prototipagem e implantação rápida em dispositivos móveis com desempenho mínimo, onde a duração da bateria é fundamental. O Qwen3.5-4B multimodal foi projetado para a criação de agentes leves e oferece suporte nativo a uma janela de contexto de 262.144 tokens. O Qwen3.5-9B, com capacidade de raciocínio, supera seu concorrente americano, o OpenAI gpt-oss-120B de código aberto, que é 13,5 vezes maior. O modelo da Alibaba demonstra proficiência em linguagem e raciocínio lógico em nível de pós-graduação. Os pesos do modelo estão disponíveis para todos sob a licença Apache 2.0, que permite o uso corporativo e comercial, incluindo treinamento adicional, se necessário.
No desenvolvimento dos modelos da série Qwen3.5, de pequeno porte, a empresa abandonou as arquiteturas Transformer padrão, empregando uma arquitetura híbrida que combina Redes Delta com Portões (Gated Delta Networks) e uma rede neural de Mistura de Especialistas (MoE) esparsa. Essa abordagem híbrida ajuda a lidar com as limitações de memória inerentes aos modelos pequenos; as Redes Delta com Portões, por sua vez, proporcionam maior taxa de transferência e menor latência de resposta. Os modelos são nativamente multimodais. Ao contrário das gerações anteriores, em que geradores de imagem eram acoplados a modelos de texto, o Qwen3.5 foi treinado com tokens multimodais. Como resultado, as versões 4B e 9B conseguem reconhecer elementos da interface do usuário e contar objetos em vídeos.
O modelo Qwen3 apresentou bom desempenho no benchmark visual MMMU-Pro.5-9B marcou 70,1.O modelo Qwen3.5-9B obteve 83,2 pontos, superando o Google Gemini 2.5 Flash-Lite (59,7) e até mesmo o especializado Qwen3-VL-30B-A3B (63,0). No teste de raciocínio lógico, alcançou 81,7 pontos, superando o resultado do OpenAI gpt-oss-120b (80,1), que possui mais de dez vezes o número de parâmetros. No benchmark matemático HMMT de fevereiro de 2025, o modelo Qwen3.5-9B obteve 83,2 pontos, e a variante 4B, 74,0, comprovando que a resolução de problemas complexos na área de ciências exatas não exige mais recursos significativos em nuvem. O modelo sênior liderou o teste OmniDocBench v1.5 com um resultado de 87,7 pontos; no MMMLU multilíngue, alcançou 81,2 pontos, superando o gpt-oss-120b, que obteve 78,2 pontos.
O lançamento dos modelos de pequena escala Qwen3.5 coincidiu com a ascensão dos agentes de IA. Chatbots simples já não são suficientes para os usuários modernos — a demanda por capacidades autônomas está crescendo. Um agente de IA autônomo precisa “pensar” (raciocinar), “ver” (ser multimodal) e “agir” (ser capaz de usar ferramentas). Executar essas funções com modelos de trilhões de parâmetros é muito caro, enquanto o Qwen3.5-9B é significativamente mais barato de operar.
Ao escalar a tecnologia de aprendizado por reforço em ambientes com milhões de agentes, a Alibaba dotou esses modelos com capacidades de “julgamento humano” — eles podem organizar uma área de trabalho ou fazer engenharia reversa de um jogo a partir de gravações de vídeo. Uma versão com 0,8 bilhão de parâmetros rodando em um smartphone ou um modelo com 9 bilhões de parâmetros rodando em uma estação de trabalho tornam a “era dos agentes” democrática. As organizações podem executar agentes de IA em seus próprios recursos locais, eliminando o custo de conexão com recursos em nuvem ou uso de APIs.
Utilizando um mecanismo de “vinculação em nível de pixel”, esses modelos conseguem navegar em interfaces de usuário de PCs e dispositivos móveis, preencher formulários e classificar arquivos seguindo instruções em linguagem natural. Com 90% de precisão em testes, eles realizam reconhecimento óptico de caracteres (OCR), analisam layouts e extraem dados estruturados de formulários e diagramas em documentos. Repositórios de código inteiros (até 400.000 linhas) podem ser carregados em uma janela de contexto de até 1 milhão de tokens para refatoração ou depuração automatizada. Projetados para dispositivos móveis, os modelos Qwen3.5-0.8B e 2B podem ser executados em modo local.Gere resumos em vídeo com até 60 segundos de duração e até 8 quadros por segundo; e demonstre raciocínio espacial.
O artigo também destaca aspectos a serem considerados na implementação de modelos Qwen3.5 de pequeno porte. Em cenários baseados em agentes com múltiplas etapas, um único erro no início da execução da tarefa pode levar a uma cascata de falhas, com o agente seguindo um plano incorreto ou sem sentido. Os modelos são adequados para escrever código do zero, mas podem apresentar dificuldades na depuração ou na reformulação de projetos legados complexos. O modelo Qwen3.5-9B requer uma quantidade significativa de memória de vídeo para funcionar de forma eficiente. Ao implementar modelos em empresas, deve-se priorizar tarefas “verificáveis”: codificação, cálculos matemáticos ou seguir instruções — qualquer atividade cujos resultados possam ser verificados em relação a determinados padrões para evitar falhas ocultas.
A Apple apresentou as versões atualizadas dos laptops MacBook Pro de 14 e 16 polegadas.…
Hoje, a Apple apresentou o novo MacBook Air com processador M5 de 10 núcleos. O…
O lançamento, pelo Google, de campanhas publicitárias globais com inteligência artificial no Google Ads e…
Durante o Indie World Showcase de março, a editora Fireshine Games e os desenvolvedores do…
A Apple apresentou uma versão atualizada do Studio Display e o novíssimo Studio Display XDR.…
A Apple apresentou uma versão atualizada do Studio Display e o novíssimo Studio Display XDR.…