Vários meses após o lançamento do Qwen3-VL, a Alibaba publicou um relatório técnico detalhado sobre o modelo multimodal aberto. Os dados demonstram que o sistema se destaca na resolução de problemas matemáticos baseados em imagens e consegue analisar horas de filmagens.
Fonte da imagem: Alibaba
O sistema consegue lidar com grandes volumes de dados, processando vídeos de duas horas ou centenas de páginas de documentos dentro de uma janela de contexto de 256.000 tokens. Em testes de busca em um palheiro, o modelo principal, com 235 bilhões de parâmetros, detectou frames individuais em vídeos de 30 minutos com 100% de precisão. Mesmo em vídeos de duas horas contendo quase um milhão de tokens, a precisão permaneceu em 99,5%. O teste consiste em inserir frames semanticamente significativos (“agulhas”) em locais aleatórios em vídeos longos, que o sistema deve então localizar e analisar.
O teste “agulha no palheiro” mede a capacidade de um modelo de encontrar frames específicos em vídeos longos.
Em benchmarks publicados, o modelo Qwen3-VL-235B-A22B frequentemente supera o Gemini 2.5 Pro, o OpenAI GPT-5 e o Claude Opus 4.1, mesmo quando os concorrentes usam recursos de raciocínio lógico ou exigem esforço cognitivo significativo. O modelo domina tarefas de análise matemática visual, obtendo 85,8% no MathVista, em comparação com 81,3% do GPT-5. No MathVision, ele lidera com 74,6%, superando o Gemini 2.5 Pro (73,3%) e o GPT-5 (65,8%).
O Gemini 2.5 Pro mantém uma ligeira vantagem na compreensão geral de imagens.
O modelo também demonstra uma ampla gama de resultados em benchmarks especializados. Ele obteve 96,5% no teste de compreensão de documentos DocVQA e 875 pontos no OCRBench, com suporte para 39 idiomas — quase quatro vezes mais que seu antecessor.
O Qwen3-VL alcança mais de 70% de precisão em tarefas de OCR em 32 dos 39 idiomas suportados.
A Alibaba afirma que o modelo também demonstra novas capacidades em tarefas de interface gráfica do usuário (GUI). O Qwen3-VL-32B alcançou 61,8% de precisão no ScreenSpot Pro, que testa a navegação em interfaces gráficas de usuário. No AndroidWorld, que testa a capacidade do sistema de gerenciar aplicativos Android de forma independente, o Qwen3-VL-32B alcançou 63,7%.
O modelo também lida com documentos PDF complexos de várias páginas. No MMLongBench-Doc, alcançou 56,2% de precisão na análise de documentos longos. No benchmark de diagramas científicos CharXiv, alcançou 90,5% de precisão em tarefas de descrição e 66,2% de precisão em tarefas lógicas complexas.
No entanto, o Qwen3-VL não superou seus concorrentes em todos os casos. No exigente benchmark MMMU-Pro, o modelo obteve 69,3%, ficando atrás dos 78,4% do GPT-5. Os concorrentes comerciais também costumam apresentar melhor desempenho em testes de qualidade de vídeo. Os dados sugerem que o Qwen3-VL se especializa em problemas e documentos matemáticos visuais, mas ainda apresenta desempenho inferior em raciocínio lógico geral.
O relatório técnico descreve três grandes atualizações arquitetônicas implementadas no Qwen3-VL. Primeiro, o “MRoPE intercalado” substitui o método de incorporação posicional anterior. Em vez de agrupar representações matemáticas por dimensionalidade (temporal, horizontal, vertical), a nova abordagem as distribui uniformemente por todos os domínios matemáticos disponíveis. Essa mudança visa melhorar o desempenho ao trabalhar com vídeos longos.Em segundo lugar, a tecnologia DeepStack permite que o modelo acesse os resultados intermediários do codificador de vídeo, e não apenas o resultado final.Isso permite que o sistema acesse informações visuais em diferentes níveis de detalhe. Em terceiro lugar, um sistema de marcação de tempo baseado em texto substitui o complexo método T-RoPE usado no Qwen2.5-VL. Em vez de atribuir uma posição temporal matemática a cada quadro de vídeo, o sistema agora insere marcadores de texto simples, como “”, diretamente nos dados de entrada. Isso simplifica o processo e melhora a compreensão do modelo em relação a tarefas relacionadas à análise de vídeo baseada em tempo.
O Qwen3-VL combina um codificador de vídeo e um modelo de linguagem para processar simultaneamente texto, imagens e vídeo. O DeepStack aproveita informações visuais de múltiplas camadas de processamento.
A Alibaba treinou o modelo em quatro etapas usando 10.000 GPUs. Após o treinamento para associar imagens e texto, o sistema passou por um treinamento multimodal completo com aproximadamente um trilhão de tokens. As fontes de dados incluíram web scraping, 3 milhões de PDFs do Common Crawl e mais de 60 milhões de problemas STEM (Ciência, Tecnologia, Engenharia e Matemática). Nas etapas subsequentes, a equipe expandiu gradualmente a janela de contexto de 8.000 para 32.000 e, finalmente, para 262.000 tokens. As variantes do Thinking passaram por um treinamento especializado em Chain-of-Thought (Cadeia de Pensamento), permitindo que elas gerassem etapas de raciocínio intermediárias antes de fornecer uma resposta final, para obter melhores resultados em problemas complexos.
Todos os modelos Qwen3-VL lançados desde setembro estão disponíveis sob a licença Apache 2.0 com pesos de código aberto no Hugging Face. A linha inclui variantes densas com parâmetros de 2B a 32B, bem como modelos com uma combinação de recursos avançados de 30B-A3B e recursos massivos de 235B-A22B.
Embora recursos como a extração de frames de vídeos longos não sejam novidade (o Gemini 1.5 Pro do Google já implementava esse recurso no início de 2024), o Qwen3-VL oferece desempenho competitivo. Como o modelo anterior, Qwen2.5-VL, já é amplamente utilizado em pesquisas, é provável que o novo modelo estimule ainda mais o desenvolvimento de software de código aberto.
A desenvolvedora Everstone Studios, em colaboração com a distribuidora NetEase Games, atualizou o tamanho da…
A AMD adicionou o processador Ryzen 7 9850X3D, ainda não anunciado, ao seu site oficial.…
A editora Soedesco, em colaboração com a desenvolvedora Saikat Deb, definiu a data de lançamento…
Segundo a empresa de pesquisa Omdia, a Samsung Electronics conquistou o primeiro lugar no terceiro…
Este fim de semana marcou dois anos desde que a picape elétrica Tesla Cybertruck foi…
O estúdio de tradução e dublagem russo Mechanics VoiceOver anunciou o lançamento da dublagem russa…