Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

A Alibaba apresentou o Qwen3.5, um modelo de IA compacto que roda em um laptop e supera os concorrentes da OpenAI.

A Qwen, divisão da Alibaba focada em inteligência artificial, apresentou uma nova linha de modelos, todos com tamanho compacto e alto desempenho, com qualidade de resposta significativamente superior aos principais concorrentes americanos.

Fonte da imagem: Alibaba

Os modelos de nível básico da nova linha da Alibaba, o Qwen3.5-0.8B e 2B, são descritos como “miniaturas” e “rápidos”. Eles são projetados para prototipagem e implantação rápida em dispositivos móveis com desempenho mínimo, onde a duração da bateria é fundamental. O Qwen3.5-4B multimodal foi projetado para a criação de agentes leves e oferece suporte nativo a uma janela de contexto de 262.144 tokens. O Qwen3.5-9B, com capacidade de raciocínio, supera seu concorrente americano, o OpenAI gpt-oss-120B de código aberto, que é 13,5 vezes maior. O modelo da Alibaba demonstra proficiência em linguagem e raciocínio lógico em nível de pós-graduação. Os pesos do modelo estão disponíveis para todos sob a licença Apache 2.0, que permite o uso corporativo e comercial, incluindo treinamento adicional, se necessário.

No desenvolvimento dos modelos da série Qwen3.5, de pequeno porte, a empresa abandonou as arquiteturas Transformer padrão, empregando uma arquitetura híbrida que combina Redes Delta com Portões (Gated Delta Networks) e uma rede neural de Mistura de Especialistas (MoE) esparsa. Essa abordagem híbrida ajuda a lidar com as limitações de memória inerentes aos modelos pequenos; as Redes Delta com Portões, por sua vez, proporcionam maior taxa de transferência e menor latência de resposta. Os modelos são nativamente multimodais. Ao contrário das gerações anteriores, em que geradores de imagem eram acoplados a modelos de texto, o Qwen3.5 foi treinado com tokens multimodais. Como resultado, as versões 4B e 9B conseguem reconhecer elementos da interface do usuário e contar objetos em vídeos.

O modelo Qwen3 apresentou bom desempenho no benchmark visual MMMU-Pro.5-9B marcou 70,1.O modelo Qwen3.5-9B obteve 83,2 pontos, superando o Google Gemini 2.5 Flash-Lite (59,7) e até mesmo o especializado Qwen3-VL-30B-A3B (63,0). No teste de raciocínio lógico, alcançou 81,7 pontos, superando o resultado do OpenAI gpt-oss-120b (80,1), que possui mais de dez vezes o número de parâmetros. No benchmark matemático HMMT de fevereiro de 2025, o modelo Qwen3.5-9B obteve 83,2 pontos, e a variante 4B, 74,0, comprovando que a resolução de problemas complexos na área de ciências exatas não exige mais recursos significativos em nuvem. O modelo sênior liderou o teste OmniDocBench v1.5 com um resultado de 87,7 pontos; no MMMLU multilíngue, alcançou 81,2 pontos, superando o gpt-oss-120b, que obteve 78,2 pontos.

O lançamento dos modelos de pequena escala Qwen3.5 coincidiu com a ascensão dos agentes de IA. Chatbots simples já não são suficientes para os usuários modernos — a demanda por capacidades autônomas está crescendo. Um agente de IA autônomo precisa “pensar” (raciocinar), “ver” (ser multimodal) e “agir” (ser capaz de usar ferramentas). Executar essas funções com modelos de trilhões de parâmetros é muito caro, enquanto o Qwen3.5-9B é significativamente mais barato de operar.

Ao escalar a tecnologia de aprendizado por reforço em ambientes com milhões de agentes, a Alibaba dotou esses modelos com capacidades de “julgamento humano” — eles podem organizar uma área de trabalho ou fazer engenharia reversa de um jogo a partir de gravações de vídeo. Uma versão com 0,8 bilhão de parâmetros rodando em um smartphone ou um modelo com 9 bilhões de parâmetros rodando em uma estação de trabalho tornam a “era dos agentes” democrática. As organizações podem executar agentes de IA em seus próprios recursos locais, eliminando o custo de conexão com recursos em nuvem ou uso de APIs.

Utilizando um mecanismo de “vinculação em nível de pixel”, esses modelos conseguem navegar em interfaces de usuário de PCs e dispositivos móveis, preencher formulários e classificar arquivos seguindo instruções em linguagem natural. Com 90% de precisão em testes, eles realizam reconhecimento óptico de caracteres (OCR), analisam layouts e extraem dados estruturados de formulários e diagramas em documentos. Repositórios de código inteiros (até 400.000 linhas) podem ser carregados em uma janela de contexto de até 1 milhão de tokens para refatoração ou depuração automatizada. Projetados para dispositivos móveis, os modelos Qwen3.5-0.8B e 2B podem ser executados em modo local.Gere resumos em vídeo com até 60 segundos de duração e até 8 quadros por segundo; e demonstre raciocínio espacial.

O artigo também destaca aspectos a serem considerados na implementação de modelos Qwen3.5 de pequeno porte. Em cenários baseados em agentes com múltiplas etapas, um único erro no início da execução da tarefa pode levar a uma cascata de falhas, com o agente seguindo um plano incorreto ou sem sentido. Os modelos são adequados para escrever código do zero, mas podem apresentar dificuldades na depuração ou na reformulação de projetos legados complexos. O modelo Qwen3.5-9B requer uma quantidade significativa de memória de vídeo para funcionar de forma eficiente. Ao implementar modelos em empresas, deve-se priorizar tarefas “verificáveis”: codificação, cálculos matemáticos ou seguir instruções — qualquer atividade cujos resultados possam ser verificados em relação a determinados padrões para evitar falhas ocultas.

admin

Próximo Microsoft adiciona gravação automática de melhores momentos de jogos ao ROG Xbox Ally X – A NPU finalmente se mostra útil. »

Anterior « Corning apresenta o protetor de tela Gorilla Glass Ceramic 3 com durabilidade de longa duração.

Deixar comentário

Publicado por

admin

1 mês atrás

Postagens recentes

Desenvolvimento e fabricação de eletrônicos

Inteligência artificial realiza meses de trabalho de engenharia da noite para o dia: Nvidia revela como acelerou o design de chips.

A Nvidia está utilizando ativamente inteligência artificial em certas etapas de seu processo interno de…

1 hora atrás

Sistemas de refrigeração

Um blogueiro construiu uma “supercúpula” para seu PC usando 15 ventoinhas Noctua — a temperatura do sistema caiu 20°C.

Em março, o canal do YouTube Major Hardware apresentou um sistema experimental de resfriamento de…

2 horas atrás

Telefones celulares, smartphones, comunicações celulares, comunicadores, PDAs

A Oppo apresentou seu smartphone topo de linha, o Find X9 Ultra, uma semana antes do anúncio oficial.

O smartphone Oppo Find X9 Ultra será lançado globalmente em 21 de abril. Antes disso,…

2 horas atrás

Notícias e análises financeiras

As ações da Intel estão sendo vendidas como água: a capitalização de mercado da fabricante de chips subiu US$ 100 bilhões em nove dias.

A Intel se tornou um dos nomes mais quentes do S&P 500 nos últimos dias,…

2 horas atrás

Jogos

Um órgão regulador indonésio vazou mais de uma hora de filmagens de jogabilidade de 007 First Light, dos criadores de Hitman, incluindo o final.

O jogo de ação e espionagem 007 First Light, desenvolvido pelo estúdio dinamarquês IO Interactive,…

2 horas atrás

Vírus, cavalos de Troia, vulnerabilidades de software, problemas de segurança

Hackers roubaram dados de reservas de clientes do Booking.com – as vítimas já foram notificadas.

Na noite de domingo, a plataforma de reservas online Booking.com informou que "terceiros não autorizados"…

2 horas atrás