A equipe de IA da Alibaba, Qwen, teve um verão produtivo, lançando diversos modelos que estão no mesmo nível, ou até melhores, dos principais laboratórios dos EUA, incluindo Google, OpenAI e Anthropic. O maior projeto foi o modelo de linguagem de grande porte Qwen3-Max-Preview (Instruct), com mais de 1 trilhão de parâmetros.

Fonte da imagem: Alibaba

Parâmetros são as configurações internas que regem o comportamento de um modelo de linguagem grande, e quanto mais parâmetros houver, mais poderoso será o modelo. Acredita-se que o OpenAI GPT-4o tenha aproximadamente o mesmo número de parâmetros, mas muitos laboratórios líderes em IA começaram recentemente a lançar modelos menores, portanto, a decisão dos autores do Qwen de aumentar esse número é digna de nota. Os resultados do benchmark Qwen-3-Max-Preview publicados pelos desenvolvedores chineses indicam que ele supera o modelo anterior da empresa, o Qwen3-235B-A22B-2507, e é um forte concorrente de outros modelos líderes do setor. Em SuperGPQA, AIME25, LiveCodeBench v6, Arena-Hard v2 e LiveBench (20241125), o novo Qwen3-Max-Preview supera consistentemente o Claude Opus 4, o Kimi K2 e o Deepseek-V3.1.

O novo modelo já está disponível no site do desenvolvedor, Qwen Chat, via API no Alibaba Cloud, nas plataformas OpenRouter e AnyCoder. Ao contrário de outros sistemas do Alibaba, o novo Qwen3-Max-Preview ainda não está disponível sob uma licença de código aberto e, para conectá-lo a aplicativos, os desenvolvedores terão que se contentar com a API paga da própria empresa ou de seus parceiros. Na prática, o modelo falha com menos frequência em tarefas complexas como, por exemplo, comparar números idênticos ou contar o número de letras especificadas em uma determinada palavra – nem todas as IAs modernas são capazes disso ainda. Na plataforma Qwen Chat, ele também funciona mais rápido que o ChatGPT.

Fonte da imagem: Alibaba

O Alibaba Qwen3-Max-Preview suporta uma janela de contexto de 262.144 tokens, um tamanho máximo de solicitação de 258.048 tokens e um comprimento máximo de resposta de 32.768 tokens. Ele suporta cache de contexto, o que ajuda a otimizar o desempenho durante sessões longas. O modelo foi projetado para raciocínio complexo (embora o modo Thinking ainda não esteja disponível no Qwen Chat), escrita de código, processamento de formatos de dados estruturados, incluindo JSON, e tarefas criativas. É igualmente eficaz em conversas sobre diversos tópicos e como um agente; pode ser usado por clientes corporativos e laboratórios de pesquisa.

O custo de usar o Alibaba Qwen3-Max-Preview por meio da API do Alibaba Cloud depende do número de tokens:

O anúncio do Alibaba Qwen3-Max-Preview causou uma onda de reações nas redes sociais. Os criadores do projeto observaram que haviam escalado o modelo de IA para 1 trilhão de parâmetros e que o trabalho estava em andamento; na verdade, eles planejavam lançar algo novo na próxima semana. Algumas das limitações no comprimento do contexto se deviam à interface de bate-papo, e não ao modelo em si, acrescentaram, e um modo de raciocínio para ele já estava “em desenvolvimento”. Os primeiros usuários do modelo expressaram satisfação com os resultados obtidos nos testes iniciais; alguns estavam curiosos para ver como ele lidaria com problemas que exigissem raciocínio lógico complexo.

Fonte da imagem: x.com/_akhaliq

A pedido de Ahsen Khaliq, chefe de desenvolvimento de aprendizado de máquina, o modelo Qwen3-Max-Preview do Alibaba construiu uma imagem voxel na plataforma AnyCoder – um modelo de um jardim no estilo Minecraft. Ele, como outros experimentadores observaram, lidou com os problemas aritméticos propostos, resolveu o “quebra-cabeça 24” matemático e até mesmo uma tarefa específica que pesos pesados ​​como o OpenAI GPT-5 e o Google Gemini 2.5 Pro não conseguiram enfrentar. Ao receber uma solicitação complexa, ele, como mostram as observações, muda para um modo semelhante ao raciocínio, no qual cria respostas estruturadas passo a passo.

Para clientes corporativos, o valor do Qwen3-Max-Preview será determinado não por benchmarks, mas por como ele lida com tarefas específicas na prática. Com um trilhão de parâmetros, ele requer ajustes finos menos constantes quando implantado em aplicativos, mas o sistema de preços em camadas pode ser um impedimento para clientes corporativos. Seus pontos fortes incluem a similaridade da API com o OpenAI e o suporte a cache. Vale ressaltar que o Qwen3-Max-Preview, como o nome sugere, ainda é uma versão preliminar do modelo, e sua implantação às pressas pode estar associada a riscos.

Os desenvolvedores do laboratório Qwen do Alibaba também enfatizaram que esta ainda não é a versão final do modelo — sua versão disponível ao público provavelmente apresentará indicadores ainda mais impressionantes. Isso fortalecerá a posição do Qwen no ambiente de modelos de linguagem supergrandes.

admin

Postagens recentes

Elon Musk foi forçado a negar mais uma vez suas intenções de lançar um smartphone.

A julgar pelas atividades de Donald Trump, qualquer pessoa suficientemente conhecida e abastada neste mundo…

38 minutos atrás

A Microsoft ensinará o Xbox a converter discos de jogos em licenças digitais.

A Microsoft começou a testar o recurso Disc2Digital para converter jogos físicos licenciados para formato…

6 horas atrás

Mass Effect fica a desejar: ao contrário das expectativas dos jogadores, Exodus não terá um editor de personagens completo.

A Archetype Entertainment, veterana da BioWare, esclareceu um dos elementos mais obscuros de seu RPG…

6 horas atrás

A GeForce RTX 5090D tornou-se a primeira placa gráfica Blackwell cuja GPU atingiu 4 GHz.

A equipe de overclocking da OGS publicou um resultado de overclock de GPU para uma…

8 horas atrás

O Chrome 150 foi lançado, corrigindo quase 400 vulnerabilidades, incluindo 15 críticas.

Há um mês, o Google anunciou a correção de 429 vulnerabilidades no navegador Chrome, 22…

8 horas atrás

“Parece mais uma piada”: Sony decepcionou assinantes com o anúncio da seleção de jogos da PS Plus para julho.

Hoje, 1º de julho, a PlayStation já "alegrou" os usuários com notícias sobre o iminente…

9 horas atrás