A gigante tecnológica chinesa Alibaba revelou dois modelos de linguagem – Qwen Large Vision Language Model (Qwen-VL) e Qwen-VL-Chat – que demonstram interpretação avançada de imagens e diálogo em linguagem natural. Dada a crescente procura de acesso a algoritmos avançados de IA, os modelos de linguagem da Alibaba poderão ser oportunos.
Fonte da imagem: magnative.com
Os modelos de linguagem apresentados não se limitam à compreensão de mensagens de texto. Qwen-VL é capaz de perceber e compreender imagens, textos e cumprir restrições. O algoritmo pode processar solicitações relacionadas a diferentes imagens e gerar respostas a elas. Qwen-VL-Chat foi projetado para interações mais complexas. Por exemplo, pode comparar múltiplas imagens, responder a uma série de perguntas, escrever histórias baseadas em imagens fornecidas pelos utilizadores. Por exemplo, o usuário pode perguntar à IA sobre a localização de um hospital a partir de uma foto de sua placa e obter uma resposta precisa a esta pergunta.
Uma das vantagens dos modelos de linguagem apresentados é que funcionam com alta precisão. De acordo com o Alibaba, o Qwen-VL supera significativamente os modelos de linguagem de código aberto semelhantes existentes em vários critérios de avaliação do inglês. O algoritmo também oferece suporte a um novo recurso de “comunicação intercalada de múltiplas imagens”, que envolve o usuário fornecer várias imagens à IA e, em seguida, fazer perguntas relacionadas a elas.
Usando benchmarks padrão, os especialistas do Alibaba avaliaram as capacidades dos novos algoritmos para tarefas que vão desde a geração de comentários em imagens até a resposta a perguntas sobre imagens carregadas. Ambos os modelos também foram testados em relação ao benchmark do Alibaba, que se baseia na pontuação GPT-4 para determinar as capacidades de conversação e corresponder à percepção humana. Observa-se que Qwen-VL e Qwen-VL-Chat obtiveram os melhores resultados em diferentes categorias.
A Alibaba foi uma das primeiras empresas chinesas a introduzir um sistema competitivo de IA generativa, demonstrando o rápido progresso da investigação de redes neurais no Reino Médio. Ao lançar modelos de código aberto, o Alibaba garante que pesquisadores, cientistas e empresas de todo o mundo possam usá-los para construir seus próprios aplicativos sem o processo demorado e caro de treinar redes neurais do zero.
Na MWC 2026 em Barcelona, a Vivo apresentou seu smartphone topo de linha, o X300…
A Starlink firmou um acordo com a gigante alemã de telecomunicações Deutsche Telekom para implementar…
Uma análise da última Pesquisa Steam, um relatório mensal da Valve que visa compreender as…
Uma análise da última Pesquisa Steam, um relatório mensal da Valve que visa compreender as…
A editora francesa Nacon (Terminator: Survivors, Styx: Blades of Greed, RoboCop: Rogue City) confirmou o…
Antes do seu lançamento amanhã, o RPG de fantasia Esoteric Ebb, do desenvolvedor sueco Christoffer…