Alibaba lança modelos de IA que podem reconhecer imagens e conversar

A gigante tecnológica chinesa Alibaba revelou dois modelos de linguagem – Qwen Large Vision Language Model (Qwen-VL) e Qwen-VL-Chat – que demonstram interpretação avançada de imagens e diálogo em linguagem natural. Dada a crescente procura de acesso a algoritmos avançados de IA, os modelos de linguagem da Alibaba poderão ser oportunos.

Fonte da imagem: magnative.com

Os modelos de linguagem apresentados não se limitam à compreensão de mensagens de texto. Qwen-VL é capaz de perceber e compreender imagens, textos e cumprir restrições. O algoritmo pode processar solicitações relacionadas a diferentes imagens e gerar respostas a elas. Qwen-VL-Chat foi projetado para interações mais complexas. Por exemplo, pode comparar múltiplas imagens, responder a uma série de perguntas, escrever histórias baseadas em imagens fornecidas pelos utilizadores. Por exemplo, o usuário pode perguntar à IA sobre a localização de um hospital a partir de uma foto de sua placa e obter uma resposta precisa a esta pergunta.

Uma das vantagens dos modelos de linguagem apresentados é que funcionam com alta precisão. De acordo com o Alibaba, o Qwen-VL supera significativamente os modelos de linguagem de código aberto semelhantes existentes em vários critérios de avaliação do inglês. O algoritmo também oferece suporte a um novo recurso de “comunicação intercalada de múltiplas imagens”, que envolve o usuário fornecer várias imagens à IA e, em seguida, fazer perguntas relacionadas a elas.

Usando benchmarks padrão, os especialistas do Alibaba avaliaram as capacidades dos novos algoritmos para tarefas que vão desde a geração de comentários em imagens até a resposta a perguntas sobre imagens carregadas. Ambos os modelos também foram testados em relação ao benchmark do Alibaba, que se baseia na pontuação GPT-4 para determinar as capacidades de conversação e corresponder à percepção humana. Observa-se que Qwen-VL e Qwen-VL-Chat obtiveram os melhores resultados em diferentes categorias.

A Alibaba foi uma das primeiras empresas chinesas a introduzir um sistema competitivo de IA generativa, demonstrando o rápido progresso da investigação de redes neurais no Reino Médio. Ao lançar modelos de código aberto, o Alibaba garante que pesquisadores, cientistas e empresas de todo o mundo possam usá-los para construir seus próprios aplicativos sem o processo demorado e caro de treinar redes neurais do zero.

avalanche

Postagens recentes

A tecnologia de comunicação via satélite 5G da Starlink estará disponível em smartphones comuns em 10 países europeus até 2028.

A Starlink firmou um acordo com a gigante alemã de telecomunicações Deutsche Telekom para implementar…

4 horas atrás

A Steam publicou um relatório sobre o hardware usado pelos jogadores que ninguém acreditou.

Uma análise da última Pesquisa Steam, um relatório mensal da Valve que visa compreender as…

4 horas atrás

A Steam publicou um relatório sobre o hardware usado pelos jogadores que ninguém acreditou.

Uma análise da última Pesquisa Steam, um relatório mensal da Valve que visa compreender as…

4 horas atrás

A editora de Terminator: Survivors e Styx: Blades of Greed, que enfrenta falência, adiou a Nacon Connect 2026 para apresentar os jogos “em sua melhor forma”.

A editora francesa Nacon (Terminator: Survivors, Styx: Blades of Greed, RoboCop: Rogue City) confirmou o…

6 horas atrás

“Estranho no melhor sentido da palavra”: Os críticos deram seu veredicto sobre o jogo de RPG de fantasia da Esoteric Ebb, no estilo de Planescape: Torment e Disco Elysium.

Antes do seu lançamento amanhã, o RPG de fantasia Esoteric Ebb, do desenvolvedor sueco Christoffer…

7 horas atrás