Alibaba lança modelos de IA que podem reconhecer imagens e conversar

A gigante tecnológica chinesa Alibaba revelou dois modelos de linguagem – Qwen Large Vision Language Model (Qwen-VL) e Qwen-VL-Chat – que demonstram interpretação avançada de imagens e diálogo em linguagem natural. Dada a crescente procura de acesso a algoritmos avançados de IA, os modelos de linguagem da Alibaba poderão ser oportunos.

Fonte da imagem: magnative.com

Os modelos de linguagem apresentados não se limitam à compreensão de mensagens de texto. Qwen-VL é capaz de perceber e compreender imagens, textos e cumprir restrições. O algoritmo pode processar solicitações relacionadas a diferentes imagens e gerar respostas a elas. Qwen-VL-Chat foi projetado para interações mais complexas. Por exemplo, pode comparar múltiplas imagens, responder a uma série de perguntas, escrever histórias baseadas em imagens fornecidas pelos utilizadores. Por exemplo, o usuário pode perguntar à IA sobre a localização de um hospital a partir de uma foto de sua placa e obter uma resposta precisa a esta pergunta.

Uma das vantagens dos modelos de linguagem apresentados é que funcionam com alta precisão. De acordo com o Alibaba, o Qwen-VL supera significativamente os modelos de linguagem de código aberto semelhantes existentes em vários critérios de avaliação do inglês. O algoritmo também oferece suporte a um novo recurso de “comunicação intercalada de múltiplas imagens”, que envolve o usuário fornecer várias imagens à IA e, em seguida, fazer perguntas relacionadas a elas.

Usando benchmarks padrão, os especialistas do Alibaba avaliaram as capacidades dos novos algoritmos para tarefas que vão desde a geração de comentários em imagens até a resposta a perguntas sobre imagens carregadas. Ambos os modelos também foram testados em relação ao benchmark do Alibaba, que se baseia na pontuação GPT-4 para determinar as capacidades de conversação e corresponder à percepção humana. Observa-se que Qwen-VL e Qwen-VL-Chat obtiveram os melhores resultados em diferentes categorias.

A Alibaba foi uma das primeiras empresas chinesas a introduzir um sistema competitivo de IA generativa, demonstrando o rápido progresso da investigação de redes neurais no Reino Médio. Ao lançar modelos de código aberto, o Alibaba garante que pesquisadores, cientistas e empresas de todo o mundo possam usá-los para construir seus próprios aplicativos sem o processo demorado e caro de treinar redes neurais do zero.

avalanche

Postagens recentes

O vazamento revelou todas as características das placas gráficas Intel Arc B580 e Arc B570 antes de sua estreia

Após a recente confirmação oficial da Intel do anúncio iminente das placas de vídeo Arc…

5 horas atrás

Loco Motive é um retorno à era LucasArts. Análise

Jogado no pc Muitas equipes independentes começam sua jornada com jogos de plataforma e metroidvanias…

5 horas atrás

Samsung encerrará suporte para DeX para Windows com o lançamento do One UI 7

A Samsung vai se livrar do aplicativo Samsung DeX para Windows na nova versão do…

7 horas atrás

O novo Ryzen 9000X3D será apresentado na CES 2025, disse o principal gerente da Asus

O chefe do departamento chinês da Asus, Tony Yu, disse que a AMD lançará processadores…

9 horas atrás

O segundo satélite Condor-FKA foi lançado em órbita – juntos eles fornecerão imagens em super-resolução da terra e do oceano

Hoje, às 00h50, horário de Moscou, o veículo de lançamento Soyuz-2.1a com o estágio superior…

9 horas atrás

Carta roguelike “Imortal. Tales of Old Rus'” dos autores de “War of the Worlds: Siberia” terá acesso antecipado em 12 de dezembro

História de cartas roguelike “Imortal. Tales of Old Rus'" deixará o acesso antecipado no Steam…

9 horas atrás