Alibaba lança modelos de IA que podem reconhecer imagens e conversar

A gigante tecnológica chinesa Alibaba revelou dois modelos de linguagem – Qwen Large Vision Language Model (Qwen-VL) e Qwen-VL-Chat – que demonstram interpretação avançada de imagens e diálogo em linguagem natural. Dada a crescente procura de acesso a algoritmos avançados de IA, os modelos de linguagem da Alibaba poderão ser oportunos.

Fonte da imagem: magnative.com

Os modelos de linguagem apresentados não se limitam à compreensão de mensagens de texto. Qwen-VL é capaz de perceber e compreender imagens, textos e cumprir restrições. O algoritmo pode processar solicitações relacionadas a diferentes imagens e gerar respostas a elas. Qwen-VL-Chat foi projetado para interações mais complexas. Por exemplo, pode comparar múltiplas imagens, responder a uma série de perguntas, escrever histórias baseadas em imagens fornecidas pelos utilizadores. Por exemplo, o usuário pode perguntar à IA sobre a localização de um hospital a partir de uma foto de sua placa e obter uma resposta precisa a esta pergunta.

Uma das vantagens dos modelos de linguagem apresentados é que funcionam com alta precisão. De acordo com o Alibaba, o Qwen-VL supera significativamente os modelos de linguagem de código aberto semelhantes existentes em vários critérios de avaliação do inglês. O algoritmo também oferece suporte a um novo recurso de “comunicação intercalada de múltiplas imagens”, que envolve o usuário fornecer várias imagens à IA e, em seguida, fazer perguntas relacionadas a elas.

Usando benchmarks padrão, os especialistas do Alibaba avaliaram as capacidades dos novos algoritmos para tarefas que vão desde a geração de comentários em imagens até a resposta a perguntas sobre imagens carregadas. Ambos os modelos também foram testados em relação ao benchmark do Alibaba, que se baseia na pontuação GPT-4 para determinar as capacidades de conversação e corresponder à percepção humana. Observa-se que Qwen-VL e Qwen-VL-Chat obtiveram os melhores resultados em diferentes categorias.

A Alibaba foi uma das primeiras empresas chinesas a introduzir um sistema competitivo de IA generativa, demonstrando o rápido progresso da investigação de redes neurais no Reino Médio. Ao lançar modelos de código aberto, o Alibaba garante que pesquisadores, cientistas e empresas de todo o mundo possam usá-los para construir seus próprios aplicativos sem o processo demorado e caro de treinar redes neurais do zero.

avalanche

Postagens recentes

Imagens dos fones de ouvido sem fio Galaxy Buds4 e Buds4 Pro da Samsung surgiram antes do anúncio oficial.

A Samsung deverá apresentar oficialmente os fones de ouvido sem fio Galaxy Buds4 e Galaxy…

27 minutos atrás

A AMD deu a entender que poderá lançar a próxima geração do Xbox – e a espera não será longa.

O crescimento da receita da AMD no segmento de jogos no último trimestre, conforme destacado…

38 minutos atrás

A Qualcomm perdeu os dois criadores dos núcleos de processador Oryon, que esperava usar para conquistar uma fatia do mercado de PCs.

A Qualcomm anunciou oficialmente a saída de dois dos principais designers de processadores para PCs…

1 hora atrás

A Take-Two negou os rumores sobre um possível atraso no lançamento físico de GTA VI e confirmou quando a campanha publicitária do jogo terá início.

Contrariando os temores dos fãs, a Take-Two Interactive não confirmou outro adiamento para o ambicioso…

2 horas atrás

CEO da Nvidia nega rumores de perda de interesse em investimentos na OpenAI.

Há vários dias, a mídia está repleta de rumores de que a Nvidia pode abandonar…

3 horas atrás