Alibaba lança modelos de IA que podem reconhecer imagens e conversar

A gigante tecnológica chinesa Alibaba revelou dois modelos de linguagem – Qwen Large Vision Language Model (Qwen-VL) e Qwen-VL-Chat – que demonstram interpretação avançada de imagens e diálogo em linguagem natural. Dada a crescente procura de acesso a algoritmos avançados de IA, os modelos de linguagem da Alibaba poderão ser oportunos.

Fonte da imagem: magnative.com

Os modelos de linguagem apresentados não se limitam à compreensão de mensagens de texto. Qwen-VL é capaz de perceber e compreender imagens, textos e cumprir restrições. O algoritmo pode processar solicitações relacionadas a diferentes imagens e gerar respostas a elas. Qwen-VL-Chat foi projetado para interações mais complexas. Por exemplo, pode comparar múltiplas imagens, responder a uma série de perguntas, escrever histórias baseadas em imagens fornecidas pelos utilizadores. Por exemplo, o usuário pode perguntar à IA sobre a localização de um hospital a partir de uma foto de sua placa e obter uma resposta precisa a esta pergunta.

Uma das vantagens dos modelos de linguagem apresentados é que funcionam com alta precisão. De acordo com o Alibaba, o Qwen-VL supera significativamente os modelos de linguagem de código aberto semelhantes existentes em vários critérios de avaliação do inglês. O algoritmo também oferece suporte a um novo recurso de “comunicação intercalada de múltiplas imagens”, que envolve o usuário fornecer várias imagens à IA e, em seguida, fazer perguntas relacionadas a elas.

Usando benchmarks padrão, os especialistas do Alibaba avaliaram as capacidades dos novos algoritmos para tarefas que vão desde a geração de comentários em imagens até a resposta a perguntas sobre imagens carregadas. Ambos os modelos também foram testados em relação ao benchmark do Alibaba, que se baseia na pontuação GPT-4 para determinar as capacidades de conversação e corresponder à percepção humana. Observa-se que Qwen-VL e Qwen-VL-Chat obtiveram os melhores resultados em diferentes categorias.

A Alibaba foi uma das primeiras empresas chinesas a introduzir um sistema competitivo de IA generativa, demonstrando o rápido progresso da investigação de redes neurais no Reino Médio. Ao lançar modelos de código aberto, o Alibaba garante que pesquisadores, cientistas e empresas de todo o mundo possam usá-los para construir seus próprios aplicativos sem o processo demorado e caro de treinar redes neurais do zero.

avalanche

Postagens recentes

O Windows 11 está apresentando falhas novamente, e alguns usuários estão enfrentando o desaparecimento da área de trabalho.

Foi descoberto um bug no Windows 11 que está causando mau funcionamento de elementos importantes…

26 minutos atrás

A Europa acelerou sua rejeição aos serviços digitais e softwares americanos.

Em toda a Europa, governos e instituições estão buscando reduzir o uso de serviços digitais…

1 hora atrás

Lisa Su prometeu um crescimento explosivo da receita: servidores e IA trarão dezenas de bilhões para a AMD.

Uma análise mais aprofundada das declarações da CEO da AMD, Lisa Su, no evento trimestral,…

2 horas atrás

A Take-Two está implementando ativamente IA generativa em seus fluxos de trabalho, mas não em GTA VI – é um jogo feito à mão.

Strauss Zelnick, CEO da Take-Two Interactive, falou com o GamesIndustry.biz sobre a integração da IA…

2 horas atrás

A OpenAI nomeou um Diretor de Preparação para supervisionar o desenvolvimento de IA segura.

A segurança da inteligência artificial é um tema extremamente sensível nos dias de hoje. Os…

3 horas atrás