Alibaba lança modelos de IA que podem reconhecer imagens e conversar

A gigante tecnológica chinesa Alibaba revelou dois modelos de linguagem – Qwen Large Vision Language Model (Qwen-VL) e Qwen-VL-Chat – que demonstram interpretação avançada de imagens e diálogo em linguagem natural. Dada a crescente procura de acesso a algoritmos avançados de IA, os modelos de linguagem da Alibaba poderão ser oportunos.

Fonte da imagem: magnative.com

Os modelos de linguagem apresentados não se limitam à compreensão de mensagens de texto. Qwen-VL é capaz de perceber e compreender imagens, textos e cumprir restrições. O algoritmo pode processar solicitações relacionadas a diferentes imagens e gerar respostas a elas. Qwen-VL-Chat foi projetado para interações mais complexas. Por exemplo, pode comparar múltiplas imagens, responder a uma série de perguntas, escrever histórias baseadas em imagens fornecidas pelos utilizadores. Por exemplo, o usuário pode perguntar à IA sobre a localização de um hospital a partir de uma foto de sua placa e obter uma resposta precisa a esta pergunta.

Uma das vantagens dos modelos de linguagem apresentados é que funcionam com alta precisão. De acordo com o Alibaba, o Qwen-VL supera significativamente os modelos de linguagem de código aberto semelhantes existentes em vários critérios de avaliação do inglês. O algoritmo também oferece suporte a um novo recurso de “comunicação intercalada de múltiplas imagens”, que envolve o usuário fornecer várias imagens à IA e, em seguida, fazer perguntas relacionadas a elas.

Usando benchmarks padrão, os especialistas do Alibaba avaliaram as capacidades dos novos algoritmos para tarefas que vão desde a geração de comentários em imagens até a resposta a perguntas sobre imagens carregadas. Ambos os modelos também foram testados em relação ao benchmark do Alibaba, que se baseia na pontuação GPT-4 para determinar as capacidades de conversação e corresponder à percepção humana. Observa-se que Qwen-VL e Qwen-VL-Chat obtiveram os melhores resultados em diferentes categorias.

A Alibaba foi uma das primeiras empresas chinesas a introduzir um sistema competitivo de IA generativa, demonstrando o rápido progresso da investigação de redes neurais no Reino Médio. Ao lançar modelos de código aberto, o Alibaba garante que pesquisadores, cientistas e empresas de todo o mundo possam usá-los para construir seus próprios aplicativos sem o processo demorado e caro de treinar redes neurais do zero.

avalanche

Postagens recentes

Slay the Spire 2 – Adeus Tempo Livre! Prévia / Jogos

Passei mais de quatrocentas horas jogando o primeiro Slay the Spire, e que horas maravilhosas…

2 horas atrás

A nova temporada de Warface, “Steel Quarters”, promete: brutalidade em todas as pistas de patinação!

Warface vem encantando fãs de ação online há quase quatorze anos, e a temporada "Steel…

4 horas atrás

O SoftBank tomou emprestado US$ 40 bilhões por um ano para investir na OpenAI.

O SoftBank Group, holding multinacional japonesa e um dos maiores investidores mundiais no setor de…

5 horas atrás

A Meta construirá sete usinas termelétricas a gás com capacidade total de 5,2 GW para acompanhar a corrida da IA.

Segundo a Bloomberg, a Meta✴ financiará a construção de sete novas usinas termelétricas a gás…

5 horas atrás

“Mandem-me para o futuro para que eu possa jogar este jogo”: Novas imagens de jogabilidade do RPG de ação no estilo Mass Effect, Exodus, deixam os fãs empolgados.

A Archetype Entertainment, veterana da BioWare, divulgou novas imagens de jogabilidade de Exodus, seu ambicioso…

5 horas atrás

Uma vulnerabilidade zero-day perigosa foi descoberta no Telegram, mas os detalhes estão sendo mantidos em segredo.

Michael Deplante, especialista em segurança da informação associado à Zero Day Initiative da TrendAI, descobriu…

5 horas atrás