A Microsoft anunciou o modelo Phi-3-vision AI, uma nova versão de seu pequeno modelo de linguagem Phi-3 que pode observar imagens e dizer ao usuário o que há nelas. Phi-3-vision é um modelo de IA multimodal com capacidade de ler texto e visualizar imagens, projetado para uso principalmente em dispositivos móveis.

Fonte da imagem: geralt/Pixabay

Phi-3-vision, disponível em versão prévia, é um modelo de 4,2 bilhões de parâmetros que pode realizar tarefas comuns de raciocínio visual, incluindo responder perguntas sobre diagramas ou imagens, disse a Microsoft.

Phi-3-vision é muito menor do que outros modelos de IA focados em imagem, como o DALL-E da OpenAI ou o Stable Diffusion da Stability AI. Ao contrário desses modelos, o Phi-3-vision não gera imagens, embora seja capaz de entender o que está representado na imagem e analisar a imagem a pedido do usuário.

A Microsoft apresentou o modelo Phi-3 em abril com o lançamento do Phi-3-mini, o menor modelo da família Phi-3 com 3,8 bilhões de parâmetros. A família Phi-3 também inclui os modelos Phi-3-small (7 bilhões de parâmetros) e Phi-3-medium (14 bilhões de parâmetros).

Os desenvolvedores começaram a lançar modelos de IA pequenos e leves, como o Phi-3, à medida que aumenta a demanda por serviços de IA mais econômicos e com menos uso de recursos. Modelos pequenos de IA não ocupam muito espaço de memória e, portanto, podem ser usados ​​em telefones e laptops.

A Microsoft lançou vários modelos pequenos, além do Phi-3 e seu antecessor Phi-2. Seu modelo Orca-Math, que se concentra na resolução de problemas matemáticos, supostamente responde a questões matemáticas melhor do que equivalentes maiores, como o Gemini Pro do Google.

Os modelos de IA Phi-3-mini, Phi-3-small e Phi-3-medium já estão disponíveis para uso e estão presentes na Biblioteca de Modelos do Azure.

avalanche

Postagens recentes

Conforme as cartas forem lançadas, conforme a rede ditar: a AWS está implementando uma arquitetura de rede RNG quase aleatória em seus data centers.

A AWS publicou uma descrição técnica da arquitetura de rede de data center que implementará…

1 dia atrás

O chefe da NASA afirma que os voos do foguete New Glenn não serão retomados antes de 2028, eliminando a Blue Origin da corrida lunar.

Durante um teste estático de ignição em 29 de maio de 2026, o foguete New…

1 dia atrás

Foi anunciado o sucessor espiritual de Zeus: Master of Olympus – o jogo de estratégia de construção de cidades Theos: Cities of Myth, onde história e mito se entrelaçam.

A editora Dotemu (Ninja Gaiden: Ragebound, Marvel Cosmic Invasion) e a Triskell Interactive, desenvolvedora de…

1 dia atrás

Plataforma de referência de IA Qualcomm Dragonwing IQ10 para robótica é apresentada.

Cristiano Amon, CEO da Qualcomm, apresentou a plataforma robótica Dragonwing IQ10 atualizada na Computex 2026.…

1 dia atrás

O RPG infernal baseado em turnos, Entropy, do criador de Dread Delusion, recebeu uma demo e uma data de lançamento no Acesso Antecipado do Steam.

A editora DreadXP e o estúdio britânico Lovely Hellplace (Dread Delusion) anunciaram a data de…

1 dia atrás