Categorias: Inteligência Artificial, Aprendizado de Máquina, Redes NeuraisMercado de tecnologia e TI. notícia

A Microsoft lança um par de modelos de IA Phi-4 eficazes e de código aberto — um deles foi retreinado com um novo método

A Microsoft expandiu sua linha de grandes modelos de linguagem de inteligência artificial Phi-4 com dois novos projetos com requisitos de sistema relativamente modestos. Uma delas é multimodal, ou seja, trabalha com diversos formatos de dados.

Fonte da imagem: microsoft.com

O modelo Microsoft Phi-4-mini é somente texto, enquanto o Phi-4-multimodal é uma versão aprimorada que também pode lidar com consultas visuais e de áudio. Ambos os modelos, afirma o desenvolvedor, superam significativamente alternativas de tamanho comparável ao executar determinadas tarefas.

O Microsoft Phi-4-mini tem 3,8 bilhões de parâmetros, o que significa que é compacto o suficiente para ser executado em dispositivos móveis. O modelo é baseado em uma versão especial da arquitetura Transformer. Na versão padrão, os modelos transformadores analisam o texto antes e depois de cada palavra para entender o significado; Ao desenvolver o Phi-4-mini, a Microsoft usou uma versão do Decoder-Only Transformer que analisa apenas o texto que precede uma palavra, reduzindo a carga nos recursos de computação e aumentando a velocidade do processamento de dados.

Para otimização adicional, foi usada a tecnologia Grouped Query Attention – esse mecanismo ajuda o modelo a determinar quais fragmentos de dados são mais relevantes ao processar a tarefa atual. Phi-4-mini pode gerar texto, traduzir documentos e controlar aplicativos externos; O modelo, de acordo com seus desenvolvedores, se destacou na resolução de problemas matemáticos e na escrita de códigos de computador, mesmo quando era necessário “raciocínio complexo”. A precisão das respostas do Phi-4-mini, de acordo com a própria Microsoft, é “significativamente” superior aos resultados fornecidos por vários outros modelos de tamanho semelhante.

Phi-4-multimodal é uma versão estendida do Phi-4-mini com 5,6 bilhões de parâmetros; Ele aceita não apenas texto, mas também imagens, áudio e vídeo como consultas. Para treinar ainda mais o modelo, a Microsoft usou um novo método chamado Mistura de LoRAs. Normalmente, adaptar uma IA a uma nova tarefa requer a alteração de seus pesos — parâmetros de configuração que determinam como ela processa os dados. Para facilitar essa tarefa, o método LoRA (Low-Rank Adaptation) é usado: um pequeno número de novos pesos otimizados para essa tarefa são adicionados ao modelo para executar uma tarefa desconhecida. O método Mixture of LoRAs adapta esse mecanismo ao processamento de dados multimodais: ao desenvolver o Phi-4-multimodal, o Phi-4-mini original foi complementado com pesos otimizados para trabalhar com áudio e vídeo. Como resultado, disse a Microsoft, foi possível suavizar alguns dos comprometimentos associados a outras abordagens para a construção de modelos multimodais.

Em testes envolvendo processamento visual, o Phi-4-multimodal obteve 72 pontos, um pouco atrás dos principais modelos da OpenAI e do Google. No processamento simultâneo de vídeo e áudio, ele superou “por uma ampla margem” o Google Gemini-2.0 Flash, bem como o InternOmni de código aberto. Phi-4-mini e Phi-4-multimodal estão disponíveis na plataforma Hugging Face sob uma licença do MIT, que permite seu uso comercial.

avalanche

Próximo Jade Empire poderia estar no mesmo nível de Mass Effect e Dragon Age se não fosse pelo "conselho totalmente idiota" da Microsoft »

Anterior « SK hynix atinge rendimento de 70% na produção de teste do avançado HBM4 de 12 camadas

Deixar comentário

Publicado por

avalanche

1 ano atrás

Postagens recentes

Sistemas de refrigeração

A Nvidia irá resfriar servidores com líquido quente, o que reduzirá drasticamente o consumo de energia e água em data centers.

A Nvidia anunciou um novo sistema de resfriamento líquido para data centers. Segundo a empresa,…

23 minutos atrás

Eletrônica vestível

Meta Glasses Revelado: Óculos inteligentes com inteligência artificial, sem a marca Ray-Ban, a partir de US$ 299

Uma nova linha de óculos inteligentes Meta✴Glasses com inteligência artificial foi apresentada. Segundo a empresa,…

47 minutos atrás

Jogos

Após anos de confusão, a CD Projekt mudará seu nome para CD Projekt Red.

Durante anos, os jogadores ficaram confusos sobre o nome correto da desenvolvedora de The Witcher…

1 hora atrás

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

A OpenAI integrará o modelo de voz Bidi 1 ao ChatGPT, que poderá falar e ouvir simultaneamente.

A OpenAI pretende transformar o ChatGPT em um superaplicativo, e outra grande atualização está atualmente…

2 horas atrás

Clientes de correio

A Microsoft quebrou o sistema de conversas por e-mail no Outlook para macOS, mas prometeu corrigir o problema.

Na atualização mais recente do Outlook para macOS, versão 16.110, compilação 26061317, a Microsoft desativou…

2 horas atrás

Vírus, cavalos de Troia, vulnerabilidades de software, problemas de segurança

O vírus AryStinger infectou milhares de roteadores D-Link e Linksys, além de dispositivos NAS da QNAP.

Uma campanha para criar uma rede de reconhecimento e proxy baseada em uma botnet que…

2 horas atrás

A Microsoft lança um par de modelos de IA Phi-4 eficazes e de código aberto — um deles foi retreinado com um novo método

Conteúdo relacionado

Postagens recentes

A Nvidia irá resfriar servidores com líquido quente, o que reduzirá drasticamente o consumo de energia e água em data centers.

Meta Glasses Revelado: Óculos inteligentes com inteligência artificial, sem a marca Ray-Ban, a partir de US$ 299

Após anos de confusão, a CD Projekt mudará seu nome para CD Projekt Red.

A OpenAI integrará o modelo de voz Bidi 1 ao ChatGPT, que poderá falar e ouvir simultaneamente.

A Microsoft quebrou o sistema de conversas por e-mail no Outlook para macOS, mas prometeu corrigir o problema.

O vírus AryStinger infectou milhares de roteadores D-Link e Linksys, além de dispositivos NAS da QNAP.