A Microsoft lançou três novos modelos Phi-3.5 AI – eles são superiores aos análogos do Google e OpenAI

A Microsoft não descansou sobre os louros da parceria com a OpenAI e lançou três novos sistemas de inteligência artificial pertencentes à família Phi – modelos linguísticos e multimodais.

Fonte da imagem: VentureBeat/Midjourney

Três novos projetos na linha Phi 3.5 incluem um grande modelo de linguagem da versão base Phi-3.5-mini-instruct com 3,82 bilhões de parâmetros, um poderoso Phi-3.5-MoE-instruct com 41,9 bilhões de parâmetros e Phi-3.5-vision- instrua com 4,15 bilhões de parâmetros – é projetado para análise de imagens e vídeos. Todos os três modelos estão disponíveis sob a marca Microsoft na plataforma Hugging Face sob licença do MIT – eles podem ser baixados, ajustados, modificados e usados ​​comercialmente sem restrições. Em testes, eles não são inferiores, e às vezes até superiores, a produtos concorrentes como Google Gemini 1.5 Flash, Meta✴ Llama 3.1 e até OpenAI GPT-4o.

Aqui e abaixo fonte da imagem: VentureBeat/Midjourney

Phi-3.5 Mini Instruct é otimizado para ambientes com recursos computacionais limitados. Este é um modelo leve com 3,8 bilhões de parâmetros. Ele foi projetado para executar instruções e suporta um comprimento de contexto de 128 mil tokens. O modelo lida com tarefas como geração de código, resolução de problemas matemáticos e raciocínio lógico. Apesar de seu tamanho compacto, o Phi-3.5 Mini Instruct é bastante competitivo em tarefas linguísticas multilíngues e com vários turnos. No teste RepoQA, que é usado para avaliar a “compreensão de código de contexto longo”, ele supera, em particular, Llama-3.1-8B-instruct e Mistral-7B-instruct.

Phi-3.5 MoE (Mixture of Experts) combina vários modelos de diferentes tipos, cada um especializado em sua própria tarefa. A arquitetura do modelo é caracterizada por 42 bilhões de parâmetros ativos e suporte de contexto de 128 mil, o que permite sua utilização em aplicações exigentes – vale ressaltar que a documentação do Hugging Face fala de apenas 6,6 bilhões de parâmetros ativos. Phi-3.5 MoE tem desempenho respeitável em matemática, geração de código e compreensão de consultas multilíngues, muitas vezes superando modelos maiores em alguns benchmarks, incluindo RepoQA; também venceu o GPT-4o mini no teste MMLU (Massive Multitask Language Understanding) nas ciências naturais e técnicas, bem como nas ciências humanas e sociais em vários níveis de conhecimento.

Phi-3.5 Vision Instruct combina recursos de processamento de texto e imagem. É adequado para reconhecer imagens e símbolos, analisar gráficos e tabelas e compilar resumos de vídeo. O Vision Instruct, como outros modelos Phi-3.5, suporta um comprimento de contexto de 128 mil tokens, o que permite trabalhar com tarefas visuais complexas de vários quadros. O sistema foi treinado em conjuntos de dados públicos sintéticos e filtrados, com foco em conjuntos de dados de raciocínio de alta qualidade e alta densidade.

Phi-3.5 Mini Instruct treinou em 3,4 trilhões de tokens usando 512 aceleradores Nvidia H100-80G durante 10 dias; o modelo de arquitetura mista Phi-3.5 MoE foi treinado em 4,9 trilhões de tokens usando 512 unidades Nvidia H100-80G em 23 dias; foram necessários 6 dias para treinar o Vision Instruct para 500 bilhões de tokens usando 256 aceleradores Nvidia A100-80G AI. Todo o trio Phi-3 está disponível sob a licença MIT, que permite aos desenvolvedores usar, modificar, mesclar, publicar, distribuir, sublicenciar ou vender cópias dos produtos livremente. A licença contém uma isenção de responsabilidade: os modelos são fornecidos “como estão”, sem garantia de qualquer tipo – a Microsoft e outros detentores de direitos autorais não são responsáveis ​​por quaisquer reclamações, danos ou outras responsabilidades que possam surgir do uso dos modelos.

avalanche

Postagens recentes

Home Sports, uma coleção de jogos de esportes que se parece muito com Wii Sports, será lançada na Quest 3

O estúdio sueco Resolution Games, especializado em jogos para realidade virtual e mista, anunciou a…

15 minutos atrás

A Nvidia investe duas vezes mais dinheiro em pesquisa do que a AMD – a Intel gasta mais combinada

O sucesso da Nvidia na aceleração da computação com inteligência artificial é o resultado de…

25 minutos atrás

A TSMC começou a equipar sua segunda fábrica de 2 nm em Taiwan antes do previsto

Com a intensificação dos esforços da TSMC para construir fábricas fora de Taiwan, a posição…

2 horas atrás

Qualcomm esfriou com a ideia de comprar totalmente a Intel

Rumores sobre as intenções da Qualcomm de comprar toda a empresa Intel surgiram em setembro,…

3 horas atrás

Conferência das Nações Unidas sobre Alterações Climáticas falha metas de financiamento para economias em desenvolvimento

A 29ª Conferência das Nações Unidas sobre Mudanças Climáticas (COP29), realizada em Baku, conforme relatado…

4 horas atrás

Workshop de desenho de IA, parte doze: prototipagem rápida com FLUX.1 [dev]

A principal dificuldade do FLUX.1 [dev] do ponto de vista do proprietário de um PC…

9 horas atrás