A Microsoft revelou a próxima versão de seu modelo de inteligência artificial, Phi-3 Mini. Tornou-se o primeiro de três pequenos modelos de IA que a gigante do software planeja lançar.

Fonte da imagem: geralt/Pixabay

Phi-3 Mini, com 3,8 bilhões de parâmetros, é treinado em um conjunto de dados menor em comparação ao conjunto de dados usado para treinar Large Language Models (LLMs), como o GPT-4. Phi-3 Mini está atualmente disponível na plataforma de nuvem Azure, assim como Hugging Face e Ollama. Além disso, a Microsoft planeja lançar modelos de IA Phi-3 Small com 7 bilhões de parâmetros e Phi-3 Medium com 14 bilhões de parâmetros.

Em dezembro passado, a Microsoft lançou o modelo Phi-2, que teve desempenho tão bom quanto modelos maiores, como o Llama 2. Segundo os desenvolvedores, o Phi-3 tem desempenho melhor que a versão anterior e pode dar respostas próximas às dos modelos dados, que são 10 vezes maiores. . O vice-presidente corporativo da Microsoft Azure AI Platform, Eric Boyd, disse que o Phi-3 Mini não é inferior em suas capacidades a LLMs como o GPT-3.5 e é feito “em um formato menor”.

Em comparação com os seus homólogos maiores, os pequenos modelos de IA são normalmente mais baratos de operar e têm melhor desempenho em dispositivos pessoais, como smartphones e computadores portáteis. No início deste ano, a mídia escreveu que a Microsoft havia criado uma equipe separada para desenvolver pequenos modelos de IA. Junto com o Phi, a empresa também criou o modelo Orca-Math, que tem como foco a resolução de problemas matemáticos.

Os concorrentes da Microsoft estão desenvolvendo pequenos modelos de IA, muitos dos quais destinados a resolver tarefas mais simples, como resumir documentos ou ajudar a escrever códigos de programas. Por exemplo, os modelos Gemma 2B e 7B da Anthropic podem processar grandes artigos científicos com gráficos e resumi-los rapidamente, enquanto o modelo Llama 3 da Meta✴ lançado recentemente pode ser usado para criar chatbots e ajudar na codificação.

De acordo com Boyd, os desenvolvedores ensinaram Phi-3 de acordo com um “currículo”. Eles foram inspirados pela forma como as crianças aprendem com os contos de fadas lidos antes de dormir. São livros com palavras e estruturas de frases mais simples, mas ao mesmo tempo muitas vezes trazem à tona tópicos importantes. Como faltava literatura existente para crianças no treinamento Phi-3, os desenvolvedores pegaram uma lista de mais de 3.000 tópicos e pediram a grandes modelos de linguagem que escrevessem “livros infantis” adicionais especificamente para o treinamento Phi-3.

Boyd acrescentou que o Phi-3 simplesmente se baseia no que as iterações anteriores do modelo de IA aprenderam. Se o Phi-1 estava focado na codificação e o Phi-2 começou a aprender a raciocinar, então o Phi-3 é ainda melhor em codificação e raciocínio. Embora os modelos da família Phi-3 tenham algum conhecimento geral, eles não podem superar o GPT-4 ou outros LLMs em amplitude de cobertura.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *