A startup francesa de IA, Mistral AI, apresentou sua família de modelos de código aberto de última geração, a Mistral 3, consolidando sua posição como uma forte candidata à liderança no mercado de IA de código aberto, que oferece aos clientes corporativos diversas vantagens em relação às soluções de grandes empresas de tecnologia.

Fonte da imagem: Mistral AI
A família Mistral 3 consiste em 10 modelos, incluindo o Mistral Large 3, um modelo Mixture of Experts (MoE) de grande porte com pesos abertos, multimodal e multilíngue. Este é o modelo mais poderoso da empresa até o momento, treinado com 41 bilhões de parâmetros ativos e 675 bilhões de parâmetros compartilhados. A família também inclui nove modelos menores com recursos offline e totalmente personalizáveis, incluindo três modelos Mistral de alta densidade de última geração com 4, 8 e 3 bilhões de parâmetros.
Os modelos Mistral oferecem a melhor relação custo-benefício em sua categoria. Ao mesmo tempo, o Mistral Large 3 está entre os principais modelos de código aberto otimizados para instruções refinadas.
A empresa observou que todos os modelos são lançados sob a licença Apache 2.0, acrescentando que disponibilizar os modelos em código aberto em vários formatos compactados fortalece a comunidade de desenvolvedores e possibilita o poder da IA por meio da inteligência distribuída.
Segundo o TechCrunch, a Mistral, uma startup fundada por ex-funcionários da DeepMind e da Meta✴, tem apenas dois anos e já arrecadou aproximadamente US$ 2,7 bilhões em financiamento, com uma avaliação de mercado de US$ 13,7 bilhões. Esse valor é significativamente menor do que o de concorrentes como a OpenAI (que arrecadou US$ 57 bilhões e alcançou uma avaliação de US$ 500 bilhões) e a Anthropic (que arrecadou US$ 45 bilhões e alcançou uma avaliação de US$ 350 bilhões).
A Mistral argumenta que tamanho nem sempre significa melhor, especialmente para aplicações de IA em empresas.“Nossos clientes às vezes ficam satisfeitos em começar com um modelo [fechado] muito grande que não precisam personalizar… mas, depois de implementá-lo, percebem que é caro e lento.”Guillaume Lample, cofundador e diretor científico da Mistral, disse ao TechCrunch: “Eles nos procuram para ajustar modelos menores e, assim, solucionar melhor um problema específico”. Ele observou que a grande maioria dos casos de uso de IA empresarial pode ser atendida com modelos pequenos e ajustados.
Lample argumenta que, ao comparar modelos de código aberto com modelos de referência, nos quais estes apresentam desempenho significativamente inferior aos seus equivalentes de código fechado, os resultados podem ser enganosos. Ele observou que modelos maiores e de código fechado podem ter um desempenho melhor logo de início, mas os ganhos reais com o uso de modelos menores vêm do ajuste fino.
