O Google anunciou o lançamento do Gemini 3.1 Flash-Lite, o modelo de IA mais rápido e acessível da família Gemini. O algoritmo é otimizado para o processamento eficiente de grandes volumes de dados e seu custo é de US$ 0,25 por milhão de tokens de entrada e US$ 1,50 por milhão de tokens de saída. Uma versão de pré-visualização do modelo de IA já está disponível para desenvolvedores por meio da API Gemini no Google AI Studio e para clientes corporativos na Vertex AI.

Fonte da imagem: Google
O Gemini 3.1 Flash-Lite supera o modelo Gemini 2.5 Flash em 2,5 vezes no tempo de geração do primeiro token e gera dados de resposta 45% mais rápido. Essa baixa latência é essencial para melhorar a eficiência do fluxo de trabalho, tornando o novo modelo atraente para desenvolvedores que criam soluções responsivas e aplicativos em tempo real.
O modelo de IA alcançou uma impressionante pontuação ELO de 1432 no Arena.ai e superou outros modelos de IA com classificação semelhante em raciocínio e processamento multimodal. Nos testes GPQA Diamond e MMMU Pro, o algoritmo obteve 86,9% e 76,8%, respectivamente, superando alguns modelos de IA Gemini de gerações anteriores, como o Gemini 2.5 Flash.
Os desenvolvedores podem personalizar a profundidade do raciocínio no Gemini 3.1 Flash-Lite para atender às suas necessidades. Isso é essencial para gerenciar cargas de trabalho de alta frequência. A otimização foi implementada para o processamento de tarefas em larga escala, como a tradução de grandes volumes de texto e a moderação de conteúdo, onde o custo é uma preocupação primordial. O algoritmo é adequado para a geração de interfaces de usuário (UIs), painéis de controle, modelagem e realização de pesquisas baseadas em consultas complexas.