O Google apresentou o Gemma 4 12B, um modelo de IA multimodal com recursos avançados de raciocínio lógico que pode ser executado de forma eficiente em laptops com 16 GB de RAM ou memória unificada.

Fonte da imagem: Google

De acordo com o blog da empresa, o modelo se posiciona como uma ponte entre o leve E4B e o mais avançado modelo 26B, baseado na arquitetura Mixture of Experts (MoE). Uma característica fundamental da arquitetura é a eliminação dos módulos separados de tradução de imagem e áudio antes de passá-los para o modelo de IA para processamento.

Em vez do codificador visual tradicional, agora é utilizado um módulo de incorporação compacto baseado em multiplicação e normalização de matrizes, permitindo que a arquitetura LLM lide com o processamento de dados visuais, reduzindo a carga sobre os recursos computacionais. Em relação ao áudio, esse processo foi ainda mais simplificado com a remoção completa do codificador de áudio e a projeção do sinal bruto em um único espaço com tokens de texto.

Ressalta-se que o novo sistema demonstra desempenho comparável à versão 26B, porém consome menos recursos do sistema, permitindo a resolução de problemas lógicos de múltiplos estágios e o suporte a cenários complexos de agentes de IA. A latência de resposta é ainda mais reduzida pela integração de mecanismos de Multi-Token Prediction (MTP).

O algoritmo é distribuído sob a licença de código aberto Apache 2.0 e é totalmente compatível com o ecossistema de desenvolvedores existente, que já baixou versões anteriores da plataforma Gemma 4 mais de 150 milhões de vezes. O processamento autônomo de dados de áudio pode ser avaliado usando o Google AI Edge Eloquent, um programa capaz de transcrever, formatar e traduzir comandos de voz sem conexão com a internet.

By admin

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *