O Google apresentou um modelo de IA de código aberto muito rápido chamado DiffusionGemma, que é fundamentalmente diferente dos demais.

O Google lançou um modelo experimental de inteligência artificial, o DiffusionGemma, que utiliza uma abordagem fundamentalmente diferente para a geração de texto em comparação com os modelos que alimentam a maioria dos chatbots modernos.

Fonte da imagem: blog.google

Em vez de gerar palavras palavra por palavra em uma sequência estrita, o DiffusionGemma cria um bloco inteiro de texto de uma só vez e continua a refiná-lo até que se torne legível. A principal vantagem do DiffusionGemma é priorizar a velocidade, mesmo que isso signifique alguma perda de qualidade. O modelo é publicado como código aberto sob a licença Apache 2.0 e é voltado para desenvolvedores e pesquisadores, não para usuários comuns.

Ele começa a responder às consultas do usuário com um conjunto de tokens aleatórios — texto ruidoso e ilegível — que são transformados em texto significativo ao longo de várias etapas. Isso aumenta significativamente a velocidade em comparação com os métodos tradicionais: 1000 tokens por segundo são gerados em um acelerador Nvidia H100, enquanto 700 tokens por segundo são gerados em uma placa de vídeo comum.

O Google DiffusionGemma possui uma arquitetura de Mistura de Especialistas (Mixture-of-Experts), o que significa que, de um total de 26 bilhões de parâmetros, apenas 3,8 bilhões estão ativos por vez; o modelo requer cerca de 18 GB de memória de vídeo. Ele gera 256 tokens por etapa, todos interagindo dentro de um bloco. Isso proporciona ao modelo uma visão global dos resultados, em vez de uma visão estritamente linear.

É ideal para tarefas de estruturação ou seguimento de regras: pode ser usado para preencher fragmentos de código ausentes, trabalhar com formatos como JSON, resolver problemas lógicos complexos e processar padrões matemáticos. Ao visualizar um bloco de tokens de uma só vez, ele pode corrigir inconsistências em um único ciclo de geração, em vez de esperar que um token posterior corrija o erro.

Mas ele temUma desvantagem significativa. As respostas do Google DiffusionGemma são de qualidade inferior às do Gemma 4 — o usuário troca velocidade por precisão. Portanto, o Google posiciona o projeto como experimental — ele foi desenvolvido para cenários em que a velocidade de resposta é mais importante do que a perfeição. Por exemplo, para aplicações de IA em tempo real, assistentes integrados de escrita de texto ou código e outros fluxos de trabalho rápidos e iterativos. Ele não se destina a substituir os modelos Gemma e Gemini.

admin

Compartilhar
Publicado por
admin

Postagens recentes

A Anthropic pede desculpas pela falta de transparência em relação à segurança de Claude Fable 5.

A Anthropic pediu desculpas por impor restrições ocultas ao seu modelo de inteligência artificial Claude…

31 minutos atrás

O agente de IA da OpenClaw falhou nos testes de phishing.

Pesquisadores de cibersegurança testaram o agente de e-mail de inteligência artificial OpenClaw para determinar se…

57 minutos atrás

O ChatGPT pode ficar mais barato, já que a OpenAI planeja intensificar sua luta contra a Anthropic.

A OpenAI está considerando reduzir drasticamente os preços de seus serviços de inteligência artificial em…

1 hora atrás

A Vertiv apresentou o Rack Extreme, um rack para servidores que suporta mais de 2.000 kg de equipamentos.

A Vertiva anunciou sua família Rack Extreme de racks para servidores, projetada para equipamentos de…

3 horas atrás