O novo modelo de IA do Google, Gemini 2.0, foi revelado e é extremamente versátil: gera texto, som e imagens, além de oferecer novos recursos multimodais que estabelecem as bases para o próximo grande passo na IA: agentes que podem literalmente substituir o usuário em operações de rotina. O novo modelo também se tornou visivelmente mais produtivo e eficiente em termos energéticos.

Fonte da imagem: techspot.com

Como qualquer outra empresa na corrida da IA, o Google está integrando febrilmente a IA em tudo o que pode colocar em suas mãos, na tentativa de criar produtos comercialmente bem-sucedidos. Ao mesmo tempo, é necessário configurar toda a infraestrutura para que soluções caras de IA não arruínem a empresa. Enquanto isso, Amazon, Microsoft, Anthropic e OpenAI estão investindo seus próprios bilhões em praticamente o mesmo conjunto de problemas.

Gemini 2.0 chega aproximadamente 10 meses após o lançamento da versão 1.5. O CEO do Google DeepMind, Demis Hassabis, elogia o novo modelo, chamando-o de “abrangente”, embora o Gemini 2.0 ainda esteja em fase de “visualização experimental”, na terminologia do Google. No entanto, Hassabis está confiante de que o novo modelo fornecerá um nível de capacidades completamente diferente, principalmente no campo da IA ​​do agente.

Agente AI refere-se a bots de IA que podem executar ações totalmente em nome do usuário. Por exemplo, o Projeto Astra do Google é um sistema visual que pode reconhecer objetos, ajudá-lo a navegar pelo mundo e encontrar itens perdidos. De acordo com Hassabis, as capacidades do Astra aumentaram exponencialmente no Gemini 2.0.

Outro exemplo é o Project Mariner do Google, uma extensão experimental para o navegador Chrome que pode literalmente falsificar o usuário enquanto navega na web. O agente Jules, por sua vez, ajuda os desenvolvedores a encontrar e corrigir códigos incorretos. Foi lançado até um agente que ajuda você a jogar melhor os videogames. Hassabis cita isso como um exemplo de modelo de IA verdadeiramente multimodal.

«Realmente vemos 2025 como o verdadeiro início da era baseada em agentes”, disse Hassabis, “Gemini 2.0 é a base disso”. Ele também observou o aumento do desempenho e da eficiência energética do novo modelo, especialmente no contexto de uma desaceleração geral do progresso na indústria de IA.

O plano do Google para o Gemini 2.0 é usá-lo em qualquer lugar. O objetivo do Google era reunir o máximo possível de recursos em um único modelo, em vez de lançar muitos produtos separados e díspares. “Multimodalidade, diferentes tipos de resultados, funções – o objetivo é incorporar tudo isso no modelo Gemini subjacente. Estamos tentando construir um modelo o mais geral possível”, diz Hassabis.

À medida que a era da agência começa, Hassabis diz que a IA precisará resolver problemas novos e antigos. Os antigos são eternos, dizem respeito à produtividade, à eficiência e ao custo da produção. Os novos estão amplamente associados a riscos de segurança e privacidade.

O Gemini 2.0 está atualmente em fase experimental e apenas em uma versão leve do Gemini 2.0 Flash. A versão final está prevista para ser lançada no início do próximo ano.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *