O novo modelo de IA do Google, Gemini 2.0, foi revelado e é extremamente versátil: gera texto, som e imagens, além de oferecer novos recursos multimodais que estabelecem as bases para o próximo grande passo na IA: agentes que podem literalmente substituir o usuário em operações de rotina. O novo modelo também se tornou visivelmente mais produtivo e eficiente em termos energéticos.
Fonte da imagem: techspot.com
Como qualquer outra empresa na corrida da IA, o Google está integrando febrilmente a IA em tudo o que pode colocar em suas mãos, na tentativa de criar produtos comercialmente bem-sucedidos. Ao mesmo tempo, é necessário configurar toda a infraestrutura para que soluções caras de IA não arruínem a empresa. Enquanto isso, Amazon, Microsoft, Anthropic e OpenAI estão investindo seus próprios bilhões em praticamente o mesmo conjunto de problemas.
Gemini 2.0 chega aproximadamente 10 meses após o lançamento da versão 1.5. O CEO do Google DeepMind, Demis Hassabis, elogia o novo modelo, chamando-o de “abrangente”, embora o Gemini 2.0 ainda esteja em fase de “visualização experimental”, na terminologia do Google. No entanto, Hassabis está confiante de que o novo modelo fornecerá um nível de capacidades completamente diferente, principalmente no campo da IA do agente.
Agente AI refere-se a bots de IA que podem executar ações totalmente em nome do usuário. Por exemplo, o Projeto Astra do Google é um sistema visual que pode reconhecer objetos, ajudá-lo a navegar pelo mundo e encontrar itens perdidos. De acordo com Hassabis, as capacidades do Astra aumentaram exponencialmente no Gemini 2.0.
Outro exemplo é o Project Mariner do Google, uma extensão experimental para o navegador Chrome que pode literalmente falsificar o usuário enquanto navega na web. O agente Jules, por sua vez, ajuda os desenvolvedores a encontrar e corrigir códigos incorretos. Foi lançado até um agente que ajuda você a jogar melhor os videogames. Hassabis cita isso como um exemplo de modelo de IA verdadeiramente multimodal.
«Realmente vemos 2025 como o verdadeiro início da era baseada em agentes”, disse Hassabis, “Gemini 2.0 é a base disso”. Ele também observou o aumento do desempenho e da eficiência energética do novo modelo, especialmente no contexto de uma desaceleração geral do progresso na indústria de IA.
O plano do Google para o Gemini 2.0 é usá-lo em qualquer lugar. O objetivo do Google era reunir o máximo possível de recursos em um único modelo, em vez de lançar muitos produtos separados e díspares. “Multimodalidade, diferentes tipos de resultados, funções – o objetivo é incorporar tudo isso no modelo Gemini subjacente. Estamos tentando construir um modelo o mais geral possível”, diz Hassabis.
À medida que a era da agência começa, Hassabis diz que a IA precisará resolver problemas novos e antigos. Os antigos são eternos, dizem respeito à produtividade, à eficiência e ao custo da produção. Os novos estão amplamente associados a riscos de segurança e privacidade.
O Gemini 2.0 está atualmente em fase experimental e apenas em uma versão leve do Gemini 2.0 Flash. A versão final está prevista para ser lançada no início do próximo ano.
Os fãs do jogo de tiro online gratuito Destiny 2, da Bungie, empresa pertencente à…
Mustafa Suleyman, chefe de IA da Microsoft, classificou as tentativas da Anthropic de sugerir que…
O pequeno setor de aviação elétrica atraiu um número significativo de startups, e a japonesa…
Mais de dez anos após o lançamento da primeira versão do aplicativo Telegram para Apple…
O serviço de resposta neural Alice, do Yandex, direciona, com maior frequência, para sites que…
A startup americana de veículos elétricos Rivian seguiu os passos da Tesla, oferecendo inicialmente modelos…