O Google lançou uma grande atualização para o Gemini 3 Deep Think, uma plataforma baseada em inteligência artificial de raciocínio projetada para resolver problemas urgentes nas áreas de ciência e engenharia.

Fonte da imagem: Google

A nova versão do Google Gemini 3 Deep Think foi desenvolvida em colaboração com cientistas. O serviço foi projetado para resolver problemas complexos de pesquisa cujos aspectos podem não ter restrições claras ou uma única solução correta, e cujos dados associados podem ser incompletos ou assistemáticos. A plataforma Deep Think atualizada busca ir além da teoria abstrata e entrar no campo da aplicação prática. O novo modo está disponível diretamente no aplicativo Gemini, mas apenas para assinantes do Google AI Ultra. A empresa também abrirá o acesso ao serviço pela primeira vez por meio da API Gemini — engenheiros, pesquisadores e empresas precisarão enviar uma solicitação.

No teste Humanity’s Last Exam, o Google Gemini 3 Deep Think obteve 48,4% sem o uso de ferramentas de terceiros; sua pontuação no benchmark ARC-AGI-2 foi de 84,6%, um resultado sem precedentes. No teste de programação Codeforces, a classificação ELO foi de 3455. O sistema conquistou a medalha de ouro na Olimpíada Internacional de Matemática de 2025 e obteve resultados semelhantes na resolução de problemas das Olimpíadas de Química e Física. No teste CMT-Benchmark, o modo Deep Think do Google Gemini 3 demonstrou um alto nível de proficiência em física teórica, alcançando 50,5%.

O modelo Gemini 3 Deep Think serviu de base para um agente de IA chamado Aletheia, desenvolvido pelo Google DeepMind. Ele inclui uma ferramenta para testar hipóteses apresentadas em linguagem natural, identificando falhas em soluções propostas e fornecendo geração e refinamento iterativos de soluções. É importante ressaltar que o agente reconhece sua incapacidade de responder a uma consulta. Para lidar com pesquisas complexas, ele utiliza as ferramentas de busca e navegação do Google — ao preparar resumos de literatura, evita gerar citações inexistentes e se esforça para evitar imprecisões computacionais.

Os desenvolvedores do Google categorizaram as conquistas reais e potenciais de Aletheia em cinco níveis. Em um modo virtualmente autônomo, o agente de IA mapeou soluções para três problemas em aberto propostos pelo matemático Pál Erdős. Essa pesquisa foi classificada no nível 0, correspondendo a “pouca novidade”. No mesmo modo, ele propôs uma solução para outro problema do mesmo conjunto, atingindo o primeiro nível, ou “novidade mínima”. No segundo nível, “publicável”, Aletheia demonstrou resultados em modo autônomo, modo de colaboração humana e modo de ferramenta auxiliar. O terceiro (“avanço significativo”) e o quarto (“avanço histórico”) níveis ainda não foram alcançados pelo agente de IA.

A pedido do desenvolvedor, Aletheia analisou 700 problemas matemáticos não resolvidos de Erdős e resolveu 13 deles. No entanto, nove dos problemas já possuíam soluções, e apenas quatro problemas pareciam ter sido resolvidos de fato pela primeira vez. Além disso, das 212 soluções produzidas pela IA, nenhuma foi considerada “significativamente”Apenas 6,5% estavam “corretas”. O restante apresentava falhas fundamentais (68,5%) ou versões resolvidas dos problemas originais que o agente havia interpretado erroneamente (31,5%).

Como resultado, os desenvolvedores concordaram que sua IA demonstra “uma tendência a interpretar mal uma pergunta de uma forma que facilita a resposta” e permanece “extremamente propensa a erros em comparação com humanos”. Em outras palavras, a IA ainda não pode substituir os matemáticos.

By admin

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *