Categorias: Mercado de tecnologia e TI. notíciaO mundo da robótica

O Google criou e demonstrou na prática uma IA que faz os robôs pensarem primeiro e depois agirem.

O Google DeepMind revelou dois novos modelos de inteligência artificial (IA) para robótica, o Gemini Robotics 1.5 e o Gemini Robotics-ER 1.5, que juntos implementam uma abordagem na qual um robô primeiro “pensa” em uma tarefa e só então a executa. A tecnologia é baseada em sistemas de IA generativa e foi projetada para superar as limitações dos robôs atuais, que exigem ampla personalização para cada tarefa específica.

Fonte da imagem: Google

Sistemas de IA generativa capazes de criar texto, imagens, áudio e até vídeo estão se tornando cada vez mais comuns. Assim como esses modelos geram esses tipos de dados, eles também podem gerar sequências de ações para robôs. Esse é o princípio por trás do projeto Gemini Robotics, do Google DeepMind, que anunciou dois modelos complementares que permitem aos robôs “pensar” antes de agir. Embora os modelos de linguagem em larga escala (LLMs) tradicionais apresentem diversas limitações, a introdução do raciocínio simulado expandiu significativamente suas capacidades, e um avanço semelhante pode ocorrer agora na robótica.

A equipe do Google DeepMind acredita que a IA generativa tem o potencial de revolucionar a robótica, fornecendo aos robôs funcionalidades de uso geral. Ao contrário dos sistemas atuais, que exigem meses de ajustes para uma única tarefa altamente especializada e são pouco adaptáveis a novas condições, as novas abordagens de IA permitem que os robôs operem em ambientes desconhecidos sem necessidade de reprogramação. Como observou Carolina Parada, chefe de robótica da DeepMind, os robôs atuais são “extremamente especializados e difíceis de implementar”.

Para implementar esse conceito, a DeepMind desenvolveu o Gemini Robotics-ER 1.5 e o Gemini Robotics 1.5. O primeiro é um modelo de visão-linguagem (VLM) com raciocínio incorporado que analisa dados visuais e textuais, gera um plano de tarefas passo a passo e pode incorporar ferramentas externas, como a busca do Google, para contextualizar. O segundo é um modelo de visão-linguagem-ação (VLA), queEle converte instruções recebidas em ações físicas para o robô, ajustando-as simultaneamente com base no feedback visual e em seu próprio processo de “pensamento” para cada etapa. De acordo com Kanishka Rao, da DeepMind, o principal avanço foi dar ao robô a capacidade de imitar o raciocínio intuitivo humano — ou seja, pensar antes de agir.

Os desenvolvedores demonstraram como os novos modelos funcionam: um vídeo de um robô humanoide, o Apollo, equipado com o Gemini Robotics 1.5, fazendo as malas para uma viagem, enquanto outro robô, o Aloha 2 — ou melhor, um par de braços robóticos — separa o lixo.

Ambos os modelos são baseados na arquitetura fundamental do Gemini, mas são treinados adicionalmente usando dados que refletem interações com o mundo físico. Isso permite que os robôs executem tarefas complexas em várias etapas, aproximando-os do nível de agentes autônomos. O sistema também demonstra compatibilidade entre plataformas. Em particular, as habilidades incorporadas em um robô, como o Aloha 2 de dois braços, podem ser transferidas para outro, incluindo o humanoide Apollo, sem personalização adicional.

Apesar do potencial avanço tecnológico, as aplicações práticas da tecnologia ainda são limitadas. O modelo Gemini Robotics 1.5, que controla os robôs, está disponível apenas para testadores confiáveis. Enquanto isso, o Gemini Robotics-ER 1.5 já foi integrado ao Google AI Studio, permitindo que desenvolvedores gerem instruções para seus próprios experimentos com robôs fisicamente incorporados. No entanto, de acordo com Ryan Whitwam, da Ars Technica, ainda há um longo caminho a percorrer antes do advento de robôs de consumo capazes de realizar tarefas cotidianas.caminho.

admin

Próximo A Apple não viu problema em anunciar recursos de inteligência artificial da Siri que nunca se materializaram. »

Anterior « A Asus dará uma placa de vídeo GeForce RTX 5090 ROG Astral autografada por Huang para o melhor design de placa de vídeo.

Deixar comentário

Publicado por

admin

9 meses atrás

Postagens recentes

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

A startup de inteligência artificial Mistral AI está em negociações para captar €3 bilhões, atingindo uma avaliação de €20 bilhões.

A startup francesa de inteligência artificial Mistral AI está em negociações preliminares para levantar cerca…

2 horas atrás

Leitores de áudio e vídeo

Foi lançado o aplicativo ASCILINE Engine para streaming de vídeo ASCII “desbloqueável”.

Um desenvolvedor sob o pseudônimo de YusufB5 publicou uma solução de software original, o ASCILINE…

2 horas atrás

Na vanguarda da ciência

Quase como em Duna: uma jaqueta para coletar água do ar foi criada no Texas.

Engenheiros da Universidade do Texas em Austin desenvolveram uma jaqueta feita de um tecido especial…

2 horas atrás

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

A conceituada agência de consultoria KPMG publicou um relatório sobre IA, e constatou alucinações relacionadas à IA.

Em outubro de 2025, a importante consultoria KPMG publicou um relatório sobre agentes de inteligência…

2 horas atrás

Sistemas barebone, nettops, PC tudo em um, centros de mídia

O Ryzen AI Halo da AMD, um computador compacto com inteligência artificial baseado no Windows 11, já está disponível por US$ 4.000.

A plataforma de desenvolvimento AMD Ryzen AI Halo chegou às lojas Micro Center nos EUA.…

2 horas atrás

Inteligência Artificial, Aprendizado de Máquina, Redes Neurais

O Google começou a implementar agentes de busca com IA, mas, por enquanto, apenas para usuários pagos.

Em sua conferência de maio, o Google apresentou uma nova tecnologia: mecanismos de busca com…

5 horas atrás

O Google criou e demonstrou na prática uma IA que faz os robôs pensarem primeiro e depois agirem.

Conteúdo relacionado

Postagens recentes

A startup de inteligência artificial Mistral AI está em negociações para captar €3 bilhões, atingindo uma avaliação de €20 bilhões.

Foi lançado o aplicativo ASCILINE Engine para streaming de vídeo ASCII “desbloqueável”.

Quase como em Duna: uma jaqueta para coletar água do ar foi criada no Texas.

A conceituada agência de consultoria KPMG publicou um relatório sobre IA, e constatou alucinações relacionadas à IA.

O Ryzen AI Halo da AMD, um computador compacto com inteligência artificial baseado no Windows 11, já está disponível por US$ 4.000.

O Google começou a implementar agentes de busca com IA, mas, por enquanto, apenas para usuários pagos.