Robôs do Google agora conseguem pensar, pesquisar na web e aprender novos truques sozinhos

Wait 5 sec.

O Google DeepMind lançou dois modelos de inteligência artificial (IA) esta semana que visam tornar os robôs mais inteligentes do que nunca. Em vez de se concentrar em acompanhar comentários, a versão atualizada do Gemini Robotics 1.5 e sua parceira Gemini Robotics-ER 1.5 fazem com que os robôs pensem em problemas, pesquisem informações na internet e compartilhem habilidades entre diferentes robôs-agentes.De acordo com o Google, esses modelos marcam um “passo fundamental que permite navegar pelas complexidades do mundo físico com inteligência e destreza”.“O Gemini Robotics 1.5 marca um passo importante para a solução da IA no mundo físico”, afirmou o Google no anúncio. “Ao introduzir recursos de agente, estamos indo além de modelos que reagem a comandos e criando sistemas que podem realmente raciocinar, planejar, usar ferramentas ativamente e generalizar.”E este termo “generalização” é importante porque os modelos têm dificuldades com ele.Os robôs equipados com esses modelos agora podem realizar tarefas como separar roupas por cor, fazer uma mala com base nas previsões meteorológicas encontradas online ou verificar as regras locais de reciclagem para descartar o lixo corretamente. Agora, como humano, você pode dizer: “Dããã, e daí?”. Mas, para fazer isso, as máquinas exigem uma habilidade chamada generalização — a capacidade de aplicar o conhecimento a novas situações.Robôs — e algoritmos em geral — geralmente têm dificuldade com isso. Por exemplo, se você ensinar um modelo a dobrar uma calça, ele não conseguirá dobrar uma camiseta a menos que os engenheiros programem cada etapa com antecedência.Os novos modelos mudam isso. Eles podem captar sinais, ler o ambiente, fazer suposições razoáveis e executar tarefas com várias etapas que antes estavam fora do alcance — ou pelo menos extremamente difíceis — para máquinas.Mas melhor não significa perfeito. Por exemplo, em um dos experimentos, a equipe mostrou aos robôs um conjunto de objetos e pediu que os colocassem no lixo correto. Os robôs usaram suas câmeras para identificar visualmente cada item, consultar as diretrizes de reciclagem mais recentes de São Francisco online e, em seguida, colocá-los onde deveriam estar, por conta própria, exatamente como um humano local faria.Esse processo combina busca online, percepção visual e planejamento passo a passo — tomando decisões com base no contexto que vão além do que robôs mais antigos conseguiam alcançar. A taxa de sucesso registrada ficou entre 20% e 40% das vezes; não é o ideal, mas é surpreendente para um modelo que nunca havia sido capaz de entender essas nuances.Como o Google transforma robôs em super-robôsOs dois modelos dividem o trabalho. O Gemini Robotics-ER 1.5 atua como o cérebro, descobrindo o que precisa acontecer e criando um plano passo a passo. Ele pode acessar a Pesquisa do Google quando precisa de informações. Uma vez definido o plano, ele passa instruções em linguagem natural para o Gemini Robotics 1.5, que cuida dos movimentos físicos reais.Em termos mais técnicos, o novo Gemini Robotics 1.5 é um modelo de visão-linguagem-ação (VLA) que transforma informações visuais e instruções em comandos motores, enquanto o novo Gemini Robotics-ER 1.5 é um modelo de visão-linguagem (VLM) que cria planos de várias etapas para completar uma missão.Quando um robô separa roupas, por exemplo, ele raciocina internamente sobre a tarefa usando uma cadeia de pensamento: entendendo que “separar por cor” significa que as roupas brancas vão para uma lixeira e as coloridas para outra, e então decompondo os movimentos específicos necessários para pegar cada peça de roupa. O robô consegue explicar seu raciocínio em linguagem simples, tornando suas decisões menos parecidas com uma caixa-preta.O CEO do Google, Sundar Pichai, comentou sobre o X, observando que os novos modelos permitirão que os robôs raciocinem melhor, planejem com antecedência, usem ferramentas digitais como busca e transfiram o aprendizado de um tipo de robô para outro. Ele o chamou de “o próximo grande passo do Google em direção a robôs de uso geral que sejam verdadeiramente úteis”.New Gemini Robotics 1.5 models will enable robots to better reason, plan ahead, use digital tools like Search, and transfer learning from one kind of robot to another. Our next big step towards general-purpose robots that are truly helpful — you can see how the robot reasons as… pic.twitter.com/kw3HtbF6Dd— Sundar Pichai (@sundarpichai) September 25, 2025O lançamento coloca o Google em destaque, compartilhado com desenvolvedores como Tesla, Figure AI e Boston Dynamics, embora cada empresa esteja adotando abordagens diferentes. A Tesla se concentra na produção em massa para suas fábricas, com Elon Musk prometendo milhares de unidades até 2026. A Boston Dynamics continua expandindo os limites do atletismo robótico com seu mortal para trás Atlas. O Google, por sua vez, aposta em uma IA que torna os robôs adaptáveis a qualquer situação sem programação específica.O momento é importante. Empresas americanas de robótica estão pressionando por uma estratégia nacional de robótica, incluindo a criação de um escritório federal focado em promover o setor em um momento em que a China está tornando a IA e os robôs inteligentes uma prioridade nacional. A China é o maior mercado mundial para robôs que trabalham em fábricas e outros ambientes industriais, com cerca de 1,8 milhão de robôs operando em 2023, de acordo com a Federação Internacional de Robótica, sediada na Alemanha.A abordagem da DeepMind difere da programação robótica tradicional, na qual engenheiros codificam meticulosamente cada movimento. Em vez disso, esses modelos aprendem com a demonstração e podem se adaptar rapidamente. Se um objeto escorregar das mãos de um robô ou alguém mover algo no meio de uma tarefa, o robô se ajusta sem hesitar.Os modelos se baseiam no trabalho anterior da DeepMind de março, quando os robôs só conseguiam realizar tarefas únicas, como abrir um zíper ou dobrar papel. Agora, eles estão lidando com sequências que desafiariam muitos humanos — como fazer as malas adequadamente para uma viagem depois de verificar a previsão do tempo.Para desenvolvedores que desejam experimentar, há uma abordagem dividida em termos de disponibilidade. O Gemini Robotics-ER 1.5 foi lançado na quinta-feira por meio da API Gemini no Google AI Studio, o que significa que qualquer desenvolvedor pode começar a construir com o modelo de raciocínio. O modelo de ação, Gemini Robotics 1.5, permanece exclusivo para parceiros “selecionados” (ou seja, “ricos”, provavelmente).* Traduzido e editado com autorização do Decrypt.No MB, a sua indicação vale Bitcoin para você e seus amigos. Para cada amigo que abrir uma conta e investir, vocês ganham recompensas exclusivas. Saiba mais!O post Robôs do Google agora conseguem pensar, pesquisar na web e aprender novos truques sozinhos apareceu primeiro em Portal do Bitcoin.