Pesquisadores da Brown University (EUA) desenvolveram um sistema que permite que robôs encontrem objetos em ambientes complexos utilizando não apenas linguagem, mas, também, gestos humanos, como apontar e direcionar o olhar.No cotidiano, a comunicação entre pessoas vai além das palavras. Gestos, olhares e o contexto compartilhado ajudam a transmitir significados de forma natural. No entanto, para robôs, interpretar esse tipo de interação ainda representa um grande desafio, especialmente em ambientes com muitos objetos, movimento e itens parcialmente ocultos.Segundo os pesquisadores, embora robôs já consigam identificar objetos, situações com desordem visual, duplicidade de itens e oclusões aumentam significativamente a incerteza durante a busca.Para lidar com esse problema, a equipe desenvolveu um sistema que integra linguagem, gestos, apontamento e direção do olhar em um único processo de tomada de decisão. A proposta é permitir que os robôs lidem com a incerteza de forma mais próxima à humana, sem assumir que possuem informações completas.Em testes de laboratório, o sistema foi capaz de identificar corretamente o objeto desejado em 89% das vezes, superando outras abordagens de busca.“A busca por objetos exige que um robô navegue por ambientes extensos”, afirmou, ao Earth.com, Ivy He, estudante de pós-graduação da Brown e autora principal do estudo. Ela destaca que, apesar dos avanços, fatores, como desordem, movimento e obstruções tornam a tarefa muito mais difícil. “Este trabalho consiste em usar tanto a linguagem quanto os gestos para auxiliar nessa tarefa de busca”, completou.Robôs aprendendo a entender gestos humanosNo mundo real, robôs frequentemente lidam com informações incompletas;Objetos podem ser semelhantes entre si, múltiplos itens idênticos podem estar presentes em um mesmo espaço e parte da cena pode estar escondida. Em situações como quando uma pessoa diz “o vermelho”, mas há vários objetos dessa cor, a ambiguidade se torna um obstáculo;Sem mecanismos adequados para lidar com essa incerteza, robôs tendem a travar por indecisão ou agir de forma precipitada, escolhendo o objeto errado com confiança excessiva;Para resolver isso, os pesquisadores utilizaram um modelo de planejamento conhecido como processo de decisão de Markov parcialmente observável (POMDP, na sigla em inglês);Nesse modelo, o robô trabalha com probabilidades, mantendo uma estimativa contínua sobre o que é mais provável ser verdadeiro. À medida que coleta novas informações, ele atualiza essa “crença” e toma decisões que ajudam a reduzir a ambiguidade, como se mover para obter um melhor ângulo de visão antes de agir.Um dos avanços centrais do estudo foi a integração de gestos ao mesmo sistema matemático utilizado para linguagem. Para isso, Ivy He se inspirou em pesquisas conduzidas no Brown Dog Lab, liderado pela cientista cognitiva Daphna Buchsbaum.Leia mais:7 aplicativos que usam IA para você testar no dia a dia4 melhores inteligências artificiais para criar e editar vídeosRobôs aprendem a usar ferramentas apenas assistindo vídeosEm testes de laboratório, sistema foi capaz de identificar corretamente o objeto desejado em 89% das vezes, superando outras abordagens de busca (Imagem: Digitala World/Shutterstock)Como o sistema ajuda o robôCães são conhecidos por sua habilidade em interpretar gestos humanos, especialmente o ato de apontar. No entanto, eles não tratam o gesto como uma indicação exata, mas como uma informação ambígua que deve ser interpretada em conjunto com o contexto.A partir dessa observação, os pesquisadores desenvolveram um modelo que interpreta o gesto de apontar como um “cone de probabilidade”, ou seja, uma região onde o objeto desejado provavelmente se encontra, em vez de uma direção exata.O modelo também leva em consideração outros aspectos da comunicação humana, como o olhar e a posição do braço. Os pesquisadores identificaram que o alinhamento entre o olhar e o gesto de apontar ajuda a indicar com mais precisão a intenção da pessoa.“O que descobrimos é que os humanos usam o olhar para se alinhar com aquilo para o qual estão apontando”, afirmou Ivy He. “Assim, foi natural criar um cone com base em uma linha que ligava o olho ao cotovelo e ao pulso”, explicou.Segundo Daphna Buchsbaum, o trabalho traduz a capacidade intuitiva dos cães de interpretar sinais humanos para um modelo probabilístico aplicado à robótica. “Este trabalho traduz a compreensão intuitiva do cão sobre o olhar e o apontar humanos em um modelo probabilístico”, disse.Além dos gestos, o sistema incorpora um modelo de visão e linguagem (VLM, na sigla em inglês), capaz de interpretar imagens em conjunto com descrições em linguagem natural. Dessa forma, o robô pode processar comandos, como “pegue a garrafa azul” enquanto analisa o ambiente ao redor.A principal inovação está na integração dessas diferentes fontes de informação em um único sistema baseado em probabilidades. Em vez de tratar linguagem e gestos como comandos separados, o robô os interpreta como evidências complementares: o gesto ajuda a restringir onde procurar, enquanto a linguagem indica o que procurar.Nos experimentos, realizados com um robô quadrúpede em um ambiente com objetos espalhados, o uso combinado de linguagem e gestos resultou em taxas de acerto próximas a 90%, superando o desempenho obtido quando apenas um dos recursos era utilizado isoladamente.Para os pesquisadores, os resultados indicam um avanço importante na direção de robôs capazes de atuar como assistentes em ambientes domésticos e profissionais, ajudando a recuperar objetos, buscar ferramentas ou operar em situações em que instruções perfeitas não são possíveis.“A estrutura que desenvolvemos ajuda a pavimentar o caminho para uma interação multimodal perfeita entre humanos e robôs”, afirmou Jason Liu, coautor do estudo. “No futuro, poderemos nos comunicar com nossos robôs assistentes da mesma forma que as pessoas interagem — por meio da linguagem, gestos, contato visual e demonstrações”, disse.Ellie Pavlick, também pesquisadora da Brown, destacou que o estudo demonstra como a integração entre ciência da computação e ciência cognitiva pode tornar a interação entre humanos e máquinas mais natural. “Este é um excelente exemplo de como podemos viabilizar uma interação humano-máquina mais natural, combinando ciência da computação e ciência cognitiva”, pontuou.O trabalho foi apresentado na International Conference on Human-Robot Interaction e aponta que o futuro da robótica passa não apenas por avanços em sensores e modelos de linguagem, mas, também, por uma melhor compreensão de como os humanos realmente se comunicam.Ao incorporar gestos, olhares e contexto, os robôs se aproximam de uma comunicação mais intuitiva — semelhante à forma como as pessoas interagem entre si no dia a dia.O post Robôs aprendem a encontrar objetos com gestos humanos simples apareceu primeiro em Olhar Digital.