Panda - L'IA qui prend le contrôle total de votre Android

Wait 5 sec.

Avec nos smartphones, on passe notre vie le nez collé sur l’écran, à tapoter par ici, swipper par là, enchainant les manips pour planifier un trajet, répondre à un message ou commander un truc et parfois… ça peut être assez répétitif.Heureusement, Ayush Chaudhary vient de sortir un truc qui pourrait changer vos intéractions avec votre smartphone. Cela s’appelle Panda, et c’est une IA qui contrôle votre téléphone Android à votre place.Le slogan du projet m’a fait sourire : “You touch grass. I’ll touch your glass.” En gros, pendant que vous profitez de la vraie vie allongé dans l’herbe, Panda se charge de toucher votre écran pour vous. Sympa comme philosophie, non ?Concrètement, Panda c’est donc un agent IA qui comprend vos instructions en langage naturel et qui manipule l’interface de votre téléphone exactement comme vous le feriez. Vous lui dites “commande-moi une pizza margherita sur Uber Eats pour ce soir” et hop, il ouvre l’app, navigue dans les menus, sélectionne la pizza, valide la commande. Tout ça sans que vous ayez à lever le petit doigt..center-shortcode * {text-align: center !important;}.center-shortcode p {text-align: center !important;width: 100%;margin-left: auto;margin-right: auto;}.center-shortcode img {display: block;margin: 0 auto;}.center-shortcode p em,.center-shortcode em {font-style: italic;text-align: center !important;display: inline-block;width: 100%;}Votre navigateur ne supporte pas la lecture de vidéos HTML5. Voici unlien vers la vidéo.Ce que je trouve cool dans ce projet, c’est son architecture multi-agents, car Panda n’est pas juste un gros modèle monolithique. En fait, il s’agit de 3 composants qui bossent ensemble. Il y a d’abord, les Eyes & Hands, basés sur le service d’accessibilité d’Android, qui lui permettent de voir et toucher l’écran. Ensuite The Brain, le LLM qui analyse et prend les décisions. Et enfin The Agent, l’exécuteur qui orchestre le tout avec un système de notes pour mémoriser les actions.Ce projet utilise les modèles Gemini de Google pour la partie intelligence artificielle donc il vous faudra une clé API. D’ailleurs, plus vous renseignez de clés API Gemini différentes dans la config, plus Panda sera rapide. Petite astuce pour contourner le rate limiting !Pour l’instant, Panda est encore en phase de proof-of-concept. Vous pouvez bien sûr le compiler vous-même à partir des sources mais pour ce qui est de l’APK end-user prêt à consommer, le développeur a mis en place pour le moment un programme de test fermé via un formulaire Google et un serveur Discord pour la communauté. En tout cas, les premières démos sont impressionnantes. Par exemple dans cette vidéo, on voit Panda enchaîner 5 tâches complexes d’affilée sans broncher..center-shortcode * {text-align: center !important;}.center-shortcode p {text-align: center !important;width: 100%;margin-left: auto;margin-right: auto;}.center-shortcode img {display: block;margin: 0 auto;}.center-shortcode p em,.center-shortcode em {font-style: italic;text-align: center !important;display: inline-block;width: 100%;}Votre navigateur ne supporte pas la lecture de vidéos HTML5. Voici unlien vers la vidéo.Si vous voulez le tester (donc le compiler vous-même) il vous faudra Android Studio, un appareil avec l’API 26 minimum, et bien sûr des clés API Gemini. Le code est entièrement écrit en Kotlin, ce qui garantit de bonnes performances sur Android et une fois installé, il faut juste activer le service d’accessibilité dans les paramètres du téléphone pour que Panda puisse prendre les commandes.Alors bien sûr, ça soulève des questions de sécurité car onner un accès complet à son téléphone à une IA, c’est pas rien. Mais le fait que tout tourne en local sur l’appareil est quand même rassurant. Puis c’est open source sous licence MIT, donc au moins on peut vérifier ce que fait le code.Dans le contexte actuel où OpenAI et Anthropic sont tous les deux sur le coup pour automatiser des tâches grâce à l’IA dans le navigateur Desktop, Panda arrive pile au bon moment pour remplir ce vide sous Android. Et comme c’est open source c’est encore mieux, forcement… ^^Voilà, donc si vous êtes développeur Android et que le projet vous intéresse, je vous encourage à y jeter un œil.