[Перевод] «Обучение на опыте» для малых моделей: переносим методы Physical Intelligence на ACT без использования VLA или диффузии

Wait 5 sec.

Поведенческое клонирование (BC) - это доминирующая парадигма в ИИ-робототехнике, которая позволяет моделям обучаться имитации роботов под управлением человека на основе успешных действий. При обучении BC-политики мы исключаем ошибки из датасета, чтобы тренироваться только на успешных эпизодах - в конце концов, мы не хотим учиться подражать ошибкам!Самое перспективное направление в ИИ-робототехнике сегодня - это «обучение на опыте». Поскольку BC-политики учатся только имитировать успешные действия, им трудно восстанавливаться после ошибок, которые неизбежно случаются в сложных сценариях реального мира. Умение отличать хорошие действия от плохих помогло бы политике освоить механизмы восстановления и оптимизировать скорость и эффективность движений. Постобучение через обучение с подкреплением (RL) обещает именно это - обучение на своих ошибках, а не просто имитацию поведения человека.Пожалуй, самая интересная научная работа в области робототехники этой осенью вышла у Physical Intelligence. Они представили свой метод Pi*0.6 для постобучения базовых моделей роботов через оффлайн-RL. Сначала вы классифицируете действия как «сильные» или «слабые» в зависимости от того, насколько они выгодны, а затем просто добавляете эту классификацию в окно контекста политики действий. В процессе работы мы запрашиваем «сильные» действия, что позволяет сэмплировать варианты из набора, который привел к хорошим результатам во время обучения. Нет нужды в PPO или других сложных градиентных методах, нет проблем с регуляризацией или катастрофическим забыванием, которые часто за ними следуют. Просто говоришь: «Мне нужны хорошие действия», и робот их выполняет. Звучит слишком хорошо, правда? Читать далее