Современные VLA-модели (RT-2, π0, Helix) научились впечатляюще двигать роботом, но не понимают, что он держит. Помидор для них — кластер пикселей, статистически связанный с типичной траекторией хвата, а не сущность со свойствами. Поэтому они сыпятся на краевых случаях: подгнивший бок, нестандартное освещение, незнакомый объект. Наращивание датасетов и тактильных сенсоров лечит симптомы, но не причину — у архитектуры просто нет уровня, на котором объект существовал бы как объект. Следующий шаг — агенты с внутренней моделью мира и метаболическим контуром, где неправильное действие имеет реальную стоимость для самого агента, а не штраф в loss-функции. Читать далее