Cursor обучает Composer на данных пользователей в реальном времени: новый чекпоинт каждые 5 часов, reward hacking, on-policy RL. Разбираем, как это устроено.— Читать дальше «Cursor обновляет Composer каждые 5 часов через real-time RL на данных пользователей»