Бывший исследователь OpenAI раскритиковал RL как основу тренировки LLM

Wait 5 sec.

Бывший ведущий исследователь OpenAI и Tesla в сфере искусственного интеллекта Андрeй Карпати выступил с критикой использования reinforcement learning (RL) как основы обучения больших языковых моделей. В публикации на X он описал работу с RL-reward-функциями как «излишне подозрительную» — они ненадёжны, легко поддаются манипуляциям и плохо подходят для воспитания сложных интеллектуальных навыков. Это заявление особенно резонансно на фоне того, что многие современные модели, способствующие развитию логического мышления у ИИ, активно используют именно RL. При этом Карпати отмечает, что такие модели достигли плато развития, и нужны новые подходы. Однако он не отрицает ценность RL полностью. Он считает его развитие лучшим, чем классическое supervised finetuning, и прогнозирует, что RL-файнтюнинг будет продолжать применяться, особенно для улучшения поведения моделей. Тем не менее, настоящий прорыв, по мнению Карпати, ждёт искусственный интеллект, когда появятся новые, более эффективные способы обучения — не путём подстройки весов модели, а через глубокие альтернативы. Один из упомянутых им подходов — system prompt learning, где учение происходит на уровне токенов и контекстов, а не веса модели, наподобие того, как мозг обрабатывает информацию во сне. Читать далее