【摘要】强化学习通过人工打分排序调整模型行为,塑造出不同大模型性格。Claude变得保守严谨,遇到不确定问题倾向于说不清楚。ChatGPT变得健谈,愿意尝试回答各种问题。对齐人类偏好是第三阶段训练的核心,直接决定模型好不好用。 阅读全文