Claude Fable和Claude Mythos 5同时发布：注意力机制下愈加强大的AI大模型 - 岳小哥AI

Wait 5 sec.

【摘要】强化学习通过人工打分排序调整模型行为，塑造出不同大模型性格。Claude变得保守严谨，遇到不确定问题倾向于说不清楚。ChatGPT变得健谈，愿意尝试回答各种问题。对齐人类偏好是第三阶段训练的核心，直接决定模型好不好用。阅读全文