【摘要】一篇还未发表的论文,但做了大量实验对熵最小化技巧提升模型推理能力进行了探索。本文训练了13440个大型语言模型,发现熵最小化(EM)只需要一个未标记的数据和10步优化,性能提升就比RL还强。基于两个直接而简单的假设: 生成大型语言模型的采样过程本质上是随机的。 正确答案的熵通常低于错误答案。 EM和 阅读全文