模型微调：训练集&验证集&测试集

Wait 5 sec.

大模型时代，微调已成为产品落地的关键环节。但很多人对“训练集、验证集、测试集”的划分逻辑仍模糊不清。本文将从数据集的功能定位出发，梳理微调流程中的关键节点，帮助你建立清晰的模型调优认知框架。在做模型微调时，我们总在追问一个问题：模型到底调得好不好？但“好不好”不是主观判断，更不能只看 loss 降了没、F1 提高了没。你真正要做的，是确保模型对未知数据具备稳定的泛化能力。而评估这个问题的基础，不是参数，不是模型结构，而是你是否搞清楚了这三类数据的边界和作用：训练集、验证集、测试集。这篇文章就是为了解决一个核心问题：训练、验证、测试三类数据集，我们到底要搞清楚哪些关键点？1. 它们分别是什么？——不是“都用来训练”的训练集：模型学习参数的地方。它是“教材”，模型直接在上面反复拟合，loss就是在这上面算的。验证集：训练过程中用来评估模型表现的数据集，用于调参、早停、选结构，但本身不参与训练。测试集：训练和调参全部结束后才使用，用于评估最终泛化能力。它是真正的“考试卷”，结果直接决定模型能不能上线。关键点：验证集 ≠ 测试集，不能混用。前者参与调参，后者必须独立留存、只评估一次。2. 怎么划分？——不是固定比例，而是视情况而定划分比例要根据数据量来定，按照训练集/验证集/测试集顺序：数据量大（>10万）：推荐80%/10%/10%，训练集多给，验证和测试也足够产生统计稳定性。中等规模（1万~10万）：建议70%/15%/15%或75%/15%/10%，保证每个阶段都有代表性。数据少（