预训练(Pre-training)是大模型构建通用能力的核心环节。就像人类通过大量阅读积累知识,大模型通过在海量数据上的自监督学习,捕捉语言规律、语义关联和世界常识,为后续 “专项技能学习”(微调)奠定基础。这个过程的质量直接决定模型的上限 —— 数据的广度、任务的设计、筛选的精度,共同塑造了模型的语言理解、逻辑推理和生成能力。预训练任务:让模型在 “自主学习” 中掌握语言规律预训练任务是模型的 “学习目标”,通过设计合理的任务,让模型在无标注数据上自主挖掘有用信息。这些任务不需要人工标注答案,而是通过数据本身的内在规律构建学习目标,因此被称为 “自监督学习”。语言建模是最基础的预训练任务,核心是让模型 “预测文本中的缺失部分”。掩码语言模型(MLM)是其中的典型代表,比如 BERT 会随机遮盖句子中的部分词语(如 “苹果从树上掉下来,[MASK] 滚到了路边”),让模型根据上下文预测被遮盖的词(“它”)。这种任务迫使模型理解词与词的关联,比如 “它” 与前文 “苹果” 的指代关系。与之对应,因果语言模型(CLM)则专注于生成能力,让模型根据前文预测下一个词,比如看到 “今天天气很好,我打算去”,模型需要预测下一个可能的词(“公园”“散步” 等)。GPT 系列正是基于 CLM 任务,通过持续预测下一个词,逐渐掌握长文本生成的连贯性。随着模型能力的扩展,预训练任务逐渐从单一文本转向多模态和复杂推理。多模态任务会结合文本与图像、语音等数据,比如让模型根据图像生成描述,或根据文本匹配对应的图像,这种任务能帮助模型建立不同模态间的语义关联。而复杂推理任务则更贴近人类的 “思考过程”,比如 “结构化思维链” 任务,让模型在解决数学题时,不仅输出答案,还要生成中间推理步骤(如 “先算三角形面积,再根据比例求高”),通过这种方式强化逻辑推理能力。长文本理解是近年来预训练任务的重点优化方向。早期模型处理长文本时容易丢失关键信息,现在通过 “分阶段训练” 逐步扩展上下文长度 —— 先在短文本上训练基础能力,再通过特殊注意力机制(如稀疏注意力)处理长文本,让模型能记住数万字文档中的关键信息(如合同中的条款、论文中的实验结论)。数据配比:在 “广度” 与 “深度” 间找到平衡预训练数据的配比(不同类型、领域数据的占比)直接影响模型的泛化能力。就像人类既需要读文学作品,也需要学科学知识,模型也需要平衡数据的多样性与针对性 —— 既要覆盖足够多的领域,又要在核心领域有足够深度。自动化优化是当前数据配比的主流方法。过去依赖人工经验调整配比(如 “书籍数据占 40%,网页数据占 60%”),现在通过 “代理模型” 快速测试不同配比的效果。比如 REGMIX 框架会先在小规模数据上训练多个小模型,每个模型对应一种数据配比,通过对比它们的性能,拟合出 “最优配比曲线”,再将这种配比放大到大规模训练中。这种方法能高效找到平衡 —— 比如在代码生成任务中,自动发现 “代码数据占 30%、自然语言数据占 70%” 时,模型既能理解需求描述,又能生成正确代码。领域针对性调整是配比优化的另一个核心。不同模型的定位决定了数据侧重:专注通用对话的模型需要更多日常对话、书籍、新闻数据;侧重专业领域的模型(如医疗、法律)则需要增加行业文献、案例数据的占比。Llama 系列在迭代中就通过动态调整数据配比提升能力 ——Llama 3 增加了科学论文和代码数据的占比,因此在技术文档生成和逻辑推理任务中表现更优;针对多语言能力,它加入了 30 多种语言的文本,确保在非英语场景下的理解精度。低资源语言的配比需要特殊策略。对于数据量较少的语言(如小语种),单纯增加原始数据占比效果有限,因此会通过 “翻译扩量” 补充 —— 将高质量英语数据翻译成目标语言,再与原始数据混合。比如印地语预训练中,会将英语医学文献翻译成印地语,与本地新闻、书籍数据按 1:1 配比,既保证语言纯正性,又补充专业领域知识。数据筛选与过滤:为模型 “筛选优质教材”原始数据中混杂着噪声(如重复内容、错误信息、无意义文本),就像人类不会通过读错字连篇的书学习,模型也需要 “优质数据” 才能高效积累知识。数据筛选与过滤的核心,是从海量原始数据中提炼出 “对模型学习有价值” 的内容。基础清洗是筛选的第一步,主要解决数据的 “合规性” 和 “完整性”。去重是最基础的操作 —— 通过局部敏感哈希(LSH)识别重复文本(如网页爬虫中重复抓取的内容),避免模型在重复信息上浪费算力。格式统一也很关键,将不同来源的数据(如 PDF、网页、文档)转换为统一的文本格式,去除乱码、特殊符号,确保模型能专注于内容本身。安全过滤则聚焦合规性,通过规则和模型结合的方式,移除包含隐私信息(如手机号、身份证)、有害内容的文本,避免模型学习不良信息。质量筛选是提升数据价值的核心。模型更擅长从 “逻辑清晰、信息密集” 的文本中学习,因此需要过滤低质量内容(如碎片化的闲聊、无意义的重复句子)。常用的方法是通过 “困惑度(PPL)” 判断 —— 让一个小模型对文本进行预测,若预测难度低(困惑度小),说明文本逻辑连贯、信息明确,更适合作为训练数据。比如筛选书籍数据时,会优先保留经典著作(困惑度低),过滤低质网络小说(困惑度高)。对于长文本(如论文、报告),还会通过结构化检查筛选 —— 保留有明确章节结构、逻辑连贯的内容,过滤杂乱无章的片段。领域适配筛选需要结合模型定位。针对专业领域模型,会通过关键词和主题模型识别相关文本 —— 比如医疗模型的训练数据,会筛选包含 “疾病”“诊断”“药物” 等关键词的文献,同时通过领域模型判断文本的专业性(如区分学术论文和科普文章),确保数据与目标领域的匹配度。合成数据:突破 “真实数据瓶颈” 的补充方案真实数据的获取总有局限 —— 专业领域数据稀缺、高质量文本占比低、多语言数据不平衡。合成数据通过 “人工构建” 或 “模型生成” 的方式补充数据缺口,成为预训练的重要补充。知识引导的合成数据能精准补充专业知识。这种方法先确定需要强化的知识领域(如数学公式、法律条款),再基于知识库生成针对性文本。比如生成数学推理数据时,会从数学定理库中提取公式(如勾股定理),自动构建包含该公式的应用题(“直角三角形两条直角边分别为 3 和 4,求斜边长度”),并生成步骤化解答。这种数据能定向强化模型的专业能力,尤其适合真实数据稀缺的领域(如高端制造、量子物理)。动态难度调整让合成数据更贴合模型学习节奏。就像教学中从易到难设计习题,合成数据会根据模型的学习状态调整难度 —— 初期生成简单样本(如 “1+1=?”),随着模型能力提升,逐渐增加复杂度(如 “二元一次方程求解”)。这种方式能避免 “简单数据浪费算力” 或 “复杂数据无法学习” 的问题,让模型在每个阶段都能获得有效训练。多模态合成数据拓展了模型的感知能力。在图文预训练中,真实图文对往往存在 “描述与图像不完全匹配” 的问题(如图片是 “猫”,文字却提到 “狗”)。合成数据通过 “图像生成文本” 或 “文本生成图像” 的方式构建精准匹配的样本 —— 比如用图像模型生成 “一只猫在沙发上” 的图片,再自动生成对应的文本描述,确保图文语义一致。这种数据能帮助模型建立更准确的跨模态关联,提升图文理解、图文生成的精度。主流大模型开源技术报告:从实践中学习预训练细节预训练的技术细节往往藏在开源模型的技术报告中,这些报告记录了真实训练中的数据处理、任务设计和优化策略,是理解预训练的 “一手资料”。Qwen 系列的技术报告(如 Qwen2.5)详细展示了长文本预训练的实践。报告中解释了如何通过 “双块注意力(DCA)” 技术处理百万级长度文本 —— 将长文本拆分为块,通过稀疏关联计算减少冗余,同时保持全局理解能力。这对需要处理长文档的场景(如合同分析、书籍总结)有重要参考价值。Llama 3 的技术报告公开了数据配比和筛选的具体方法。其中提到如何通过 “主题分类模型” 将数据分为 100 多个主题,再根据预训练目标动态调整每个主题的占比;同时详细说明了合成数据的生成策略 —— 比如用模型生成 “科学推理” 样本,补充真实数据的不足。这些内容能帮助理解大模型如何平衡通用能力和专项技能。InternLM 的技术报告聚焦数据清洗和工程实践。它公开了完整的清洗流程:从去重算法(LSH 的具体参数)到质量筛选的阈值(困惑度小于 50 的文本被保留),再到安全过滤的规则库。对于想要复现预训练流程的研究者,这类报告提供了可落地的工程指南。这些报告共同揭示了一个规律:预训练的进步不仅依赖 “更大的数据和参数”,更依赖 “更精细的任务设计” 和 “更高效的数据工程”。结语:预训练的核心是 “让模型高效学有用的知识”预训练不是简单的 “数据堆砌”,而是一场精密的 “知识工程”—— 通过任务设计引导模型关注有价值的关联,通过数据配比平衡广度与深度,通过筛选过滤去除噪声,通过合成数据补充缺口。从早期 BERT 依赖单一掩码任务,到现在大模型结合多任务、多模态、长文本训练,预训练的进化本质是 “让模型更高效地学习有用的知识”。未来,预训练的重点会向 “精准化” 和 “轻量化” 发展 —— 不再追求无差别数据量增长,而是通过更智能的任务设计和数据筛选,让模型用更少的数据掌握更核心的能力。对于想要深入了解的读者,开源技术报告是最好的窗口 —— 它们不仅记录了技术细节,更展现了大模型从 “数据” 到 “能力” 的转化逻辑。本文由 @红岸小兵 原创发布于人人都是产品经理。未经作者许可,禁止转载题图来自Unsplash,基于CC0协议该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务