【摘要】本文记录了一个从零搭建轻量多模态大模型的完整实践过程。项目从手写 BPE Tokenizer、Transformer 基础模块、预训练循环开始,训练了一个 GPT-2 Medium 规模的文本基座模型;随后通过多轮 SFT、HiRA 微调、数据分布调整和任务诊断,使模型具备基础对话与短指令能力。在多... 阅读全文