【摘要】From Matmuls to MLLM - Part 1 这篇是关于植入 CLIP-ViT Encoder 训练多模态视觉前对 Text-Only 基座从零开始的训练,包含 分词器、预训练、SFT,不包含多模态部分。 Abstract 本项目旨在从零搭建一个基于 GPT-2 Medium 衍生架构 阅读全文