深度学习进阶（六）归纳偏置与蒸馏 - 哥布林学者

Wait 5 sec.

【摘要】在上一篇，我们已经完成了 Vision Transformer的完整逻辑：把图像切成 patch 当作 token，送入 Transformer Encoder 做全局建模。但我们也提到了， ViT 存在一个绕不开的痛点：没有足够大的数据规模，ViT 往往很难训练得好。而用范式角度来说，这是因阅读全文