深度学习进阶(六)归纳偏置与蒸馏 - 哥布林学者

Wait 5 sec.

【摘要】在上一篇,我们已经完成了 Vision Transformer的完整逻辑:把图像切成 patch 当作 token,送入 Transformer Encoder 做全局建模。 但我们也提到了, ViT 存在一个绕不开的痛点: 没有足够大的数据规模,ViT 往往很难训练得好。 而用范式角度来说,这是因 阅读全文