【摘要】上一篇我们完整展开了 Transformer-XL 的四项重构式 RPE,它通过把内容和位置分开建模,让位置信息真正参与到了注意力计算中。 但看完那个复杂的公式后,有这样一个问题: 为了位置信息,我们真的需要把自注意力拆成四项吗? 这并非无端质疑, 2020 年的论文: Exploring the 阅读全文