深度学习进阶（二十二）T5：NLP任务的首次大一统 - 哥布林学者

Wait 5 sec.

【摘要】上一篇我们完整展开了 Transformer-XL 的四项重构式 RPE，它通过把内容和位置分开建模，让位置信息真正参与到了注意力计算中。但看完那个复杂的公式后，有这样一个问题：为了位置信息，我们真的需要把自注意力拆成四项吗？这并非无端质疑， 2020 年的论文： Exploring the 阅读全文