【摘要】上一篇我们介绍了 Transformer-XL 的段级递归和记忆缓存机制,也留下了一个问题: Memory 让不同 segment 可以互相看到,但配套的位置编码逻辑却并不完善。 这一篇就来展开 Transformer-XL 配套的改进方案:跨窗口的相对位置编码。 1. 为什么要提出跨窗口的 RPE 阅读全文