"MixFormer: Co-Scaling Up Dense and Sequence in Industrial Recommenders" 论文笔记 - 绵满

Wait 5 sec.

【摘要】字节跳动精排 Scaling 的工作 Mixformer(和 HyFormer 算是同期工作吧),目前挂在 Arxiv 26.02 上,也是提出了一个新的架构实现更好的统一 Scaling 背景 现有序列建模和特征交叉的工作主要分为分离式和统一式,分离式的设计限制了双向信息流和延迟优化,统一式的 O 阅读全文