李飞飞、Jim Fan、徐丹飞联手，给具身智能指了一条新路

Wait 5 sec.

2026年夏天，机器人圈被一个近乎“黑色幽默”的实验结果炸开了锅。一支由斯坦福教授李飞飞、英伟达具身智能负责人Jim Fan、佐治亚理工学院助理教授徐丹飞领衔，联合Pieter Abbeel、Jitendra Malik、Ken Goldberg、Trevor Darrell等多位顶尖学者的“超级团队”，在一项消融对照实验中遇到了一个百思不得其解的现象。他们在一个名为π0.5的行业经典模型上做了一件看似理所当然的事——把触觉信号作为额外信息输入给模型。按常理，多一种感知应该多一分精准。结果却令人瞠目：据论文中的消融实验显示，任务成功率从17%骤降至6%。加了触觉，机器人反而“不会干活”了。这个反常结果，像一记耳光打在了整个具身智能行业的脸上。过去几年，业界的主流做法是把一切感知信息——视觉、语言、触觉——统统转成同一种格式塞进同一个大模型里，相信“数据多了自然智能涌现”。T-Rex论文用一组冰冷的数据证明：这条路，可能从一开始就走偏了。触觉为什么成了“猪队友”？问题出在哪里？论文作者们给出了一个简洁而有力的诊断：频率错配。据论文及相关技术解读，视觉是一种“慢感知”。摄像头以大约每秒5帧的频率扫描世界，提供的是稳定的场景语义——知道物体在哪里、长什么样。但触觉是一种“快感知”。当指尖接触到物体的瞬间，压力、滑动、形变等信息以毫秒为单位变化，触觉反馈天然需要在每秒20次甚至更高的频率下才能发挥作用。打个比方：这就像让一个长跑运动员（视觉）和一个短跑运动员（触觉）在同一条跑道上以同样的速度跑步。长跑运动员觉得节奏太快跟不上，短跑运动员觉得节奏太慢憋得慌。把这两种时间尺度完全不同的信号强行塞进同一个以低频运行的Transformer里，结果不是“1+1=2”，而是“1+1