李飞飞、Jim Fan、徐丹飞联手,给具身智能指了一条新路

Wait 5 sec.

2026年夏天,机器人圈被一个近乎“黑色幽默”的实验结果炸开了锅。一支由斯坦福教授李飞飞、英伟达具身智能负责人Jim Fan、佐治亚理工学院助理教授徐丹飞领衔,联合Pieter Abbeel、Jitendra Malik、Ken Goldberg、Trevor Darrell等多位顶尖学者的“超级团队”,在一项消融对照实验中遇到了一个百思不得其解的现象。他们在一个名为π0.5的行业经典模型上做了一件看似理所当然的事——把触觉信号作为额外信息输入给模型。按常理,多一种感知应该多一分精准。结果却令人瞠目:据论文中的消融实验显示,任务成功率从17%骤降至6%。加了触觉,机器人反而“不会干活”了。这个反常结果,像一记耳光打在了整个具身智能行业的脸上。过去几年,业界的主流做法是把一切感知信息——视觉、语言、触觉——统统转成同一种格式塞进同一个大模型里,相信“数据多了自然智能涌现”。T-Rex论文用一组冰冷的数据证明:这条路,可能从一开始就走偏了。触觉为什么成了“猪队友”?问题出在哪里?论文作者们给出了一个简洁而有力的诊断:频率错配。据论文及相关技术解读,视觉是一种“慢感知”。摄像头以大约每秒5帧的频率扫描世界,提供的是稳定的场景语义——知道物体在哪里、长什么样。但触觉是一种“快感知”。当指尖接触到物体的瞬间,压力、滑动、形变等信息以毫秒为单位变化,触觉反馈天然需要在每秒20次甚至更高的频率下才能发挥作用。打个比方:这就像让一个长跑运动员(视觉)和一个短跑运动员(触觉)在同一条跑道上以同样的速度跑步。长跑运动员觉得节奏太快跟不上,短跑运动员觉得节奏太慢憋得慌。把这两种时间尺度完全不同的信号强行塞进同一个以低频运行的Transformer里,结果不是“1+1=2”,而是“1+1