(问题)当前,具身智能的发展热度持续攀升,但“能演示、难通用”“能单点、难扩展”成为行业共同痛点。大量系统依赖遥操作采集动作轨迹或真机上反复试验,将人的操作转化为可复制的动作序列。一旦物体材质、摆放位置、工具形态或环境约束发生变化,原有技能往往出现不稳定甚至失效,导致落地成本高、部署周期长。 (原因)业内人士分析,症结在于“只学动作、不懂物理”。传统轨迹拟合强调对既定路径的复现,擅长在固定条件下完成重复任务,却难以获得“接触—受力—摩擦—约束”等物理交互常识,更缺乏在不确定条件下选择策略、调整动作的能力。仿真数据与互联网视频也存在天然边界:前者易受“仿真与现实差距”影响,后者多为第三视角且缺少触觉与力反馈信息,对精细操作帮助有限。归根结底,机器人需要的不只是“会做”,更要“知道为什么这样做、换个条件该怎么做”。 (影响)技术路线的变化已在产业端显现。深度机智创始人陈凯提出,以“人类第一视角数据”为核心训练基座模型,通过贴近人类操作视角的连续数据,让系统在学习任务步骤的同时学习物理世界的规律与交互逻辑。该公司与有关机构基于约1000小时第一视角数据训练的PhysBrain模型,在“将胡萝卜放入盘中”等任务中表现出策略切换能力:当推动失败时能改变方案,转为夹取并在多次尝试中调整角度与力度直至完成。这类“变通与纠错”能力被认为难以通过预编程获得,也难以仅靠单一轨迹模仿稳定复现,显示出从“动作复刻”迈向“理解驱动”的潜在跃迁。 ,海外企业也在调整思路。多家硅谷机构公开展示的机器人演示中,出现了更灵活的物理交互方式,业内将其解读为对“第一视角学习”的认可。多方动向叠加,使得原本争议较大的路线在较短时间内形成收敛趋势。 (对策)受访人士认为,推动该路线走向规模化,还需在数据、模型与工程化三上同步发力:一是构建高质量第一视角数据体系,覆盖家庭、零售、物流、制造等典型场景,并强化数据采集的规范与安全边界;二是以基座模型为核心,增强对物理常识、接触过程和多步骤任务规划的学习能力,提升跨任务、跨场景泛化;三是完善从模型到硬件的闭环验证,包括传感器、末端执行器、力控与安全策略,降低试错成本,提升可靠性与可维护性。 (前景)业内对时间窗口的判断趋于一致:随着算力、数据采集与模型训练方法逐步成熟,2026年前后或成为“第一视角学习”集中验证与应用扩散的重要节点。就中国市场而言,制造业门类齐全、作业场景丰富、供应链配套完善,为具身智能提供了多样化的落地土壤;同时,标准体系、数据治理与应用牵引若能同步推进,有望加速从实验室演示走向真实生产与服务场景的稳定运行。
具身智能的竞争不仅是技术比拼,更是方法论的革新;从模仿动作到培养理解能力,标志着行业的重要转向。未来,谁能率先建立完整的数据、工程和应用体系,谁就能将实验室成果转化为真正的产业价值。