中国科技企业突破具身智能技术瓶颈 “人类学习”路线引领行业变革

（问题）当前，具身智能的发展热度持续攀升，但“能演示、难通用”“能单点、难扩展”成为行业共同痛点。大量系统依赖遥操作采集动作轨迹或真机上反复试验，将人的操作转化为可复制的动作序列。一旦物体材质、摆放位置、工具形态或环境约束发生变化，原有技能往往出现不稳定甚至失效，导致落地成本高、部署周期长。（原因）业内人士分析，症结在于“只学动作、不懂物理”。传统轨迹拟合强调对既定路径的复现，擅长在固定条件下完成重复任务，却难以获得“接触—受力—摩擦—约束”等物理交互常识，更缺乏在不确定条件下选择策略、调整动作的能力。仿真数据与互联网视频也存在天然边界：前者易受“仿真与现实差距”影响，后者多为第三视角且缺少触觉与力反馈信息，对精细操作帮助有限。归根结底，机器人需要的不只是“会做”，更要“知道为什么这样做、换个条件该怎么做”。（影响）技术路线的变化已在产业端显现。深度机智创始人陈凯提出，以“人类第一视角数据”为核心训练基座模型，通过贴近人类操作视角的连续数据，让系统在学习任务步骤的同时学习物理世界的规律与交互逻辑。该公司与有关机构基于约1000小时第一视角数据训练的PhysBrain模型，在“将胡萝卜放入盘中”等任务中表现出策略切换能力：当推动失败时能改变方案，转为夹取并在多次尝试中调整角度与力度直至完成。这类“变通与纠错”能力被认为难以通过预编程获得，也难以仅靠单一轨迹模仿稳定复现，显示出从“动作复刻”迈向“理解驱动”的潜在跃迁。，海外企业也在调整思路。多家硅谷机构公开展示的机器人演示中，出现了更灵活的物理交互方式，业内将其解读为对“第一视角学习”的认可。多方动向叠加，使得原本争议较大的路线在较短时间内形成收敛趋势。（对策）受访人士认为，推动该路线走向规模化，还需在数据、模型与工程化三上同步发力：一是构建高质量第一视角数据体系，覆盖家庭、零售、物流、制造等典型场景，并强化数据采集的规范与安全边界；二是以基座模型为核心，增强对物理常识、接触过程和多步骤任务规划的学习能力，提升跨任务、跨场景泛化；三是完善从模型到硬件的闭环验证，包括传感器、末端执行器、力控与安全策略，降低试错成本，提升可靠性与可维护性。（前景）业内对时间窗口的判断趋于一致：随着算力、数据采集与模型训练方法逐步成熟，2026年前后或成为“第一视角学习”集中验证与应用扩散的重要节点。就中国市场而言，制造业门类齐全、作业场景丰富、供应链配套完善，为具身智能提供了多样化的落地土壤；同时，标准体系、数据治理与应用牵引若能同步推进，有望加速从实验室演示走向真实生产与服务场景的稳定运行。

具身智能的竞争不仅是技术比拼，更是方法论的革新；从模仿动作到培养理解能力，标志着行业的重要转向。未来，谁能率先建立完整的数据、工程和应用体系，谁就能将实验室成果转化为真正的产业价值。