北京有个特别牛的地方,叫“数据工厂”,专门教机器人做这做那,搞家务、卖货、办公,还

最近我给你说说个好消息,北京有个特别牛的地方,叫“数据工厂”,专门教机器人做这做那,搞家务、卖货、办公,还搞一大堆的事儿。就在人工智能刚从“感知智能”跳到“具身智能”的这个时候,高质量的数据就像个金矿一样,给人形机器人产业提供了关键动力。3月19日,我特地跑去北京人形机器人创新中心,去看看他们的数据采集与训练基地。 这个基地才建起来不到半年呢,已经把六个大领域里的30多个典型场景都给搞定了,攒下了一万多个小时的高质量数据。照这样下去,说不定很快就能成为全球第一个采集到一百万小时高质量数据的地方。你想啊,从家里厨房到商超货架,再到工厂流水线、养老护理,那场景真的是太丰富了。 你看这基地里都有啥?超过120台机器人呢!Aloha、Franka、UR、X-sense这些牌子都在呢。不仅有北京自家搞的“天工”“天轶”,还有好多别家的机器人设备,轮式的、双足人形的、机械臂的,五花八门。这么多机器人凑一块儿干活儿,就把单一机器人那种数据孤岛的问题给解决了。 基地里还有一个200平米的大动作捕捉场地。为了抓准动作细节,大家都戴着头环或者手套操作X-sense设备来采集动作。远程遥操驾舱更牛,能让人在千里之外操控真机器。这三大核心能力让基地能给各种算法提供不同类型的高质量数据。 现在北京已经给好多大公司和研究机构提供了好几万小时的好数据了,合格率一直保持在95%以上。场景越多数据越多,开发者和算法模型也就越爱来这儿玩,形成一个好循环。 其实啊,机器人要真正走进各行各业,光靠几百几千条“精修”数据可不行。它需要海量多样的“原料”。而真机数据就是机器人从虚拟走向现实必须跨过的坎儿。因为只有真机器才能抓到力觉反馈、触觉信息这些仿真搞不定的细节。 不过这条路上也有不少坑。比如场景太碎了,每个地方都不一样;还有机器人之间的“方言”不通顺;最后就是数据质量参差不齐。 北京的这家公司就把这些问题都给解决了。他们把分散的场景集中复现了一遍,把不同机器人统一调度起来了。还专门制定了一套国家标准《人工智能具身智能数据采集规范》,把采集、标注、质检全都标准化了。 操作的时候严格按照规范来做,确保动作轨迹一致;标注的时候有双重校验;质量检测的时候还要过三关——看动作完不完整、标得对不对、场景能不能泛化。只有过了这三关的数据才能用。 就是靠这套标准化的流程保证了每一小时交付出去的都是合格可训的好东西。