给北京人形机器人创新中心透露的消息显示,北京市经济和信息化局这次又给大家亮了一把好牌。仅用了4个月的时间,这里就把内部研发的数据量冲过了300万条,并且还给外界开源了30多万条。这些数据不光成了头部企业算法迭代的“粮草”,大家光是用这东西就干了上万小时。 这块近5000平方米的基地里,藏着30多个场景,可不是供人看的样板间。像家居、商超这些地方,都被那120多台机器人占满了。它们24小时不打烊地干活,光照怎么变、人怎么走、物体在哪儿摆都能随时调。这样练出来的数据可管用了,就算今天在儿童房学会翻袜子,明天去老年房或者户外露营照样能用。 在“儿童房”这个场景里,训练师得控制机器人把反过来的袜子翻正。看着简单,实际上系统得连续采集300到1000次关节角度、运行轨迹等数据才行。只有被判定为合格样本的,才会进开放库供大家调用。早期做机器人数据采集可真是苦了不少人,场景太碎、设备不好配、数据太乱。为了治这个毛病,基地制定了一套标准化流程,从场景搭建到数据标注全量化成了指标。这下好了,整体合格率稳稳守住了95%,这就给中小型机器人用户省下了至少50%的成本。 以前想拿到一条高质量数据要花好几万呢。现在基地把30万条清洗好的免费数据扔了出来,这就好比把“大模型”时代的预训练权重直接搬到了机器人身上。不管你是在康复病房识别输液瓶还是在超市抓货架上的东西,只要注册一下就能下载这些数据包来补补自家算法的短板。 接下来基地还打算搞点新花样,研究基于自监督学习的增量更新机制。这样模型在新场景里不用你费心教,只要采点新数据就能快速学会新动作。长远来看这里的目标可不是当数据仓库的老大,而是要打造一个没有围墙的具身天工开源社区。到时候不管是什么机器人、什么场景、什么算法,都能在这里找到练兵场,好让北京继续稳稳坐着全国机器人创新的头把交椅。