机器人研发数据量冲过300 万条，还开源了30多万条

给北京人形机器人创新中心透露的消息显示，北京市经济和信息化局这次又给大家亮了一把好牌。仅用了4个月的时间，这里就把内部研发的数据量冲过了300万条，并且还给外界开源了30多万条。这些数据不光成了头部企业算法迭代的“粮草”，大家光是用这东西就干了上万小时。这块近5000平方米的基地里，藏着30多个场景，可不是供人看的样板间。像家居、商超这些地方，都被那120多台机器人占满了。它们24小时不打烊地干活，光照怎么变、人怎么走、物体在哪儿摆都能随时调。这样练出来的数据可管用了，就算今天在儿童房学会翻袜子，明天去老年房或者户外露营照样能用。在“儿童房”这个场景里，训练师得控制机器人把反过来的袜子翻正。看着简单，实际上系统得连续采集300到1000次关节角度、运行轨迹等数据才行。只有被判定为合格样本的，才会进开放库供大家调用。早期做机器人数据采集可真是苦了不少人，场景太碎、设备不好配、数据太乱。为了治这个毛病，基地制定了一套标准化流程，从场景搭建到数据标注全量化成了指标。这下好了，整体合格率稳稳守住了95%，这就给中小型机器人用户省下了至少50%的成本。以前想拿到一条高质量数据要花好几万呢。现在基地把30万条清洗好的免费数据扔了出来，这就好比把“大模型”时代的预训练权重直接搬到了机器人身上。不管你是在康复病房识别输液瓶还是在超市抓货架上的东西，只要注册一下就能下载这些数据包来补补自家算法的短板。接下来基地还打算搞点新花样，研究基于自监督学习的增量更新机制。这样模型在新场景里不用你费心教，只要采点新数据就能快速学会新动作。长远来看这里的目标可不是当数据仓库的老大，而是要打造一个没有围墙的具身天工开源社区。到时候不管是什么机器人、什么场景、什么算法，都能在这里找到练兵场，好让北京继续稳稳坐着全国机器人创新的头把交椅。