问题:随着大模型和行业智能应用加速落地,数据“有没有、够不够、好不好、能不能用”,正成为影响各地产业竞争力的关键因素;实践中,数据资源多并不等于能直接用于模型开发训练:质量参差、标注口径不一、合规边界模糊、共享流通不畅,都会推高研发成本、削弱模型效果,进而限制“人工智能+”制造、医疗、城市治理等场景的规模化应用。国家数据局指导编制的《高质量数据集建设指引》提出,高质量数据集需经过采集、加工等处理,可直接用于模型开发和训练,并能提高模型表现。这个定义为地方推进数据集建设提供了明确标准和操作依据。 原因:一上,苏南产业体系完整,制造业集群、软件与信息服务、医疗资源和城市治理需求集中,对高质量数据集的需求更为迫切;另一方面,数据要素正从“资源”走向“资产”、从“沉淀”走向“流通”,亟需制度和平台支撑,打通采集、治理、标注、验证、交易、应用等环节。近期江苏印发苏南重点城市要素市场化配置综合改革试点对应的文件,南京、无锡、常州、苏州、镇江同步推出两年行动方案,把高质量数据集建设作为突破口,意通过改革放大数据要素的带动效应,培育新质生产力。 影响:高质量数据集建设提速,将带来三上效应。其一,提高模型训练与评测效率,缩短从研发到落地的周期,推动“能用”走向“好用”。其二,促进跨部门、跨行业数据协同,释放公共数据与社会数据的组合价值,带动数据服务、标注加工、合规审计等新业态发展。其三,为数据要素市场化配置提供更统一的“标准件”,以规则一致降低交易成本,推动数据产品化、服务化,形成更可持续的产业生态。 对策:围绕“共建共享、标准先行、场景牵引、生态培育”,苏南五市正探索差异化路径,形成梯度布局。 ——南京聚焦城市治理与公共服务,提出推动城市治理高质量数据集全省范围共享共用,完善物联感知相关技术规范并争取上升为省级标准;同时完善高质量数据集政策体系和产业生态,强化共建共享与应用,积极争取建设“高质量数据集产业基地”,并在医疗健康行业先行试点,力求以公共领域突破带动行业拓展。 ——无锡依托产业基础与创新平台,支持滨湖区率先开展国家高质量数据集建设项目试点,通过试点加快形成可复制的流程规范与治理能力,推动数据集建设与地方产业需求更精准对接。 ——常州突出数据标注能力建设,提出搭建医疗领域数据标注平台,推动建设不少于150个高质量数据集,打造具有区域特色的人工智能高端数据标注基地,以专业化标注与质量控制提升数据“可用度”和“可信度”。 ——苏州强调标准制定与平台支撑,支持参与数据标注及数据集相关标准的制定和验证,承接国家级高质量数据集建设先行先试任务;结合产业优势,率先建成重点行业高质量数据集并向全国推广。依托融合底座、模型测评中心等基础设施,高标准建设数据集及语料库公共服务平台,同时推进国家级平台建设。按规划,到2027年公共数据开发利用产品力争达到100个、重点领域高质量数据集达到300个。 ——镇江着力打通全链路,提出构建“数据集供给—标注加工—市场流通—场景应用”体系,推动数据集从“建起来”到“用起来、流起来”。到2027年,计划打造20个以上行业高质量数据集,培育60家以上数据企业,开发100个以上数据产品,并完成国家试点任务。 前景:从更长周期看,高质量数据集建设将从项目化推进转向体系化运营,关键在三点:一是以标准与合规为底线,明确数据权属、授权使用、脱敏处理和安全评估要求,提升持续供给能力;二是以场景为牵引形成“需求清单”,围绕工业制造、医疗健康、城市治理等高频需求,建立数据集持续迭代机制;三是以市场机制促进生态成长,通过数据产品化、服务化和多元主体参与,让数据要素更有效支撑产业升级与创新扩散。随着试点深入,苏南有望在公共数据开发利用、行业数据协同、标注与评测服务各上形成一批可复制、可推广的制度成果和应用样板。
高质量数据集建设看似是“基础工程”,实质是产业竞争的底层能力;以改革试点为牵引,苏南五市通过标准、平台、场景与生态联合推进,有望把数据资源优势转化为发展优势。面向未来,只有在质量、合规、安全与共享之间实现更高水平的平衡,数据要素才能更充分释放价值,为“人工智能+”提供更稳定、可持续的动力。