问题:高质量中文语料供给趋紧,成大模型训练“硬约束” 算力投入不断加大、模型迭代加快的背景下,行业关注点正从“算力与算法”继续转向“数据与语料”;施其明在论坛发言中表示,支撑下一代大模型能力提升的高质量中文语料正出现阶段性紧缺,尤其在医疗、法律、制造等专业场景,需求增长很快,但可用于训练与评测的中文专业语料明显不足,形成“应用期待高、数据准备弱”的结构性矛盾。 他引用公开统计称,全球互联网公开语料中英文占比约59.8%,中文约1.3%。在他看来,这不仅是数量差距,还会在训练过程中被进一步放大,最终可能表现为模型在中文语境下理解深度、表达习惯与价值判断上的偏差风险。 原因:结构失衡叠加机制短板,语料从“可用”走向“稀缺可得” 施其明将当前中文语料供给的主要制约归纳为四点:一是全球语料结构长期失衡,开放语料中中文占比偏低;二是垂直领域高质量语料不足,难以支撑行业模型的可信训练与可验证评测;三是标注规范和质量标准不统一,高水平标注供给不足,导致语料难以通用、复用;四是高价值数据分散在不同主体之间,缺少合规流通与共享机制,形成“数据孤岛”。 ,随着训练成本上升、可公开抓取的数据逐步见底,行业竞争正从“能不能用到数据”转向“能不能持续获得高质量、可授权、可治理的数据”。他认为,语料的组织与治理能力正在成为新的分水岭。 影响:语料短板将直接制约模型能力边界与产业落地质量 业内普遍期待大模型在政务服务、医疗辅助、工业设计、教育出版等领域发挥更大作用,但语料不足可能带来三上连锁影响:其一,模型在复杂长文本理解、跨段推理、专业术语使用等能力提升受限,应用可靠性与稳定性难以满足行业要求;其二,落地成本上升,企业反复采集、清洗、标注,造成重复投入;其三,若训练长期依赖外语或低质量内容,可能导致知识结构与价值表达偏移,不利于形成与本土知识体系匹配的智能底座。 对策:以出版体系为切口,构建“可控、可检验、可持续”的中文语料来源 针对语料供给的系统性缺口,施其明建议将出版业纳入语料建设的重要支撑环节。他认为,理想的高质量语料应具备三项特征:内容经过严格筛选、知识结构相对完整、生产流程可控且可追溯。出版流程从选题论证、专家评审到“三审三校”,已形成较成熟的质量控制链条,相比碎片化网络文本更可靠、更系统、噪声更低,可为大模型提供更贴近“能力训练”需求的长文本与深度论证材料。 他进一步指出,编辑群体长期形成的规范意识、事实核验能力和专业判断,与语料加工中的清洗、纠错、结构化、标签体系建设高度契合。若能在合规前提下推进出版内容的数字化加工、元数据标准建设与跨机构协同,有望形成稳定的高质量中文语料供给渠道。 同时,多位业内人士认为,推动出版内容进入语料体系,需要同步完善版权授权、收益分配、数据安全与使用边界等制度安排,建立可追溯、可审计的治理机制,避免出现“有资源却不敢用、能用却不好用”。 前景:从“数据要素”到“知识底座”,语料体系建设将成为长期工程 与算力可通过投资扩产不同,语料,尤其是承载本土知识体系的高质量中文语料,很难靠短期集中投入快速形成规模优势。施其明判断,未来一段时间的竞争焦点,将更多落在语料质量、组织效率与治理能力上。以出版业为突破口,有望带动标准体系、人才体系与合规机制同步完善,并与行业数据、公共数据形成互补,逐步建设面向专业场景的中文语料基础设施。 业内期待,对应的探索能在试点基础上沉淀出可复制路径:一端连接内容生产与知识组织,另一端连接模型训练、评测与应用落地,推动人工智能产业从“速度竞赛”转向“质量竞赛”。
大模型竞争进入深水区,比拼的不只是算力与参数,更是对知识资源的组织能力和制度化供给能力。将高质量中文语料建设提升到战略位置,既关系产业竞争力,也关系数字时代的文化表达与价值传递。以出版业为代表的高质量内容体系若能实现合规转化与系统供给,将为技术创新提供更稳固的底座,也为内容生态的规范发展提供更可持续的路径。