给你讲个2024年的事,要“谋划五年,展望十年”,跟2035年的目标衔接上。怎么干呢

给你讲个2024年开始的事。教育部语言文字信息管理司刘培俊司长说了,《教育强国建设规划纲要》已经落实了三年,今年是关键之年。他们打算在语言文字信息化上干大事,要“谋划五年,展望十年”,跟2035年的目标衔接上。 怎么干呢?就是搞数字中文建设。最近,教育部、国家语委和中央网信办联合发了个《意见》,计划到2027年,国家数字中文建设得有大成效。语言文字的数据价值得释放出来,政府主导、部门协同、社会参与、共建共享的机制得形成,国家语言文字大数据中心得建起来,还有一个“国家关键语料库”和“国家战略语言资源信息库”也得先搭个架子。 那什么是“国家关键语料库”呢?简单说就是能支撑大语言模型和人工智能发展的语料库。目前像中华思想文化术语库、甲骨文数据库这些都有了。比如说中华思想文化术语库就有1200多条术语,还有中医关键词、典籍译名什么的。 现在高校、企业、科研院所也参与进来了,建设了30多个大规模高质量的语料库。这个月刚上线的“AI小语”,就是拿中华思想文化术语库做训练语料搞的智能平台。 具体怎么建呢?教育部语言文字信息管理司的人说了,得把语言文字和信息技术深度融合。他们以前搞过《信息技术中文编码字符集》这些标准,以后还得重点搞数据标注、数据评价的规范。 杨洁记者也提到了一些细节。比如他们得支持高校搞交叉学科,像“语言智能”或者“计算语言学”这种方向。企业也得建实训基地培训学生技能。 除了学校和企业,国家民委、国家标准委、工信部这些部门也都得配合。刘培俊司长说现在是试点先行的阶段,要加快进度。 最后说说人才培养。教育部打算让高校多开点“语言文字+人工智能”的课。企业那边也得提供产教融合的实训基地,让学生学中文信息处理、机器翻译这些技术,好去就业。 总之这个计划就是要让语言文字真正变成经济社会发展的数据要素。这是杨洁记者通过中青报·中青网报道的。