语料库建设研讨会暨bcc 2.0 发布会在京召开

2026年3月15日这天,“语料库建设研讨会暨BCC 2.0发布会”在线上开了,这是北京语言大学语言资源高精尖创新中心搞的活动,给全国搞语言研究的人发来了邀请。现场系统发布了北京语言大学语料库中心(Beijing Language and Culture University Corpus Center)的2.0版本,要给大模型时代的语言资源建设和智能化研究加把劲。团队为了让大伙儿都能用得上,还放出来了个工具包叫Language Structure Construction(LangSC),免费给大家试,不用连网就能用。同时他们还把好些个领域的字词频基础数据给开放了出来。图1就显示了BCC2.0的主界面。负责这个系统的北京语言大学教授荀恩东说,北语这伙人在语料库服务这块干了快20年了,一直陪着语言研究者长大,亲眼看着各种理念变来变去。现在的大模型时代,语料库研究不光得找准自己的位置,还得为数字中国和数字中文的发展提供强大动力和生产基础。荀恩东在他的《BCC语料库建设与应用》报告里回顾了1.0到2.0的变化,重点讲了数智时代语料库的新动向,还介绍了新版本里怎么搞底层检索引擎重构、怎么更新数据这些核心突破。他说BCC 2.0是靠技术升级把检索的准确度和速度都提上来了,还让个人也能自己建语料库,想怎么弄就怎么弄,给智能化研究铺好了路。副研究员饶高琦在演示的时候展示了BCC 2.0的新招数,观众们通过弹幕和留言跟嘉宾聊得热火朝天。据说BCC2.0里一共有62亿字,啥样的文章都有,从新闻到文学再到口语还有老的汉语材料全都有了。靠着北语自己弄的引擎,它能在巨量数据里跑得快、查得细,支持复杂的混合查询,结果还能直接看出来。未来团队还要一直改改改,让资源更开放、应用更智能,帮着中国的语言研究事业越干越好。这事儿是光明日报的柴如瑾和周世祥写的。