语料库建设研讨会暨bcc 2.0 发布会在京召开

2026年3月15日这天，“语料库建设研讨会暨BCC 2.0发布会”在线上开了，这是北京语言大学语言资源高精尖创新中心搞的活动，给全国搞语言研究的人发来了邀请。现场系统发布了北京语言大学语料库中心（Beijing Language and Culture University Corpus Center）的2.0版本，要给大模型时代的语言资源建设和智能化研究加把劲。团队为了让大伙儿都能用得上，还放出来了个工具包叫Language Structure Construction（LangSC），免费给大家试，不用连网就能用。同时他们还把好些个领域的字词频基础数据给开放了出来。图1就显示了BCC2.0的主界面。负责这个系统的北京语言大学教授荀恩东说，北语这伙人在语料库服务这块干了快20年了，一直陪着语言研究者长大，亲眼看着各种理念变来变去。现在的大模型时代，语料库研究不光得找准自己的位置，还得为数字中国和数字中文的发展提供强大动力和生产基础。荀恩东在他的《BCC语料库建设与应用》报告里回顾了1.0到2.0的变化，重点讲了数智时代语料库的新动向，还介绍了新版本里怎么搞底层检索引擎重构、怎么更新数据这些核心突破。他说BCC 2.0是靠技术升级把检索的准确度和速度都提上来了，还让个人也能自己建语料库，想怎么弄就怎么弄，给智能化研究铺好了路。副研究员饶高琦在演示的时候展示了BCC 2.0的新招数，观众们通过弹幕和留言跟嘉宾聊得热火朝天。据说BCC2.0里一共有62亿字，啥样的文章都有，从新闻到文学再到口语还有老的汉语材料全都有了。靠着北语自己弄的引擎，它能在巨量数据里跑得快、查得细，支持复杂的混合查询，结果还能直接看出来。未来团队还要一直改改改，让资源更开放、应用更智能，帮着中国的语言研究事业越干越好。这事儿是光明日报的柴如瑾和周世祥写的。