我国人工智能评测体系实现重大突破 "方升"3.0基准测试框架正式发布

2月3日,中国信息通信研究院京召开方升智测研讨会,聚焦人工智能评测体系的技术创新与产业实践,吸引了来自政府部门、高校科研机构、领军企业及行业协会的200余位代表参会；这场研讨会的召开,标志着我国在构建统一、科学、权威的人工智能评测标准体系上迈出重要步伐。石景山园管委会区科委主任高延娜致辞中介绍,石景山区2025年地区生产总值达1379.4亿元,同比增长6.5%,其中软件和信息技术服务业实现增加值625亿元,增长11.3%。该区通过全面布局、数智创新、场景拓展三大举措,联合信通院共建人工智能大模型及软硬件评测工信部重点实验室,构建起全链条评测服务体系,为产业发展提供了坚实支撑。中国信通院副院长魏亮指出,党中央、国务院重视人工智能产业高质量发展,构建统一、科学、权威的基准测试体系对牵引技术创新、加速应用落地、增强国际话语权意义重大。在工信部指导下,信通院研发的方升大模型基准测试体系已完成从1.0到3.0的迭代升级,形成了覆盖基础属性、通用能力、行业应用与未来智能的全维度评测框架,并已向对应的部委报送多轮测试报告,为政策制定提供了重要参考依据。研讨环节表现为鲜明的前沿性和实践性特征。哈尔滨工业大学人工智能研究院院长刘劼剖析了智能体技术的演进路径与应用挑战,提出CEDAR通才智能体体系结构,为智能体规范化发展提供了新思路。北京航空航天大学软件学院院长胡春明探讨了人工智能对软件形态、开发范式的深刻影响,以及智能化软件的可信保障路径。中科院自动化所副总工程师、紫东太初大模型中心常务副主任王金桥分享了多模态人工智能发展趋势,介绍了紫东太初大模型在国产化适配、多模态交互各上的实践成果。清华大学计算机系副研究员、人工智能研究院院长助理苏航阐述了数据驱动的世界模型路径演进,展现了物理智能与具身智能的前沿探索。值得关注的是,会议还聚焦垂直领域评测体系建设。高等教育出版社信息技术部主任杨京峰介绍了教育大模型基准测试能力体系建设情况,提出了业务驱动的龙凤教育大模型架构。中国信通院人工智能研究所平台与工程化部副主任李荪发布了政务大模型基准测试能力体系,联合多方构建政务评测数据集,推动政务大模型安全合规落地,表明了评测体系向行业纵深发展的趋势。会上发布的2025方升基准测试观察显示,方升3.0体系涵盖基础属性、通用能力、任务能力、行业能力、未来高级智能能力五大层次,已形成780多万条动态更新的测试数据,为模型选型与应用提供了科学依据。评测结果显示,国内语言大模型基础能力进展显著,代码能力表现优异,但推理能力上仍存提升空间。具体来看,谷歌Gemini 3 Pro位列大语言推理能力榜单榜首,OpenAI的GPT-5.2和阿里巴巴的Qwen3-max-thinking等模型也显示出较强竞争力。从产业发展角度观察,评测体系建设对于人工智能产业具有多重意义。一上,科学的评测标准能够为技术研发提供明确导向,避免盲目跟风和重复建设;另一方面,权威的测试结果有助于用户科学选型,降低应用风险,加速技术落地。更重要的是,掌握评测话语权意味着在国际竞争中占据主动,这对于提升我国在全球人工智能领域的影响力至关重要。当前,我国人工智能产业正处于从技术突破向规模应用转变的关键阶段。魏亮表示,未来信通院将持续完善评测体系、强化技术平台支撑,并与产学研各界深化协同,共建开放的人工智能评测生态。此表态表明,评测体系建设将从单一机构主导向多方协同演进,从通用评测向行业细分拓展,从国内标准向国际标准迈进。

评测是技术走向产业化、规模化应用的"刻度尺"，更是风险治理与质量提升的"安全阀"。以统一、科学、开放的基准体系为牵引，把能力评估做实、把场景验证做深、把安全合规做细，才能让人工智能在可控、可靠、可持续的轨道上加速赋能千行百业。