近年来,大语言模型向千亿、万亿参数规模发展,训练与推理成本随之快速上升;MoE(混合专家)等稀疏架构通过“按需激活部分参数”提升单位算力可承载的模型容量,逐渐成为业界兼顾规模与效率的重要路径。但实际部署中,MoE并非“天然省资源”:专家数量多、参数体量大,推理时频繁调用不同专家权重,容易在显存占用、参数搬运和时延稳定性上出现新的瓶颈。 问题的核心于显存限制。显存不足时,系统只能常驻少量“热专家”,其余专家参数留在内存侧,推理过程中再根据路由结果在内存与显存之间反复搬运。一旦路由分布波动、批量规模较小或专家切换频繁,参数传输就可能成为主要耗时,导致延迟抖动加剧、吞吐下降,难以满足在线服务对稳定时延与成本控制的要求。在部分高端应用场景中,显存压力还会推高对高规格硬件的依赖,增加部署门槛与供应不确定性。 造成上述问题,一上源于MoE结构的“专家调用离散性”:同一批请求可能激活不同专家,参数复用率难以稳定;另一方面也与软硬件协同不足有关。传统方案常将“路由—加载—计算”按串行流程组织,计算单元需要等待参数就绪,数据通路与算力难以充分重叠。此外,路由策略多以精度最优为导向,较少将缓存命中、预取时机与异构负载分配等系统因素纳入统一考虑,从而放大显存与带宽约束带来的性能损失。 针对这些痛点,南京大学李猛博士团队依托对应的科教创新平台算力支持,围绕“专家等价性”提出无损显存优化思路,并结合昇腾硬件特性与配套软件栈开展系统级优化。其核心不是简单压缩或降精度,而是基于对专家冗余与可替代性的观察,在不影响模型效果的前提下减少不必要的参数常驻与传输,并尽可能让数据搬运与计算并行推进,提升端到端效率。 从效果看,这类优化对大模型推理具有直接工程价值:显存占用降低,意味着在同等硬件条件下可部署更大规模模型或承载更多并发;推理速度提升,有助于降低单位请求成本,改善用户体验并提高服务稳定性;在生态层面,若能在自主硬件平台形成可复用的推理工具链,将有助于提升产业链韧性,推动更多行业应用从“可用”走向“好用、可规模化”。 在实现路径上,团队提出并实现面向异构推理的混合部署框架,通过多项关键机制协同提升性能。其一,采用三级流水线并行设计,使参数加载、CPU侧串行计算与加速器侧并行推理相互重叠,减少等待与空转,将部分传输开销“隐藏”在计算过程中。其二,在路由与缓存策略中引入专家等价性划分,将专家按重要程度与可替代性分层:优先缓存核心专家;对可替代的低优先级专家采用灵活替代策略,减少冗余加载与显存占用。其三,提出由共享专家引导的在线预取机制,无需额外离线训练即可预测后续可能调用的专家并提前加载,降低路由变化带来的突发搬运成本。其四,通过双指针动态负载均衡,根据任务规模与特性在CPU与加速器之间进行更合理的算力分配,尤其面向小批量任务降低加载引发的时延放大。 在上述机制支撑下,团队研发异构推理加速引擎并完成平台化适配,覆盖动态专家路由管理、专家预测预取、算子适配等模块,形成从策略到工程实现的闭环。据介绍,在保持模型精度不损失的前提下,该方案可将显存消耗降低50%以上,推理速度较同类方法提升2倍以上,并显著提高显存缓存命中率,为MoE模型在自主硬件环境下的部署提供更具性价比的路径。相关推理优化工具链也计划向社区开源,便于科研与工程开发者复用与扩展。 展望未来,随着MoE等稀疏架构在多模态、检索增强与智能体系统中的应用增多,推理侧系统优化的重要性将继续提升。面向智能客服、语音生成以及边缘侧智能服务等对成本和时延更敏感的场景,软硬件协同、可解释的缓存与预取策略,以及可迁移的工具链能力,将成为推动大模型规模化落地的关键因素。若开源进展顺利并形成社区共建机制,有望加速行业在自主算力平台上的应用适配与工程迭代。
这项进展表明,自主创新仍是突破关键核心技术的重要路径;在人工智能这个全球竞争加速的战略领域,我国科研团队通过基础理论探索与工程实践结合,持续完善自主可控的技术体系。随着更多成果落地应用,我国在全球人工智能发展格局中的影响力有望更增强。