南京大学与华为昇腾联合突破MoE模型显存瓶颈自主芯片推理效能实现重大跨越

近年来，大语言模型向千亿、万亿参数规模发展，训练与推理成本随之快速上升；MoE（混合专家）等稀疏架构通过“按需激活部分参数”提升单位算力可承载的模型容量，逐渐成为业界兼顾规模与效率的重要路径。但实际部署中，MoE并非“天然省资源”：专家数量多、参数体量大，推理时频繁调用不同专家权重，容易在显存占用、参数搬运和时延稳定性上出现新的瓶颈。问题的核心于显存限制。显存不足时，系统只能常驻少量“热专家”，其余专家参数留在内存侧，推理过程中再根据路由结果在内存与显存之间反复搬运。一旦路由分布波动、批量规模较小或专家切换频繁，参数传输就可能成为主要耗时，导致延迟抖动加剧、吞吐下降，难以满足在线服务对稳定时延与成本控制的要求。在部分高端应用场景中，显存压力还会推高对高规格硬件的依赖，增加部署门槛与供应不确定性。造成上述问题，一上源于MoE结构的“专家调用离散性”：同一批请求可能激活不同专家，参数复用率难以稳定；另一方面也与软硬件协同不足有关。传统方案常将“路由—加载—计算”按串行流程组织，计算单元需要等待参数就绪，数据通路与算力难以充分重叠。此外，路由策略多以精度最优为导向，较少将缓存命中、预取时机与异构负载分配等系统因素纳入统一考虑，从而放大显存与带宽约束带来的性能损失。针对这些痛点，南京大学李猛博士团队依托对应的科教创新平台算力支持，围绕“专家等价性”提出无损显存优化思路，并结合昇腾硬件特性与配套软件栈开展系统级优化。其核心不是简单压缩或降精度，而是基于对专家冗余与可替代性的观察，在不影响模型效果的前提下减少不必要的参数常驻与传输，并尽可能让数据搬运与计算并行推进，提升端到端效率。从效果看，这类优化对大模型推理具有直接工程价值：显存占用降低，意味着在同等硬件条件下可部署更大规模模型或承载更多并发；推理速度提升，有助于降低单位请求成本，改善用户体验并提高服务稳定性；在生态层面，若能在自主硬件平台形成可复用的推理工具链，将有助于提升产业链韧性，推动更多行业应用从“可用”走向“好用、可规模化”。在实现路径上，团队提出并实现面向异构推理的混合部署框架，通过多项关键机制协同提升性能。其一，采用三级流水线并行设计，使参数加载、CPU侧串行计算与加速器侧并行推理相互重叠，减少等待与空转，将部分传输开销“隐藏”在计算过程中。其二，在路由与缓存策略中引入专家等价性划分，将专家按重要程度与可替代性分层：优先缓存核心专家；对可替代的低优先级专家采用灵活替代策略，减少冗余加载与显存占用。其三，提出由共享专家引导的在线预取机制，无需额外离线训练即可预测后续可能调用的专家并提前加载，降低路由变化带来的突发搬运成本。其四，通过双指针动态负载均衡，根据任务规模与特性在CPU与加速器之间进行更合理的算力分配，尤其面向小批量任务降低加载引发的时延放大。在上述机制支撑下，团队研发异构推理加速引擎并完成平台化适配，覆盖动态专家路由管理、专家预测预取、算子适配等模块，形成从策略到工程实现的闭环。据介绍，在保持模型精度不损失的前提下，该方案可将显存消耗降低50%以上，推理速度较同类方法提升2倍以上，并显著提高显存缓存命中率，为MoE模型在自主硬件环境下的部署提供更具性价比的路径。相关推理优化工具链也计划向社区开源，便于科研与工程开发者复用与扩展。展望未来，随着MoE等稀疏架构在多模态、检索增强与智能体系统中的应用增多，推理侧系统优化的重要性将继续提升。面向智能客服、语音生成以及边缘侧智能服务等对成本和时延更敏感的场景，软硬件协同、可解释的缓存与预取策略，以及可迁移的工具链能力，将成为推动大模型规模化落地的关键因素。若开源进展顺利并形成社区共建机制，有望加速行业在自主算力平台上的应用适配与工程迭代。

这项进展表明，自主创新仍是突破关键核心技术的重要路径；在人工智能这个全球竞争加速的战略领域，我国科研团队通过基础理论探索与工程实践结合，持续完善自主可控的技术体系。随着更多成果落地应用，我国在全球人工智能发展格局中的影响力有望更增强。

南京大学与华为昇腾联合突破MoE模型显存瓶颈 自主芯片推理效能实现重大跨越

南京大学与华为昇腾联合突破MoE模型显存瓶颈自主芯片推理效能实现重大跨越