英伟达CEO黄仁勋在CES 2026展会上强调,HBM还是AI算力的核心,SRAM虽然速度快,却受容量限制。这就好比司机开车,在短途旅行时SRAM能把油门踩到底,跑的飞快;可一到长途跋涉,SRAM有限的油箱容量就会把车停住,让速度慢下来。现在大家都在想办法给AI省钱,GDDR和SRAM加速器这类方案似乎可以帮上忙。但黄仁勋指出,对于那种参数达万亿级、支持超长上下文窗口的大模型来说,SRAM的瓶颈特别明显。数据显示,SRAM系统能承载的模型规模大概只有HBM的百分之一。一旦模型超出这个范围,就得频繁去外面调取数据,这时候它的速度优势就没了。 现代AI的工作负荷变化很快,像MOE、多模态处理这些任务都不一样。有些模型要吃很多显存,有些则需要超快的NVLink互联带宽。如果硬件针对某一种模式做了过度优化,一旦活儿变了,那些昂贵的专用芯片就容易闲着不用,浪费资源。为了应对这种情况,英伟达还是决定把HBM作为核心架构。这就像是给服务器装一个通用的硬盘而不是专用的闪存卡,虽然初始成本高一点,但因为能适应各种算法变化,所以在数周乃至数月的时间里都能保持高利用率。 黄仁勋说他们的设计哲学是“为通用性而优化”。就像一款手机既要玩游戏又要拍照片一样,即使某个专用芯片在5%到10%的任务里跑得飞快,如果它没法处理剩下90%的通用任务,那整体资源就会失衡。对于模型开源会不会削弱技术壁垒的问题,黄仁勋认为开放模型整合的功能越多、数据越复杂,对内存的需求就越大。英伟达坚持投HBM研发是为了保留“可选性”,既不让客户被锁在狭窄的性能区间里,也能抵御模型快速迭代带来的冲击。 行业人士说这场争论其实是为了看清基础设施发展的内在逻辑。在追求峰值性能的同时,必须要考虑规模能不能伸缩、能耗合不合理以及回报能不能持久。现在全球AI芯片竞争到了系统级优化的阶段,内存架构的选择就成了影响产业格局的关键变量之一。黄仁勋这番话不仅理清了英伟达在内存技术上的立场,还揭示了一个规律:在模型越来越复杂的情况下,硬件系统得在专用性能和通用灵活性之间找个平衡点。随着各国加大基础设施投入,怎么建出既高效又有适应性的算力体系,将成为推动智能产业发展的核心问题。未来HBM和SRAM会在各自擅长的领域继续进化,共同支撑起智能时代庞大的数据处理需求。