谷歌tpu成科技版“三国杀”,谁能赢?

其实你可能没想过,AI芯片这块市场已经不只是英伟达一家独大了。最近Meta花了几十亿美元去租谷歌的TPU,这事儿让竞争一下子变成了科技版的“三国杀”。现在战局已经很清楚了,谷歌TPU靠着它那套光交换网络和对PyTorch的支持开始进攻,英伟达那号称铜墙铁壁的CUDA也遇到了十多年来最大的挑战,AMD的MI300则在旁边虎视眈眈。到底谁能赢,可能得看谁能把从芯片设计到应用开发的整套生态系统建好。 在那个全是计算机做体力活儿的“举重比赛”里,英伟达的H100浮点运算能力最强,拿到了19.5TFLOPS。不过谷歌最新出的TPUv4更厉害,BF16的算力直接飙到了275TFLOPS,这可是专门为矩阵乘法优化过的架构。用它来跑特定的活儿,效率能提高40%。AMD那边不走寻常路,MI300X的HBM3内存容量达到了192GB,比H100多了快1.5倍,特别适合那种超大的模型推理。 通信速度方面就像修高铁一样,谁的速度快谁就占优势。谷歌的光交换网络让芯片之间的延迟不到2微秒,这时间短得跟眨眼差不多。英伟达的NVLink4.0虽然带宽有900GB/s,但因为要用专门的线缆,就像在数字世界里修了收费公路一样。 谷歌搞“TorchTPU”其实就是想卖“通行证”,让开发者在TPU上写PyTorch代码特别顺手,把迁移成本降下来。Meta本身是PyTorch的开发者代表,他们内部测试发现,用TPU去训练LLaMA3模型的时候,吞吐量比用同样规模的GPU集群高了27%。 英伟达的CUDA现在也不好过了。华尔街分析师说,谷歌把部分编译器工具开源了,这就像是在CUDA城堡底下埋了炸药。AMD的ROCm5.6也很猛,能支持90%的PyTorch算子,就像在战场上悄悄搭起了攻城梯。 价格战已经开打了。谷歌给Meta提供的租赁方案算下来,单位算力成本比英伟达的HGX服务器便宜18%。如果再算上光交换技术省下的30%电费,那就更划算了。据行业内部消息,AMD准备在MI400系列上用chiplet设计,目标是把训练成本压到现在方案的60%。 技术路线也开始分化了。谷歌走的是专用化路线,第七代TPU“Ironwood”专门给MoE架构优化指令集;英伟达押宝通用加速,Blackwell架构的GPU要兼顾图形渲染和AI计算;AMD则是双管齐下,把CPU和AI加速器封装在一起。 当Meta的数据中心里同时摆上英伟达的GPU和谷歌的TPU时,这场较量就不再是简单的硬件替换了。这就像特高压技术改变了电力格局一样,AI芯片的赢家很可能是那个能搭起全栈生态大网的公司。而现在看来,谷歌正用TPU编织着这张网。