谷歌tpu成科技版“三国杀”，谁能赢？

其实你可能没想过，AI芯片这块市场已经不只是英伟达一家独大了。最近Meta花了几十亿美元去租谷歌的TPU，这事儿让竞争一下子变成了科技版的“三国杀”。现在战局已经很清楚了，谷歌TPU靠着它那套光交换网络和对PyTorch的支持开始进攻，英伟达那号称铜墙铁壁的CUDA也遇到了十多年来最大的挑战，AMD的MI300则在旁边虎视眈眈。到底谁能赢，可能得看谁能把从芯片设计到应用开发的整套生态系统建好。在那个全是计算机做体力活儿的“举重比赛”里，英伟达的H100浮点运算能力最强，拿到了19.5TFLOPS。不过谷歌最新出的TPUv4更厉害，BF16的算力直接飙到了275TFLOPS，这可是专门为矩阵乘法优化过的架构。用它来跑特定的活儿，效率能提高40%。AMD那边不走寻常路，MI300X的HBM3内存容量达到了192GB，比H100多了快1.5倍，特别适合那种超大的模型推理。通信速度方面就像修高铁一样，谁的速度快谁就占优势。谷歌的光交换网络让芯片之间的延迟不到2微秒，这时间短得跟眨眼差不多。英伟达的NVLink4.0虽然带宽有900GB/s，但因为要用专门的线缆，就像在数字世界里修了收费公路一样。谷歌搞“TorchTPU”其实就是想卖“通行证”，让开发者在TPU上写PyTorch代码特别顺手，把迁移成本降下来。Meta本身是PyTorch的开发者代表，他们内部测试发现，用TPU去训练LLaMA3模型的时候，吞吐量比用同样规模的GPU集群高了27%。英伟达的CUDA现在也不好过了。华尔街分析师说，谷歌把部分编译器工具开源了，这就像是在CUDA城堡底下埋了炸药。AMD的ROCm5.6也很猛，能支持90%的PyTorch算子，就像在战场上悄悄搭起了攻城梯。价格战已经开打了。谷歌给Meta提供的租赁方案算下来，单位算力成本比英伟达的HGX服务器便宜18%。如果再算上光交换技术省下的30%电费，那就更划算了。据行业内部消息，AMD准备在MI400系列上用chiplet设计，目标是把训练成本压到现在方案的60%。技术路线也开始分化了。谷歌走的是专用化路线，第七代TPU“Ironwood”专门给MoE架构优化指令集；英伟达押宝通用加速，Blackwell架构的GPU要兼顾图形渲染和AI计算；AMD则是双管齐下，把CPU和AI加速器封装在一起。当Meta的数据中心里同时摆上英伟达的GPU和谷歌的TPU时，这场较量就不再是简单的硬件替换了。这就像特高压技术改变了电力格局一样，AI芯片的赢家很可能是那个能搭起全栈生态大网的公司。而现在看来，谷歌正用TPU编织着这张网。