爱游戏体育在线:
【新智元导读】当谷歌不再只满足于「TPU自己用」,TPU摇身一变成了英伟达王座下最锋利的一把刀!CUDA护城河还能守住吗?读完这篇SemiAnalysis的分析,你或许会第一次从「算力账本」的视角,看懂谷歌暗藏的杀招。
资本市场给出了明确的反应,谷歌股价的上涨,也让一个话题再次被拿到牌桌上讨论:
尤其是TPUv7更是人们讨论关注的焦点,这款专门为AI设计的芯片能否打破英伟达多年来的GPU形成的垄断?
众所周知,SemiAnalysis是一家在科技界,尤其是半导体和AI领域极具影响力的精品研究与咨询公司。
它以硬核、深度的数据分析著称,不同于泛泛而谈的科技媒体,它更像是一个服务于华尔街投资者、芯片巨头和AI从业者的「行业智库」。
刚刚,他们最新的文章给出一个明确的结论:TPUv7首次向英伟达发起了冲锋。
这篇文章深入剖析了谷歌TPUv7如何向英伟达的AI硬件霸权发起实质性挑战。核心转折点在于:
谷歌打破长期以来的内部自用惯例,开始向Anthropic等外部客户大规模出售TPU硬件及算力,后者已部署超过1GW的TPU集群。
尽管在单芯片理论参数上TPU未必碾压英伟达,但谷歌凭借卓越的系统级工程(如ICI互联和光路交换)实现了极高的实际模型算力利用率(MFU),且总体拥有成本(TCO)比英伟达GB200系统低约30%-40%。
谷歌正通过支持PyTorch原生环境和vLLM等开源生态,积极修补软件短板,试图从根基上瓦解CUDA的护城河。
目前,世界上最顶尖的两个模型——Anthropic的Claude 4.5 Opus,以及谷歌的Gemini 3,它们绝大部分训练和推理基础设施,都运行在谷歌的TPU和亚马逊的Trainium上。
其中的Gemini 3,以及其所有早期版本的Gemini,则是完全在TPU上进行训练的。
但一直到2013年,谷歌才开始为TPU芯片奠定基础,并在2016年将其投入生产。
同一年,亚马逊也启动了Nitro计划,该计划专注于开发芯片以优化通用CPU计算和存储。
英伟达还专门为此发布了一条官方推文,恭喜谷歌在AI领域的进展,同时不忘强调自己依然遥遥领先。
在推文中,英伟达强调自己仍在持续向谷歌供应硬件,并表明了自己依然领先行业一代,是唯一能够运行所有AI模型、并能在各种计算场景中使用的平台。
同时,强调GPU比专用芯片(ASIC)在性能、通用性和可替代性上更强,这句话明显是对谷歌TPU、AWS Trainium等专用芯片的回应。
在过去的几个月里,谷歌DeepMind的Gemini 3、谷歌云以及TPU综合体,赚足了眼球,也将谷歌母公司Alphabet的市值推高至接近4万亿美元。
TPU产量大幅上调,Anthropic、Meta、SSI、xAI、OAI等TPU的客户名单正在逐步扩大,这些推动了谷歌和TPU供应链的大幅重新评级,无疑也将压制以英伟达GPU为重点的供应链。
除了面对TPU的压力,英伟达还面临着通过「循环经济」造成AI泡沫的质疑,许多质疑者认为英伟达通过资助烧钱的AI初创公司,本质上是将钱从一个口袋转移到另一个口袋。
英伟达旨在通过股权投资而非降价来保护其在基础实验室的主导地位——降价将拉低毛利率并引发投资者普遍恐慌。
虽然OpenAI目前尚未部署TPU,但仅凭「转向TPU」这一可能,就已在其英伟达集群成本上节省约30%。
简单来说,OpenAI并没有真的把谷歌的TPU芯片服务器里跑任务,而是把「我随时有可能改用TPU」作为一个巨大的谈判筹码,迫使英伟达为了留住这个大客户,变相给予了巨额优惠。
TPU堆栈长期以来一直与英伟达AI硬件相抗衡,但它主要是为了支持谷歌的内部工作负载。
即使在2018年向谷歌云平台客户提供TPU之后,谷歌仍未将其完全商业化。
在过去的几个月里,谷歌已经动员了整个堆栈的努力,通过谷歌云平台或作为商用供应商销售完整的TPU系统,开启了TPU大规模商用的步伐。
与此同时,谷歌的顶级客户Anthropic也在继续推动摆脱对英伟达单一依赖,两者在采用TPU上一拍即合。
TPUv7 Ironwood是一个优秀系统内的强大芯片,即使芯片在参数上落后于英伟达,谷歌的系统级工程也使得TPU堆栈在性能和成本效率方面都能与英伟达相匹配。
这种组合为Anthropic提供了引人注目的性能和TCO,因此赢得了其大规模的订单。
与英伟达通过GB200扩展其GPU生态一样,谷歌自2017年TPUv2以来,也一直在机架内和跨机架扩展TPU。
自2024年5月GPT-4o以来,OpenAI的顶尖研究人员还没完成大范围的使用在新前沿模型的成功全规模预训练运行,而TPU平台则通过了这一测试。
对于谷歌来说,在最具挑战性的硬件问题之一中悄悄挤入并建立性能领头羊,确实是一个令人印象非常深刻的壮举。
虽然谷歌一直在推动系统和网络设计的边界,但从一开始,谷歌在芯片方面的设计理念相对于英伟达就更为保守。
历史上,TPU的峰值理论FLOPs明显较少,内存规格也低于相应的英伟达GPU。
首先,谷歌对其基础设施的「RAS」(可靠性、可用性和可服务性)非常重视。
第二个原因,直到2023年,谷歌的主要AI工作负载是为其核心搜索和广告资产提供动力的推荐系统模型。
与大模型工作负载相比,RecSys工作负载的算术强度要低得多,这在某种程度上预示着相对于传输的每一位数据,需要的FLOPs更少。
商用GPU提供商希望为其芯片营销尽可能好的性能规格,这激励他们将营销的FLOPs提高到尽可能高的数字。
TPUv7 Ironwood是下一次迭代,谷歌在FLOPs、内存和带宽方面几乎完全缩小了与相应英伟达旗舰GPU的差距,尽管全面上市比Blackwell晚了1年。
理论上的绝对性能是一回事,但重要的是单位总拥有成本(TCO)的实际性能。
虽然谷歌通过Broadcom采购TPU并支付高额利润,但这明显低于英伟达不仅在他们销售的GPU上,而且在总系统(包括CPU、交换机、NIC、系统内存、布线和连接器)上赚取的利润。
从谷歌的角度来看,每颗芯片在全规模部署下的TCO比英伟达GB200服务器低 44%。
英伟达的优势源于CUDA护城河和开箱即用的广泛开源库,帮助工作负载高效运行,实现高FLOPs和内存带宽。
相比较之下,TPU软件堆栈开箱即用的性能较弱,然而Anthropic拥有强大的工程资源和前谷歌编译器专家,他们既了解TPU堆栈,也很好地理解自己的模型架构。
他们可以投资自定义内核以驱动高TPU效率,这使他们可以达到比采用其他商用GPU更高的MFU(模型FLOPs利用率)和更好的每PFLOP成本性能($/PFLOP)。
只面向内部的另一个优势是TPU团队很看重内部功能请求和优化内部工作负载。
谷歌此后修改了针对外部客户的软件战略,并已经对其TPU团队的KPI以及他们如何为AI/MLECO做出贡献做出了重大改变。
从5月开始,创建了「tpu-inference」仓库,这是官方的vLLMTPU统一后端。
谷歌在软件战略方面仍然处理不当的一个地方是,他们的XLA图编译器、网络库和TPU运行时仍然没有开源,也没有很好的文档记录。
这让从高级用户到普通用户的各种用户感到沮丧,因为他们没办法调试代码出了什么问题。
就像PyTorch或Linux开源迅速增加了采用率一样,为了加速用户的采用,谷歌或许应该将其开源,用户采用率的增加将超过他们公开和免费提供的所有软件IP。
如果想要了解更深入的技术细节,比如谷歌独有的ICI光互连技术到底有哪些优势,可以阅读原文: