2025年7月26日,上海 ,谷歌参展WAIC世界人工智能大会 。视觉中国/图
2026年1月初,美国知名半导体与AI研究机构SemiAnalysis披露,人工智能公司Anthropic计划直接采购近一百万颗谷歌最新一代TPU v7系列芯片。相关交易尚未得到谷歌确认,但已引发广泛关注。
长期以来 ,在大模型训练与推理的核心算力市场,英伟达的GPU(图形处理器)几乎是最优选择。凭借其强大的CUDA软件生态和通用计算能力,英伟达得以制霸行业基础设施 。
相比之下 ,谷歌自研的TPU(张量处理器)虽存在多年,却鲜少进入公众视野。
变化发生在过去一年。全球两款顶尖大模型——谷歌的Gemini 3和Anthropic的Claude 4.5 Opus,被爆出大部分训练和推理都依赖于TPU 。苹果 、Meta、Midjourney甚至OpenAI ,也都传出在不同场景下已使用或计划使用TPU的消息。
与此同时,谷歌对TPU的供给方式,也从单纯依附云服务租赁 ,转向更为灵活的商业化路径。TPU与GPU究竟有何不同?它是否正在成为AI算力竞争中的有力变量?
为谷歌而生
TPU的诞生,源于谷歌内部的一场算力危机 。
早在2006年,谷歌就考虑过为人工智能构建专用芯片(ASIC)的可能性。但直到2013年 ,谷歌才真正意识到,未来对AI计算的需求,或将远超当时基础设施所能承载的上限。
那时,谷歌正计划在全球范围内推出语音识别功能 。其首席科学家杰夫·迪恩(Jeffery Dean)曾在采访中介绍 ,团队做过粗略估算,如果数亿用户每天使用3分钟语音识别服务,所需算力将是谷歌全部数据中心算力的两倍。
谷歌团队评估了多种现有方案 ,结论是它们甚至难以满足其产品当下的基础机器学习需求,更无法支持未来增长。于是,谷歌决定设计一种全新的芯片 。
硬件工程师诺曼·乔皮(Norman Jouppi)于2013年加入谷歌 ,成为TPU项目的关键推动者之一。
他后来向媒体回忆,团队曾考虑像微软一样,采用FPGA(可编程芯片)路线。这类芯片可以按需编程以适配不同任务。但在实际测试中 ,它在AI计算上的性能表现并不优于GPU,成本还更高 。最终,团队转向自研专用芯片TPU。
按照谷歌的划分 ,CPU(中央处理器)如同计算机的“通用大脑 ”,处理各类复杂指令;GPU(图形处理器)配合CPU,用于图形处理、图像渲染和复杂的数学计算。
而TPU只专注一件事,高效执行AI所需的大量矩阵运算 。其核心在于一种名为“脉动阵列”的架构。
CPU和GPU的计算方式 ,本质上都是指令驱动型,为了通用性,数据在计算过程中往往需要被反复读取和搬运。
而在TPU里 ,成千上万个乘加单元被紧密排列在一起 。当进行矩阵运算时,数据像“波浪”一样在芯片内部连续流动,每个数值只需读取一次 ,就可以被反复用于大量运算,并支持较低精度的计算。
出于极简主义的设计理念,TPU还舍弃了CPU和GPU中大量复杂的控制结构与机制 ,使芯片结构更简单、面积更小。
这些优势的另一面是局限 。深度研究院院长张孝荣对南方周末记者介绍,TPU不擅长处理动态 、不规则的计算任务,如复杂的科学模拟、图形渲染或模型架构频繁变动的研究阶段。
2015年 ,谷歌在内部部署了首款TPU v1,主要用于AI推理,帮助已训练好的模型更快完成任务。为了尽快投入使用,谷歌选择将这款芯片封装为一张外置加速卡 ,能够直接插入服务器,实现即插即用 。
根据诺曼·乔皮及其团队随后发表的论文,尽管TPU v1在某些应用中的利用率并不高 ,但其平均速度比同时代的英特尔Haswell CPU和英伟达K80 GPU快15—30倍,能效比(TOPS/Watt)高出约30—80倍。
之后,TPU v1被广泛用于谷歌各项业务中 ,包括搜索排序、地图街景和智能回复等。在2016年的谷歌开发者大会上,谷歌首次向外界介绍TPU,并披露AlphaGo也借助TPU ,得以在与韩国围棋名将李世石的对弈中更快思考。
乔皮回忆称,在TPU v1制造阶段,团队已意识到 ,仅提升现有模型运行速度并不够支撑AI发展,训练能力才是制约模型的关键瓶颈 。因此,自2017年推出TPU v2起,谷歌在芯片设计上开始兼顾模型训练与推理 ,并刻意保留一定灵活性。
“我们并不知道2到8年后模型会是什么样子,但可以确定的是,它们仍将建立在张量数学之上。”乔皮表示 。正因如此 ,谷歌选择放弃最后10%—20%的优化空间,以避免芯片因过度专用化而在短时间内迅速过时。
顺势登台
“AI大模型对算力的需求发生了质变。 ”张孝荣分析,TPU近来受到热捧 ,与大模型规模爆炸式增长直接相关,通用GPU(如英伟达)在能效和成本上的瓶颈逐渐显现 。AI算力进入“硬核节能”阶段,TPU成为新选择。
华福证券研报指出 ,进入AI大爆发时代后,低精度运算成为大规模AI训练和推理的标签特征。模型厂商有时愿意牺牲精度以换取大模型训练的计算能力 。这正是TPU的设计初衷。
而当模型规模持续放大,问题不再是一块芯片够不够快 ,而是成千上万块芯片如何在一起工作。
2017年,谷歌推出TPU v2后,便将集群化作为TPU的核心设计方向,并以Pod形态部署数百颗芯片协同工作 ,并在之后引入光互连技术,持续提升集群扩展性 。
到最新一代产品时,此优势被进一步放大。2025年4月 ,谷歌发布第七代TPU,单集群最多支持9216颗芯片互联,规模远超主流GPU体系常见的64或72颗水平。
在张孝荣看来 ,大模型公司选择TPU,核心是权衡“专用效率”与“通用生态 ”。在模型架构稳定 、追求极致训练速度和能效时,TPU的成本效益变得尤为突出 。
据SemiAnalysis测算 ,在谷歌自用口径下,TPUv7相比英伟达GB200的总拥有成本(TCO)低约44%;即便对外租赁,客户使用TPU v7的TCO仍比租用英伟达GB200低约20%。TCO可理解为 ,长期使用整套算力系统所要付出的全部成本。
不过,优势伴随取舍,并非适合所有公司 。张孝荣表示,选择TPU虽能实现算力供应链多元化 ,降低对单一供应商的依赖,但也意味着深度绑定谷歌的云平台和软件生态,需要在灵活性上做出妥协。
这对于中小模型公司可能难以承受 ,但对算力规模巨大的大公司来说,或许是一种可接受的交换。事实上,TPU的存在本身已开始改变算力市场的谈判结构 。
环球网援引外媒消息称 ,2025年6月,OpenAI正在对谷歌TPU进行早期测试。
SemiAnalysis披露,仅凭转向TPU的可能性 ,OpenAI在与英伟达的谈判中便获得了约30%的折扣。
张孝荣也提醒,TPU的成功高度依赖谷歌的“数据-软件-硬件”闭环生态 。其设计源于谷歌自身海量、固定的AI计算需求,并由其TensorFlow/JAX等软件深度优化。脱离这个生态 ,TPU一无所用。
但他同时认为,路径一旦走通,TPU专用架构的思想具有普适性,其他有类似条件的大厂(如亚马逊、微软)可能也会加码跟进自研芯片 。
打破垄断
谷歌TPU的存在感已无法忽视。
2025年11月 ,谷歌发布Gemini 3系列模型,自称迄今为止“最智能的模型”。其性能表现确实在一系列基准测试中超越竞争对手。
英伟达随即通过社交媒体发声,先是对谷歌取得的成绩表示祝贺 ,但强调其仍在持续向谷歌供货 。
英伟达同时表示,自家产品领先行业一代,是目前唯一能够运行所有AI模型 、覆盖所有计算场景的平台。相比ASIC专用芯片 ,其在性能、通用性和可替代性方面具备更大优势。
2018年,谷歌开始向云服务客户开放TPU租赁,但并未直接对外发售硬件 。此后 ,AI绘画工具Midjourney,Anthropic,苹果等先后通过谷歌云成为TPU核心客户。
但情况正在变化。据SemiAnalysis披露 ,过去几个月,谷歌已调动整个技术栈的力量,通过云服务或以供应商身份尝试销售完整的TPU系统 。
2025年10月,Anthropic确认会部署100万颗谷歌TPU。但当时SemiAnalysis披露的交易细节是 ,60万颗通过谷歌云租赁,40万颗直接向TPU合作开发商博通(Broadcom)购买。
而最新传出的情况显示,这批近百万颗TPU v7或由Anthropic直接向博通采购完整的硬件系统 ,部署在Anthropic的自由设施中 。
按此方式,谷歌将通过IP授权、软件服务等获得收益。虽仍未像英伟达等芯片厂商那样直接售卖产品,但客户向博通采购TPU也需获得谷歌许可。目前 ,谷歌持有Anthropic约14%的股份 。
张孝荣判断,此前TPU主要为拉动谷歌云业务。若从“只租不卖 ”转向“直接销售”,则表明谷歌希望将TPU打造为对标英伟达的独立算力产品 ,以扩大生态和市场份额。这也反映了市场对于算力部署方式(云+本地)的多样化需求。
“谷歌TPU打破了英伟达在AI训练市场的垄断,证明了专用路线的可行性 。”张孝荣认为,但这目前只是一种补充 ,英伟达不会被轻易替代。未来市场更可能形成“GPU主攻训练与探索,TPU类芯片主攻专用推理与量产 ”的混合格局。
可以确定的是,TPU已经成为英伟达绕不开的话题 。
2026年1月5日,英伟达CEO黄仁勋在CES(国际消费电子展)上发布了面向AI数据中心的新一代计算平台Vera Rubin ,首批搭载该系统的产品将于2026年下半年上市。
在随后举行的英伟达财务分析师问答会上,花旗集团分析师首个问题便是,如何比较英伟达最新一代芯片Rubin与TPU在推理阶段的性能。
黄仁勋在回应中暗含机锋 。他称英伟达的产品无处不在 ,长期处在被评测状态;相比之下,除非是做TPU的人,否则外界几乎无法对它进行真正的基准测试。
“如果你们手上有可用的TPU基准数据 ,我们也很乐意看一看,”黄仁勋说,结果“(Rubin)会非常有竞争力”。
当地时间2026年1月5日 ,美国内华达州拉斯维加斯,在枫丹白露酒店举行的国际消费电子展(CES)现场,英伟达首席执行官黄仁勋在发表主旨演讲时举起一枚AI芯片 。视觉中国/图
中国样本
在中国杭州 ,一家名为中昊芯英的企业,正试图以纯正的“谷歌血统 ”,复制TPU之路。
公开资料显示,该公司创始人杨龚轶凡曾任职于谷歌TPU团队 ,参与过第2 、3、4代TPU的设计与研发工作。
他曾在采访中表示,英伟达GPU之所以形成垄断,是因为专业芯片仍处设计、量产阶段 ,过程中整个行业应用爆发 。
杨龚轶凡判断,未来GPU或只占据10%—20%的市场,其余算力需求将由新兴AI专用芯片承担。他在谷歌见证了TPU的成功应用 ,并相信TPU将成为AI领域的英特尔X86(长期被视为通用CPU的代名词)。
2018年,杨龚轶凡选择回国创业,2020年 ,中昊芯英落地杭州,专攻TPU研发。2023年,该公司第一代TPU芯片“刹那”实现量产 。
中昊芯英的融资并非一帆风顺。杨龚轶凡回忆 ,公司最早获得的是美元投资人的支持,对方认可其在谷歌的经验及技术理念,这才逐步带动人民币基金跟进投资。
回国后,融资环境一度趋紧 。当时人工智能赛道正遭遇算法瓶颈 ,大模型尚未出现,行业更倾向于通过“做小模型”降低成本,坚持做大算力芯片的路线普遍被认为市场空间有限。转机出现在公司被引入杭州之后。
杨龚轶凡提到 ,在行业普遍观望的阶段,浙江国资选择入场投资,并形成示范效应 ,带动社会资本跟进 。随着2023年大模型浪潮爆发,中昊芯英的融资才逐渐变得顺畅起来。
据其官微,中昊芯英是国内少数实现盈利的AI芯片企业之一 ,2024年营业收入约5.98亿元,归母净利润8590.78万元。基于“刹那”芯片构建的大规模AI计算集群,已在多地政府 、运营商及企业参与的超大规模智算中心中落地 。
2025年7月29日 ,上海举办的2025世界人工智能大会上,中昊芯英展出的国产自研存算一体、专用于AI大模型的芯片。视觉中国/图
2025年下半年,摩尔线程(688795.SH)和沐曦股份(688802.SH)资本化进程加快,并于12月先后上市 ,首日股价分别上涨逾400%和600%。市场对中昊芯英的上市进程关注度亦随之升温 。
中昊芯英的资本运作也早已展开。2025年8月22日,天普股份(605255.SH)公告称收到中昊芯英的收购要约。
天普股份主营橡塑制品的研发、制造与加工,主要为整车及其一级供应商提供橡胶软管和总成产品。截至2025年三季度 ,该公司总资产约8.65亿元,资产负债率低至6.76% 。
此后,天普股份股价一路暴涨 ,2025年公司股价涨幅逾16倍,先后因交易波动情况5次停牌核查。
2025年12月25日,天普股份公告交易完成。中昊芯英及其一致行动人合计持有上市公司约68.29%的股权 ,杨龚轶凡成为上市公司实际控制人 。
天普股份多次声明,收购不会改变上市公司的主营业务,中昊芯英三年内不借壳上市。中昊芯英已启动独立自主IPO相关工作 ,并已进入股改阶段。但市场情绪并未明显降温,股价仍维持高位 。
2026年1月9日,天普股份因交易异常波动公告涉嫌重大遗漏,被证监会立案调查。
1月17日 ,公司在回复上交所问询函时再次强调,将持续推进原有主营业务,中昊芯英的资本证券化路径与上市公司无关 ,未来三年不存在借壳上市安排。
留给中昊芯英的上市时间并不算充裕 。据其与投资方之一科德教育(300192.SZ)在2023年与之达成的协议,若中昊芯英未能在2026年12月31日前完成IPO或被收购,科德教育有权要求其回购所持股份。
南方周末记者 施璇
责编 冯叶
本文来自作者[千云]投稿,不代表视听号立场,如若转载,请注明出处:https://stddy.com/youxi/202601-78215.html
评论列表(4条)
我是视听号的签约作者“千云”!
希望本篇文章《谷歌挑战英伟达:TPU的崛起之路》能对你有所帮助!
本站[视听号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育
本文概览:2025年7月26日,上海,谷歌参展WAIC世界人工智能大会。视觉中国/图2026年1月初,美国知名半导体与AI研究机构SemiAnalysis披露,人工智能公司Anthrop...