AI基础设施与计算缺口:从“泡沫论”转向“结构性短缺”的重估
作者:微信文章核心论断
核心逻辑:当前的算力投入并非基于现有需求的线性外推,而是对“Token作为数字经济能源”这一新范式的战略入场。
核心总结:基础设施建设尚未过热,反而因多模态和智能体需求的爆发,正处于大规模缺口的爆发前夜。
1.需求端:Token的“千瓦时”化与指数级扩张
单位价值重定义:Token是AI时代的“电力单位”。随着单价下降,用户需求不会饱和,而是转向复杂度高出数个数量级的任务(从简单文本到长序列智能体交互、多模态视频及物理传感器流)。
复杂度乘数:实际推理中,由于长上下文(KV Cache)和智能体逻辑链(规划、调用、反思)的存在,单Token的算力需求约为激活参数量的6倍(6N),远超理想实验值。
市场空间(TAM):AI正在将人工时薪($50/h)转化为极低成本的运营支出(OpEx),在成熟阶段,仅消费者端的推理价值空间就达万亿美元量级。
2.供给端:13GW存量的“效率打折”
算力度量衡转换:不再以GPU片数衡量,而以功率(GW)为核心单位。目前全球前沿AI装机仅约13GW,而存量125GW数据中心正面临“加速计算”的全量改造。
级联效率损耗:从单芯片标称性能到集群级实际算力,存在严重的“效率栈”折损。受限于站点功耗分配(PUE/辅助设备)、模型浮点利用率(MFU)及新旧机队组合,实际效率仅为芯片标称值的5-10%。
3.缺口测算:8-50倍的供需错配
消费端推理缺口:即便按最乐观假设,成熟期的消费者推理算力需求也将产生8-17倍的缺口;若考虑保守的系统效率,缺口将达25-50倍。
冰山底座:上述缺口尚未计入模型训练、企业级私有化部署、主权AI以及具身智能(机器人)等更高耗能的领域。
4.产业启示与现实映射
生存权vs.爆发力:对于企业而言,AI资本支出不仅是盈利驱动力,更是数字化生存的“门票”。部分先驱(如AppLovin、C.H.Robinson)已通过AI实现显著的OpEx通缩和毛利扩张。
电力即护城河:算力的物理约束已从芯片转移至电力。早期锁定电力资源和发电设备的头部玩家,实际上建立了极高的资源定价权和竞争壁垒。
具身智能是终局:多模态演进的终点是物理世界的Token化(视频、传感器流)。这一领域产生的Token消耗比文本高出数个数量级,将彻底重塑基础设施的建设规模。
5.地缘算力博弈(中国视角)
代差的持久化:由于在HBM显存、先进封装及高速网络工具链上的系统性滞后,中国面临的算力缺口可能具有长期性。2026年左右可能出现“旧架构出口、新架构封锁”的动态平衡。
在AI时代,怀疑者远多于梦想家,这既具讽刺意味,也令人欣慰。正如Philippe Laffont所言:想象力也是一种技能。
下文构建的需求模型正需要这种技能。如果仅锚定于当前的ChatGPT使用场景(日均提问数有限且以文本为主),当下的资本支出浪潮确实显现出非理性。但这绝非未来的演进方向。
核心发现:即便对硬件效率和利用率做出最乐观的假设,在智能体(Agentic)与多模态普及的成熟阶段,仅消费者端的推理需求就可能产生8-50倍的算力缺口。此项测算尚未计入企业级应用、主权AI、机器人技术或模型训练的需求。
本分析框架基于以下三个核心论断:
1.Token是知识工作的千瓦时(kWh)。随着单价下降,用户不会满足于以更低成本询问重复的问题,而是会提出复杂度呈数量级增长的问题,涵盖工具调用、长短期记忆、视频、音频及传感器数据。
2.全球前沿AI计算的装机容量约为13吉瓦(GW)(部分估算超过20GW)。全球现有的125GW数据中心容量最终将全部转换为加速计算,且后续建设规模将进一步扩张。
3.综合考虑模型浮点利用率(MFU)、电力分配损失和集群新旧组合,集群级的实际效率仅为芯片标称规格的5-10%。
本框架以功率(GW)而非GPU数量为度量单位。黄氏定律(Jensen's Law)带来的效能改进体现为系统效率(R)的提升,但资本支出(CapEx)的逻辑逻辑一致:效率提升要么转化为芯片溢价,要么驱动更大规模的吉瓦级设施建设。无论路径如何,均属于高度资本密集的投入。
当前的资本支出浪潮并非盲目扩张,而是针对一个巨大且企业级投资回报率(ROI)日益显现的总潜在市场(TAM)进行的早期战略布局。
本备忘录附录部分涵盖以下相关课题:
附录A:TPU与GPU之争。FP4为何是必然趋势,以及Rubin架构带来的影响。
附录B:中国的算力缺口。前沿技术1-3年的滞后为何可能演变为永久性差距。
附录C:机器人与世界模型。具身智能(Embodied AI)未来十年的演进逻辑。
需求端:为何算力需求远超预期
多模态的崛起
将AI计算视为Token——即基本工作单位——是准确的思维模型,类比于电力系统中的千瓦时(kWh)。尽管Token单价在下降,但其消耗体积与复杂度正在产生复合增长:
简单文本提示:数百Token
带工具调用的智能体链:数千Token
文本与图像混合输入:数万Token
带音频的短视频:数十万Token
多传感器机器人交互:单次运行达数百万Token
因此,即便累计成本下降90%以上,也不会导致需求饱和,因为查询频率与单次查询的复杂度都在呈指数级增长。
单Token算力需求:2N推导法
对于一个拥有N个激活参数、仅含解码器(Decoder-only)的Transformer模型,推理阶段单Token大约需要2N次浮点运算(FLOPs,指前向传递;训练则需6N)。该结论源于Kaplan等人2020年关于规模定律(Scaling Laws)的经典论文。该模型描述的是理想环境:短提示语、单次传递、完美的批处理。
然而现实应用场景更为复杂。用户通常拥有长历史上下文(涉及海量KV Cache查找),智能体极少能通过单次生成给出最终结果;单一动作往往需要经过规划、工具调用、反思及最终答复的链式反应。因此,本模型采用3倍乘数来修正此类工程开销:
单Token算力需求=2N×3=6N
以150B激活参数模型为例:单Token消耗约为0.9TFLOPs。
消费者推理需求场景模拟
在成熟的智能体与多模态应用环境下模拟消费者推理需求。假设用户基数为50亿,模型激活参数150B,单Token消耗0.9TFLOPs:
日均Token消耗/用户
全球日均Token总量
全球日均算力需求(EFLOPs)
0.8M
4.0E15
3.6B
1.2M
6.0E15
5.4B
1.6M
8.0E15
7.2B
仅消费者推理一项,每日就需3.5-7.5十亿EFLOPs的算力,这尚未计入企业、主权国家、机器人或模型训练的需求。
从用户视角看潜在市场规模(TAM)
一个简化的分析框架:假设AI每天为用户创造10美元价值,平台以50%的增量毛利率捕获其中20%作为收入。这意味着单个用户年贡献收入约730美元,毛利约365美元。每1亿用户对应730亿美元收入和365亿美元毛利。
在40亿用户规模下(类比Meta旗下产品线),毛利空间将达1.45万亿美元量级。核心逻辑在于:这并非40亿人付费使用聊天机器人,而是涵盖了直接订阅、商家转化率提升、预订佣金、支付手续费,以及最重要的——当智能体以极低成本完成原本时薪50美元的人工工作时所产生的运营支出(OpEx)通缩效应。
谷歌内部的压力测试
谷歌AI基础设施主管告知员工,他们需要每六个月将服务容量翻倍,并在4-5年内实现约1000倍的扩张。这是多模态演进在工程端的真实映射:从文本到图像,再到视频、音频、传感器流,直至世界模型与机器人。每一步演进都在成倍增加单个工作单元的Token消耗,并因延迟约束降低了批处理效率。因此,服务能力的扩张速度必须远超查询次数的增长速度。
供给端:13GW的起点
面对上述需求,现有的供给能力仍处于起步阶段。根据黄仁勋的估算,目前全球已部署的前沿AI计算容量约为13GW(部分估算超过20GW)。无论如何,全球现有125GW的数据中心容量最终都将转向加速计算,且后续建设进程将持续加速。
什么是加速计算?
加速计算指由GPU(或TPU)处理AI任务,而非由传统CPU服务器处理常规企业负载。常被引用的125GW全球容量涵盖了所有数据中心,其中大部分为陈旧的CPU基础设施。随着AI负载占据主导,整个存量基数将逐步转化为加速计算。关键在于:目前已部署的前沿GPU/TPU容量究竟有多少?
装机量校验:13GW测算逻辑
根据NVIDIA的数据中心营收,结合其经验法则进行反推:
NVIDIA数据中心营收(2024财年Q1至2026财年Q3):约2940亿美元。
经验法则:每1GW前沿AI容量对应约250亿美元的NVIDIA数据中心营收。
份额假设:在此区间内,NVIDIA占据加速器市场约90%的份额。
计算过程:将营收调整至100%份额即3270亿美元。除以每GW250亿美元成本,得出全球已装机的前沿AI容量约为13GW。
乘法效应下的效率栈
NVIDIA公布的规格(如GB200在FP8下约为8-10TF/s/W)仅代表单芯片效率。在实际集群部署中,效率受到多重因素的复合影响:
1.站点功率分配:站点总功率中仅有50-70%能真正到达加速器。其余功耗分布在CPU、网卡(NIC)、交换机、光模块、固态硬盘(SSD)、电源、冷却系统及PUE开销上。
2.MFU现实:根据Databricks/Mosaic的大规模基准测试,40-60%的MFU被视为优秀水平。即便在理想的GEMM测试中,受限于动态频率缩放(DVFS)、功率上限等因素,Hopper/Blackwell架构也仅能达到峰值性能的70-80%。
3.集群组合:由于无法在首日实现全量Blackwell化,现有的装机基数是各代产品的混合体。
级联这些因素后,集群级的实际效率通常落在0.5-1.0TF/s/W区间,仅为芯片标称FP8数值的5-10%。
供给公式
日均可用算力(EFLOPs)=R×P(GW)×U×86,400×10³
其中R为系统级效率(TF/s/W),U为生产环境利用率。以Rubin/TPUv8级别硬件为例:
系统效率R
利用率U
日均供给(EF/10GW)
0.5
0.33
0.14B
0.5
0.50
0.22B
1.0
0.33
0.29B
1.0
0.50
0.43B
每投入10GW下一代基础设施,可获得0.14-0.43十亿EFLOPs的日均有效算力。换算可知:每10亿EFLOPs有效容量需对应23-71兆瓦(MW)的电力支持。
缺口测算
连接供需两端:将消费者推理需求(3.6-7.2BEFLOPs/天)与供给能力(每10GW供给0.14-0.43BEFLOPs/天)进行对比:
日均Token/用户
需求(EF/天)
算力缺口倍数
0.8M
3.6B
8倍
1.2M
5.4B
12-13倍
1.6M
7.2B
17倍
上述测算基于最乐观的供给假设(R=1.0,U=0.5)。若采用保守假设(R=0.5,U=0.33),算力短缺将扩大至25-50倍。
消费者端仅是冰山一角
上述计算仅针对消费者推理。同样的加速器容量还必须覆盖:
前沿模型训练(其算力消耗显著高于推理)
企业级/垂直行业推理(内部辅助驾驶Copilot、数据分析、自动化流程)
主权/国防集群(国家级AI战略能力建设)
推荐与广告系统(Recsys/Ads)
机器人/自动驾驶/具身智能(物理世界应用)
因此,即便到2026年能满足消费者端50-70%的需求,也不意味着基础设施建设已经完成,而仅仅是填补了初步需求,训练及其他垂直领域仍存在巨大缺口。
成效初显
上述算力缺口测算具备扎实的现实基础。AI已经开始显著改变部分公司的单位经济效益,这并非假设,也不同于所谓的元宇宙概念。
C.H. Robinson (CHRW)
在货运市场低迷期,该公司通过投入代理式供应链提升了业绩预期。利用AI自动化处理报价、调度和货物跟踪。结果:在业务量持平或增长的情况下,实现了运营支出和人员配置的大幅缩减。这是运营支出通缩配合财务杠杆的典型案例。
AppLovin (APP)
其转型完全依托于Axon/Axon 2这一AI广告引擎。谷歌的案例研究显示,其关键模型负载性能提升了4倍,性价比优化了约40%。若无此引擎,APP可能仅是一个普通广告网络,而现在其资产属性已进化为纯正的AI基础设施。
Tesla (TSLA)
FSD是已交付的真实产品。特斯拉在2023年重构了自动驾驶技术栈,且尚未大规模部署Blackwell级别的训练硬件,这意味着未来仍有显著提升空间。它展示了大规模端到端感知与控制能力,以及硬件外壳下的软件式高毛利属性。FSD的感知系统也在直接赋能Optimus机器人项目。
Palantir (PLTR)
AIP平台使Palantir实现了业务增速的重新提速。通过向客户派遣现场工程师,将AI深度嵌入具体工作流。证据表明,当避开DIY(自行研发)陷阱后,试点项目能够高效转化为大规模部署。
Databricks
目前年度经常性收入(ARR)约40亿美元,同比增长超过50%,AI相关收入占比极高。其核心价值在于为AI准备非结构化数据。对于大型企业,数据清洗、集中和建模通常需要12-24个月。这种数据就绪工作是目前资本支出的核心驱动力。
调研证据:沃顿商学院 vs MIT
虽然有观点指出许多生成式AI项目停留在试点阶段,但2025年沃顿商学院GBK报告显示:
2023年仅有不足40%的决策者每周使用生成式AI;到2025年,该比例已超过80%。
约46%的用户每天使用。
近四分之三的企业已实现正向ROI;约80%预计随着部署扩展将获得强劲回报。
核心结论:DIY试点容易停滞,但获得专业支持的部署已显现出显著威力。
值得重视的看空观点
理性的看空逻辑应基于以下两点:
AI带来的影子产出缺口
AI可能引发一场巨大的隐性供给冲击:消费者通过节省时间成本获得的剩余价值,以及通过运营支出通缩获得的更廉价服务。这些价值可能无法直接体现在GDP或每股收益(EPS)中,从而引发更深层次的索洛悖论(Solow Paradox)。
ROI表现为生存权而非EPS爆发
对于许多公司,AI资本支出的回报可能仅仅是维持竞争地位。由于无法观察到不投入AI会产生的负面后果,这一争论将持续存在。
因此,理性的看空逻辑是:AI创造的剩余价值巨大,但其中大部分可能被竞争摊薄,或体现为通缩效应,而非普遍性的EPS爆发。对于核心护城河公司,股东捕获的价值依然显著,但可能不如技术爆发所暗示的那样激进。
启示
AI的发展趋势已经确立。核心问题在于基础设施追赶需求曲线的速度,以及谁能在这一过程中捕获剩余价值。
功率限制:阻碍与护城河的统一
电力供应紧缺既是约束,也是一种护城河:
稀缺的电力支撑了计算资源的定价,降低了商品化风险。
价值向能够早期锁定电力资源和发电设备的头部玩家集中。
它促使政府与独立电力生产商(IPP)达成深度合作,降低了优质项目的加权平均资本成本(WACC)。
折旧:会计处理与经济现实的背离
经济寿命不等同于会计寿命。即便GPU按3年寿命计提折旧,也不会改变机架级投资的现金内部收益率(IRR)或算力资源被充分利用的现实。Hopper架构在中国市场的二级价值强化了这一点:活跃的次级市场支撑了残值,这对于融资和评估真实经济寿命至关重要。
关注指标
Token流速:用户多模态使用习惯是否如期养成?
MFU改进:推理效率的提升能否在需求爆炸前缩小算力缺口?
电力交付:承诺的吉瓦级容量多快能真正上线?
企业级转化:试点转产率是否随着部署支持的完善而提升?
附录
附录A:TPU vs. GPU
针对“TPU正赢得推理市场”这一观点,存在两个主要的质疑领域:供给现实与推理演进趋势。
FP8与FP4入门指南
FP8(8位浮点):目前高效推理的标准。相比FP16,其内存和算力需求减半。目前大多数基准测试均在此维度展开。
FP4(4位浮点):下一个前沿领域。单数字仅需4位表示,能效比(Token-per-watt)较FP8又有约2倍提升。随着量化技术的改进,多数推理任务的精度损失已降至可控范围。
供给约束
谷歌每半年内部算力翻倍。他们能否同时锁定足够的HBM和CoWoS产能,从而成为大规模的第三方TPU供应商?先进封装与显存瓶颈对全行业均构成限制。
推理路线图
Blackwell架构通过FP4能力增强了竞争位势。鉴于能效比提升,4位推理可能承载未来大部分负载。Rubin架构将进一步推高FP4效率。此外,GPU在可编程性、CUDA生态及多云兼容性方面仍具护城河。
附录B:中国的算力缺口
将昇腾(Ascend)集群与单台Blackwell机架进行对比,往往低估了系统级的缺口,包括低延迟互联、HBM带宽、软件工具链及生态系统。在处理大规模真实负载时,纸面上的浮点运算能力并不能完全代表竞争力。
西方在EUV光刻机、先进封装、HBM显存及高端网络环节的领先,使得中国面临的算力缺口具有长期性。
Hopper架构出口:2026年的博弈
2026年可能出现一种动态:美国允许Hopper级别GPU出口,同时严格限制Blackwell及更高架构。这将:
提升旧款GPU的残值,辅助美国本土新架构建设的融资。
为中国提供实际算力,但维持1-2个代差的领先地位。
在经济层面支撑美国建设加速器的逻辑,在政治层面增加筹码。
附录C:机器人与世界模型
多模态演进的自然终点是具身智能。聊天机器人仅是阶段性产品,最终目标是能在数字与物理世界跨域操作的智能系统。
通用机器人(如宇树Unitree)和专用平台正在走向商用转折点。未来十年,家用与工业级机器人的大规模普及将成为现实。
这正是多模态Token价值爆发的领域:视频帧、音频和传感器流产生的Token量比文本高出数个数量级。单次合成训练会话可轻易消耗数十亿Token。
在软件端,Sora类工具不仅是内容创作工具,更是通向机器人、自动驾驶及科学研究高保真模拟器的必经之路。
----------
参考文章:Dratch, M. (2025, December 21). AI infrastructure and the compute gap. https://drive.google.com/file/d/1n8WcKsQtYN8K7vvUMbpdKpyatJeAg03P/view
更多交流,可加本人微信
(请附中文姓名/公司/关注领域)
页:
[1]