多客科技 发表于 2026-1-2 03:05

AI基础设施与计算缺口:从“泡沫论”转向“结构性短缺”的重估

作者:微信文章
核心论断

核心逻辑:当前的算力投入并非基于现有需求的线性外推,而是对“Token作为数字经济能源”这一新范式的战略入场。

核心总结:基础设施建设尚未过热,反而因多模态和智能体需求的爆发,正处于大规模缺口的爆发前夜。

1.需求端:Token的“千瓦时”化与指数级扩张

单位价值重定义:Token是AI时代的“电力单位”。随着单价下降,用户需求不会饱和,而是转向复杂度高出数个数量级的任务(从简单文本到长序列智能体交互、多模态视频及物理传感器流)。

复杂度乘数:实际推理中,由于长上下文(KV Cache)和智能体逻辑链(规划、调用、反思)的存在,单Token的算力需求约为激活参数量的6倍(6N),远超理想实验值。

市场空间(TAM):AI正在将人工时薪($50/h)转化为极低成本的运营支出(OpEx),在成熟阶段,仅消费者端的推理价值空间就达万亿美元量级。

2.供给端:13GW存量的“效率打折”

算力度量衡转换:不再以GPU片数衡量,而以功率(GW)为核心单位。目前全球前沿AI装机仅约13GW,而存量125GW数据中心正面临“加速计算”的全量改造。

级联效率损耗:从单芯片标称性能到集群级实际算力,存在严重的“效率栈”折损。受限于站点功耗分配(PUE/辅助设备)、模型浮点利用率(MFU)及新旧机队组合,实际效率仅为芯片标称值的5-10%。

3.缺口测算:8-50倍的供需错配

消费端推理缺口:即便按最乐观假设,成熟期的消费者推理算力需求也将产生8-17倍的缺口;若考虑保守的系统效率,缺口将达25-50倍。

冰山底座:上述缺口尚未计入模型训练、企业级私有化部署、主权AI以及具身智能(机器人)等更高耗能的领域。

4.产业启示与现实映射

生存权vs.爆发力:对于企业而言,AI资本支出不仅是盈利驱动力,更是数字化生存的“门票”。部分先驱(如AppLovin、C.H.Robinson)已通过AI实现显著的OpEx通缩和毛利扩张。

电力即护城河:算力的物理约束已从芯片转移至电力。早期锁定电力资源和发电设备的头部玩家,实际上建立了极高的资源定价权和竞争壁垒。

具身智能是终局:多模态演进的终点是物理世界的Token化(视频、传感器流)。这一领域产生的Token消耗比文本高出数个数量级,将彻底重塑基础设施的建设规模。

5.地缘算力博弈(中国视角)

代差的持久化:由于在HBM显存、先进封装及高速网络工具链上的系统性滞后,中国面临的算力缺口可能具有长期性。2026年左右可能出现“旧架构出口、新架构封锁”的动态平衡。



在AI时代,怀疑者远多于梦想家,这既具讽刺意味,也令人欣慰。正如Philippe Laffont所言:想象力也是一种技能。

下文构建的需求模型正需要这种技能。如果仅锚定于当前的ChatGPT使用场景(日均提问数有限且以文本为主),当下的资本支出浪潮确实显现出非理性。但这绝非未来的演进方向。

核心发现:即便对硬件效率和利用率做出最乐观的假设,在智能体(Agentic)与多模态普及的成熟阶段,仅消费者端的推理需求就可能产生8-50倍的算力缺口。此项测算尚未计入企业级应用、主权AI、机器人技术或模型训练的需求。

本分析框架基于以下三个核心论断:

1.Token是知识工作的千瓦时(kWh)。随着单价下降,用户不会满足于以更低成本询问重复的问题,而是会提出复杂度呈数量级增长的问题,涵盖工具调用、长短期记忆、视频、音频及传感器数据。

2.全球前沿AI计算的装机容量约为13吉瓦(GW)(部分估算超过20GW)。全球现有的125GW数据中心容量最终将全部转换为加速计算,且后续建设规模将进一步扩张。

3.综合考虑模型浮点利用率(MFU)、电力分配损失和集群新旧组合,集群级的实际效率仅为芯片标称规格的5-10%。

本框架以功率(GW)而非GPU数量为度量单位。黄氏定律(Jensen's Law)带来的效能改进体现为系统效率(R)的提升,但资本支出(CapEx)的逻辑逻辑一致:效率提升要么转化为芯片溢价,要么驱动更大规模的吉瓦级设施建设。无论路径如何,均属于高度资本密集的投入。

当前的资本支出浪潮并非盲目扩张,而是针对一个巨大且企业级投资回报率(ROI)日益显现的总潜在市场(TAM)进行的早期战略布局。

本备忘录附录部分涵盖以下相关课题:

附录A:TPU与GPU之争。FP4为何是必然趋势,以及Rubin架构带来的影响。

附录B:中国的算力缺口。前沿技术1-3年的滞后为何可能演变为永久性差距。

附录C:机器人与世界模型。具身智能(Embodied AI)未来十年的演进逻辑。

需求端:为何算力需求远超预期

多模态的崛起

将AI计算视为Token——即基本工作单位——是准确的思维模型,类比于电力系统中的千瓦时(kWh)。尽管Token单价在下降,但其消耗体积与复杂度正在产生复合增长:

简单文本提示:数百Token

带工具调用的智能体链:数千Token

文本与图像混合输入:数万Token

带音频的短视频:数十万Token

多传感器机器人交互:单次运行达数百万Token

因此,即便累计成本下降90%以上,也不会导致需求饱和,因为查询频率与单次查询的复杂度都在呈指数级增长。

单Token算力需求:2N推导法

对于一个拥有N个激活参数、仅含解码器(Decoder-only)的Transformer模型,推理阶段单Token大约需要2N次浮点运算(FLOPs,指前向传递;训练则需6N)。该结论源于Kaplan等人2020年关于规模定律(Scaling Laws)的经典论文。该模型描述的是理想环境:短提示语、单次传递、完美的批处理。

然而现实应用场景更为复杂。用户通常拥有长历史上下文(涉及海量KV Cache查找),智能体极少能通过单次生成给出最终结果;单一动作往往需要经过规划、工具调用、反思及最终答复的链式反应。因此,本模型采用3倍乘数来修正此类工程开销:

单Token算力需求=2N×3=6N

以150B激活参数模型为例:单Token消耗约为0.9TFLOPs。

消费者推理需求场景模拟

在成熟的智能体与多模态应用环境下模拟消费者推理需求。假设用户基数为50亿,模型激活参数150B,单Token消耗0.9TFLOPs:

日均Token消耗/用户

全球日均Token总量

全球日均算力需求(EFLOPs)

0.8M

4.0E15

3.6B

1.2M

6.0E15

5.4B

1.6M

8.0E15

7.2B

仅消费者推理一项,每日就需3.5-7.5十亿EFLOPs的算力,这尚未计入企业、主权国家、机器人或模型训练的需求。

从用户视角看潜在市场规模(TAM)

一个简化的分析框架:假设AI每天为用户创造10美元价值,平台以50%的增量毛利率捕获其中20%作为收入。这意味着单个用户年贡献收入约730美元,毛利约365美元。每1亿用户对应730亿美元收入和365亿美元毛利。

在40亿用户规模下(类比Meta旗下产品线),毛利空间将达1.45万亿美元量级。核心逻辑在于:这并非40亿人付费使用聊天机器人,而是涵盖了直接订阅、商家转化率提升、预订佣金、支付手续费,以及最重要的——当智能体以极低成本完成原本时薪50美元的人工工作时所产生的运营支出(OpEx)通缩效应。

谷歌内部的压力测试

谷歌AI基础设施主管告知员工,他们需要每六个月将服务容量翻倍,并在4-5年内实现约1000倍的扩张。这是多模态演进在工程端的真实映射:从文本到图像,再到视频、音频、传感器流,直至世界模型与机器人。每一步演进都在成倍增加单个工作单元的Token消耗,并因延迟约束降低了批处理效率。因此,服务能力的扩张速度必须远超查询次数的增长速度。

供给端:13GW的起点

面对上述需求,现有的供给能力仍处于起步阶段。根据黄仁勋的估算,目前全球已部署的前沿AI计算容量约为13GW(部分估算超过20GW)。无论如何,全球现有125GW的数据中心容量最终都将转向加速计算,且后续建设进程将持续加速。

什么是加速计算?

加速计算指由GPU(或TPU)处理AI任务,而非由传统CPU服务器处理常规企业负载。常被引用的125GW全球容量涵盖了所有数据中心,其中大部分为陈旧的CPU基础设施。随着AI负载占据主导,整个存量基数将逐步转化为加速计算。关键在于:目前已部署的前沿GPU/TPU容量究竟有多少?

装机量校验:13GW测算逻辑

根据NVIDIA的数据中心营收,结合其经验法则进行反推:

NVIDIA数据中心营收(2024财年Q1至2026财年Q3):约2940亿美元。

经验法则:每1GW前沿AI容量对应约250亿美元的NVIDIA数据中心营收。

份额假设:在此区间内,NVIDIA占据加速器市场约90%的份额。

计算过程:将营收调整至100%份额即3270亿美元。除以每GW250亿美元成本,得出全球已装机的前沿AI容量约为13GW。

乘法效应下的效率栈

NVIDIA公布的规格(如GB200在FP8下约为8-10TF/s/W)仅代表单芯片效率。在实际集群部署中,效率受到多重因素的复合影响:

1.站点功率分配:站点总功率中仅有50-70%能真正到达加速器。其余功耗分布在CPU、网卡(NIC)、交换机、光模块、固态硬盘(SSD)、电源、冷却系统及PUE开销上。

2.MFU现实:根据Databricks/Mosaic的大规模基准测试,40-60%的MFU被视为优秀水平。即便在理想的GEMM测试中,受限于动态频率缩放(DVFS)、功率上限等因素,Hopper/Blackwell架构也仅能达到峰值性能的70-80%。

3.集群组合:由于无法在首日实现全量Blackwell化,现有的装机基数是各代产品的混合体。

级联这些因素后,集群级的实际效率通常落在0.5-1.0TF/s/W区间,仅为芯片标称FP8数值的5-10%。

供给公式

日均可用算力(EFLOPs)=R×P(GW)×U×86,400×10³

其中R为系统级效率(TF/s/W),U为生产环境利用率。以Rubin/TPUv8级别硬件为例:

系统效率R

利用率U

日均供给(EF/10GW)

0.5

0.33

0.14B

0.5

0.50

0.22B

1.0

0.33

0.29B

1.0

0.50

0.43B

每投入10GW下一代基础设施,可获得0.14-0.43十亿EFLOPs的日均有效算力。换算可知:每10亿EFLOPs有效容量需对应23-71兆瓦(MW)的电力支持。

缺口测算

连接供需两端:将消费者推理需求(3.6-7.2BEFLOPs/天)与供给能力(每10GW供给0.14-0.43BEFLOPs/天)进行对比:

日均Token/用户

需求(EF/天)

算力缺口倍数

0.8M

3.6B

8倍

1.2M

5.4B

12-13倍

1.6M

7.2B

17倍

上述测算基于最乐观的供给假设(R=1.0,U=0.5)。若采用保守假设(R=0.5,U=0.33),算力短缺将扩大至25-50倍。

消费者端仅是冰山一角

上述计算仅针对消费者推理。同样的加速器容量还必须覆盖:

前沿模型训练(其算力消耗显著高于推理)

企业级/垂直行业推理(内部辅助驾驶Copilot、数据分析、自动化流程)

主权/国防集群(国家级AI战略能力建设)

推荐与广告系统(Recsys/Ads)

机器人/自动驾驶/具身智能(物理世界应用)

因此,即便到2026年能满足消费者端50-70%的需求,也不意味着基础设施建设已经完成,而仅仅是填补了初步需求,训练及其他垂直领域仍存在巨大缺口。

成效初显

上述算力缺口测算具备扎实的现实基础。AI已经开始显著改变部分公司的单位经济效益,这并非假设,也不同于所谓的元宇宙概念。

C.H. Robinson (CHRW)

在货运市场低迷期,该公司通过投入代理式供应链提升了业绩预期。利用AI自动化处理报价、调度和货物跟踪。结果:在业务量持平或增长的情况下,实现了运营支出和人员配置的大幅缩减。这是运营支出通缩配合财务杠杆的典型案例。

AppLovin (APP)

其转型完全依托于Axon/Axon 2这一AI广告引擎。谷歌的案例研究显示,其关键模型负载性能提升了4倍,性价比优化了约40%。若无此引擎,APP可能仅是一个普通广告网络,而现在其资产属性已进化为纯正的AI基础设施。

Tesla (TSLA)

FSD是已交付的真实产品。特斯拉在2023年重构了自动驾驶技术栈,且尚未大规模部署Blackwell级别的训练硬件,这意味着未来仍有显著提升空间。它展示了大规模端到端感知与控制能力,以及硬件外壳下的软件式高毛利属性。FSD的感知系统也在直接赋能Optimus机器人项目。

Palantir (PLTR)

AIP平台使Palantir实现了业务增速的重新提速。通过向客户派遣现场工程师,将AI深度嵌入具体工作流。证据表明,当避开DIY(自行研发)陷阱后,试点项目能够高效转化为大规模部署。

Databricks

目前年度经常性收入(ARR)约40亿美元,同比增长超过50%,AI相关收入占比极高。其核心价值在于为AI准备非结构化数据。对于大型企业,数据清洗、集中和建模通常需要12-24个月。这种数据就绪工作是目前资本支出的核心驱动力。

调研证据:沃顿商学院 vs MIT

虽然有观点指出许多生成式AI项目停留在试点阶段,但2025年沃顿商学院GBK报告显示:

2023年仅有不足40%的决策者每周使用生成式AI;到2025年,该比例已超过80%。

约46%的用户每天使用。

近四分之三的企业已实现正向ROI;约80%预计随着部署扩展将获得强劲回报。

核心结论:DIY试点容易停滞,但获得专业支持的部署已显现出显著威力。

值得重视的看空观点

理性的看空逻辑应基于以下两点:

AI带来的影子产出缺口

AI可能引发一场巨大的隐性供给冲击:消费者通过节省时间成本获得的剩余价值,以及通过运营支出通缩获得的更廉价服务。这些价值可能无法直接体现在GDP或每股收益(EPS)中,从而引发更深层次的索洛悖论(Solow Paradox)。

ROI表现为生存权而非EPS爆发

对于许多公司,AI资本支出的回报可能仅仅是维持竞争地位。由于无法观察到不投入AI会产生的负面后果,这一争论将持续存在。

因此,理性的看空逻辑是:AI创造的剩余价值巨大,但其中大部分可能被竞争摊薄,或体现为通缩效应,而非普遍性的EPS爆发。对于核心护城河公司,股东捕获的价值依然显著,但可能不如技术爆发所暗示的那样激进。

启示

AI的发展趋势已经确立。核心问题在于基础设施追赶需求曲线的速度,以及谁能在这一过程中捕获剩余价值。

功率限制:阻碍与护城河的统一

电力供应紧缺既是约束,也是一种护城河:

稀缺的电力支撑了计算资源的定价,降低了商品化风险。

价值向能够早期锁定电力资源和发电设备的头部玩家集中。

它促使政府与独立电力生产商(IPP)达成深度合作,降低了优质项目的加权平均资本成本(WACC)。

折旧:会计处理与经济现实的背离

经济寿命不等同于会计寿命。即便GPU按3年寿命计提折旧,也不会改变机架级投资的现金内部收益率(IRR)或算力资源被充分利用的现实。Hopper架构在中国市场的二级价值强化了这一点:活跃的次级市场支撑了残值,这对于融资和评估真实经济寿命至关重要。

关注指标

Token流速:用户多模态使用习惯是否如期养成?

MFU改进:推理效率的提升能否在需求爆炸前缩小算力缺口?

电力交付:承诺的吉瓦级容量多快能真正上线?

企业级转化:试点转产率是否随着部署支持的完善而提升?

附录

附录A:TPU vs. GPU

针对“TPU正赢得推理市场”这一观点,存在两个主要的质疑领域:供给现实与推理演进趋势。

FP8与FP4入门指南

FP8(8位浮点):目前高效推理的标准。相比FP16,其内存和算力需求减半。目前大多数基准测试均在此维度展开。

FP4(4位浮点):下一个前沿领域。单数字仅需4位表示,能效比(Token-per-watt)较FP8又有约2倍提升。随着量化技术的改进,多数推理任务的精度损失已降至可控范围。

供给约束

谷歌每半年内部算力翻倍。他们能否同时锁定足够的HBM和CoWoS产能,从而成为大规模的第三方TPU供应商?先进封装与显存瓶颈对全行业均构成限制。

推理路线图

Blackwell架构通过FP4能力增强了竞争位势。鉴于能效比提升,4位推理可能承载未来大部分负载。Rubin架构将进一步推高FP4效率。此外,GPU在可编程性、CUDA生态及多云兼容性方面仍具护城河。

附录B:中国的算力缺口

将昇腾(Ascend)集群与单台Blackwell机架进行对比,往往低估了系统级的缺口,包括低延迟互联、HBM带宽、软件工具链及生态系统。在处理大规模真实负载时,纸面上的浮点运算能力并不能完全代表竞争力。

西方在EUV光刻机、先进封装、HBM显存及高端网络环节的领先,使得中国面临的算力缺口具有长期性。

Hopper架构出口:2026年的博弈

2026年可能出现一种动态:美国允许Hopper级别GPU出口,同时严格限制Blackwell及更高架构。这将:

提升旧款GPU的残值,辅助美国本土新架构建设的融资。

为中国提供实际算力,但维持1-2个代差的领先地位。

在经济层面支撑美国建设加速器的逻辑,在政治层面增加筹码。

附录C:机器人与世界模型

多模态演进的自然终点是具身智能。聊天机器人仅是阶段性产品,最终目标是能在数字与物理世界跨域操作的智能系统。

通用机器人(如宇树Unitree)和专用平台正在走向商用转折点。未来十年,家用与工业级机器人的大规模普及将成为现实。

这正是多模态Token价值爆发的领域:视频帧、音频和传感器流产生的Token量比文本高出数个数量级。单次合成训练会话可轻易消耗数十亿Token。

在软件端,Sora类工具不仅是内容创作工具,更是通向机器人、自动驾驶及科学研究高保真模拟器的必经之路。

----------

参考文章:Dratch, M. (2025, December 21). AI infrastructure and the compute gap. https://drive.google.com/file/d/1n8WcKsQtYN8K7vvUMbpdKpyatJeAg03P/view

更多交流,可加本人微信

(请附中文姓名/公司/关注领域)



























页: [1]
查看完整版本: AI基础设施与计算缺口:从“泡沫论”转向“结构性短缺”的重估