【AI基础设施与计算缺口:从“泡沫论”转向“结构性短缺”的重估】萍聚社区-德国热线-德国实用信息网人工智能

多客科技 发表于 2026-1-2 03:05

AI基础设施与计算缺口:从“泡沫论”转向“结构性短缺”的重估

作者：微信文章
核心论断

核心逻辑：当前的算力投入并非基于现有需求的线性外推，而是对“Token作为数字经济能源”这一新范式的战略入场。

核心总结：基础设施建设尚未过热，反而因多模态和智能体需求的爆发，正处于大规模缺口的爆发前夜。

1.需求端：Token的“千瓦时”化与指数级扩张

单位价值重定义：Token是AI时代的“电力单位”。随着单价下降，用户需求不会饱和，而是转向复杂度高出数个数量级的任务（从简单文本到长序列智能体交互、多模态视频及物理传感器流）。

复杂度乘数：实际推理中，由于长上下文（KV Cache）和智能体逻辑链（规划、调用、反思）的存在，单Token的算力需求约为激活参数量的6倍（6N），远超理想实验值。

市场空间（TAM）：AI正在将人工时薪（$50/h）转化为极低成本的运营支出（OpEx），在成熟阶段，仅消费者端的推理价值空间就达万亿美元量级。

2.供给端：13GW存量的“效率打折”

算力度量衡转换：不再以GPU片数衡量，而以功率（GW）为核心单位。目前全球前沿AI装机仅约13GW，而存量125GW数据中心正面临“加速计算”的全量改造。

级联效率损耗：从单芯片标称性能到集群级实际算力，存在严重的“效率栈”折损。受限于站点功耗分配（PUE/辅助设备）、模型浮点利用率（MFU）及新旧机队组合，实际效率仅为芯片标称值的5-10%。

3.缺口测算：8-50倍的供需错配

消费端推理缺口：即便按最乐观假设，成熟期的消费者推理算力需求也将产生8-17倍的缺口；若考虑保守的系统效率，缺口将达25-50倍。

冰山底座：上述缺口尚未计入模型训练、企业级私有化部署、主权AI以及具身智能（机器人）等更高耗能的领域。

4.产业启示与现实映射

生存权vs.爆发力：对于企业而言，AI资本支出不仅是盈利驱动力，更是数字化生存的“门票”。部分先驱（如AppLovin、C.H.Robinson）已通过AI实现显著的OpEx通缩和毛利扩张。

电力即护城河：算力的物理约束已从芯片转移至电力。早期锁定电力资源和发电设备的头部玩家，实际上建立了极高的资源定价权和竞争壁垒。

具身智能是终局：多模态演进的终点是物理世界的Token化（视频、传感器流）。这一领域产生的Token消耗比文本高出数个数量级，将彻底重塑基础设施的建设规模。

5.地缘算力博弈（中国视角）

代差的持久化：由于在HBM显存、先进封装及高速网络工具链上的系统性滞后，中国面临的算力缺口可能具有长期性。2026年左右可能出现“旧架构出口、新架构封锁”的动态平衡。

在AI时代，怀疑者远多于梦想家，这既具讽刺意味，也令人欣慰。正如Philippe Laffont所言：想象力也是一种技能。

下文构建的需求模型正需要这种技能。如果仅锚定于当前的ChatGPT使用场景（日均提问数有限且以文本为主），当下的资本支出浪潮确实显现出非理性。但这绝非未来的演进方向。

核心发现：即便对硬件效率和利用率做出最乐观的假设，在智能体（Agentic）与多模态普及的成熟阶段，仅消费者端的推理需求就可能产生8-50倍的算力缺口。此项测算尚未计入企业级应用、主权AI、机器人技术或模型训练的需求。

本分析框架基于以下三个核心论断：

1.Token是知识工作的千瓦时（kWh）。随着单价下降，用户不会满足于以更低成本询问重复的问题，而是会提出复杂度呈数量级增长的问题，涵盖工具调用、长短期记忆、视频、音频及传感器数据。

2.全球前沿AI计算的装机容量约为13吉瓦（GW）（部分估算超过20GW）。全球现有的125GW数据中心容量最终将全部转换为加速计算，且后续建设规模将进一步扩张。

3.综合考虑模型浮点利用率（MFU）、电力分配损失和集群新旧组合，集群级的实际效率仅为芯片标称规格的5-10%。

本框架以功率（GW）而非GPU数量为度量单位。黄氏定律（Jensen's Law）带来的效能改进体现为系统效率（R）的提升，但资本支出（CapEx）的逻辑逻辑一致：效率提升要么转化为芯片溢价，要么驱动更大规模的吉瓦级设施建设。无论路径如何，均属于高度资本密集的投入。

当前的资本支出浪潮并非盲目扩张，而是针对一个巨大且企业级投资回报率（ROI）日益显现的总潜在市场（TAM）进行的早期战略布局。

本备忘录附录部分涵盖以下相关课题：

附录A：TPU与GPU之争。FP4为何是必然趋势，以及Rubin架构带来的影响。

附录B：中国的算力缺口。前沿技术1-3年的滞后为何可能演变为永久性差距。

附录C：机器人与世界模型。具身智能（Embodied AI）未来十年的演进逻辑。

需求端：为何算力需求远超预期

多模态的崛起

将AI计算视为Token——即基本工作单位——是准确的思维模型，类比于电力系统中的千瓦时（kWh）。尽管Token单价在下降，但其消耗体积与复杂度正在产生复合增长：

简单文本提示：数百Token

带工具调用的智能体链：数千Token

文本与图像混合输入：数万Token

带音频的短视频：数十万Token

多传感器机器人交互：单次运行达数百万Token

因此，即便累计成本下降90%以上，也不会导致需求饱和，因为查询频率与单次查询的复杂度都在呈指数级增长。

单Token算力需求：2N推导法

对于一个拥有N个激活参数、仅含解码器（Decoder-only）的Transformer模型，推理阶段单Token大约需要2N次浮点运算（FLOPs，指前向传递；训练则需6N）。该结论源于Kaplan等人2020年关于规模定律（Scaling Laws）的经典论文。该模型描述的是理想环境：短提示语、单次传递、完美的批处理。

然而现实应用场景更为复杂。用户通常拥有长历史上下文（涉及海量KV Cache查找），智能体极少能通过单次生成给出最终结果；单一动作往往需要经过规划、工具调用、反思及最终答复的链式反应。因此，本模型采用3倍乘数来修正此类工程开销：

单Token算力需求=2N×3=6N

以150B激活参数模型为例：单Token消耗约为0.9TFLOPs。

消费者推理需求场景模拟

在成熟的智能体与多模态应用环境下模拟消费者推理需求。假设用户基数为50亿，模型激活参数150B，单Token消耗0.9TFLOPs：

日均Token消耗/用户

全球日均Token总量

全球日均算力需求（EFLOPs）

0.8M

4.0E15

3.6B

1.2M

6.0E15

5.4B

1.6M

8.0E15

7.2B

仅消费者推理一项，每日就需3.5-7.5十亿EFLOPs的算力，这尚未计入企业、主权国家、机器人或模型训练的需求。

从用户视角看潜在市场规模（TAM）

一个简化的分析框架：假设AI每天为用户创造10美元价值，平台以50%的增量毛利率捕获其中20%作为收入。这意味着单个用户年贡献收入约730美元，毛利约365美元。每1亿用户对应730亿美元收入和365亿美元毛利。

在40亿用户规模下（类比Meta旗下产品线），毛利空间将达1.45万亿美元量级。核心逻辑在于：这并非40亿人付费使用聊天机器人，而是涵盖了直接订阅、商家转化率提升、预订佣金、支付手续费，以及最重要的——当智能体以极低成本完成原本时薪50美元的人工工作时所产生的运营支出（OpEx）通缩效应。

谷歌内部的压力测试

谷歌AI基础设施主管告知员工，他们需要每六个月将服务容量翻倍，并在4-5年内实现约1000倍的扩张。这是多模态演进在工程端的真实映射：从文本到图像，再到视频、音频、传感器流，直至世界模型与机器人。每一步演进都在成倍增加单个工作单元的Token消耗，并因延迟约束降低了批处理效率。因此，服务能力的扩张速度必须远超查询次数的增长速度。

供给端：13GW的起点

面对上述需求，现有的供给能力仍处于起步阶段。根据黄仁勋的估算，目前全球已部署的前沿AI计算容量约为13GW（部分估算超过20GW）。无论如何，全球现有125GW的数据中心容量最终都将转向加速计算，且后续建设进程将持续加速。

什么是加速计算？

加速计算指由GPU（或TPU）处理AI任务，而非由传统CPU服务器处理常规企业负载。常被引用的125GW全球容量涵盖了所有数据中心，其中大部分为陈旧的CPU基础设施。随着AI负载占据主导，整个存量基数将逐步转化为加速计算。关键在于：目前已部署的前沿GPU/TPU容量究竟有多少？

装机量校验：13GW测算逻辑

根据NVIDIA的数据中心营收，结合其经验法则进行反推：

NVIDIA数据中心营收（2024财年Q1至2026财年Q3）：约2940亿美元。

经验法则：每1GW前沿AI容量对应约250亿美元的NVIDIA数据中心营收。

份额假设：在此区间内，NVIDIA占据加速器市场约90%的份额。

计算过程：将营收调整至100%份额即3270亿美元。除以每GW250亿美元成本，得出全球已装机的前沿AI容量约为13GW。

乘法效应下的效率栈

NVIDIA公布的规格（如GB200在FP8下约为8-10TF/s/W）仅代表单芯片效率。在实际集群部署中，效率受到多重因素的复合影响：

1.站点功率分配：站点总功率中仅有50-70%能真正到达加速器。其余功耗分布在CPU、网卡（NIC）、交换机、光模块、固态硬盘（SSD）、电源、冷却系统及PUE开销上。

2.MFU现实：根据Databricks/Mosaic的大规模基准测试，40-60%的MFU被视为优秀水平。即便在理想的GEMM测试中，受限于动态频率缩放（DVFS）、功率上限等因素，Hopper/Blackwell架构也仅能达到峰值性能的70-80%。

3.集群组合：由于无法在首日实现全量Blackwell化，现有的装机基数是各代产品的混合体。

级联这些因素后，集群级的实际效率通常落在0.5-1.0TF/s/W区间，仅为芯片标称FP8数值的5-10%。

供给公式

日均可用算力（EFLOPs）=R×P(GW)×U×86,400×10³

其中R为系统级效率（TF/s/W），U为生产环境利用率。以Rubin/TPUv8级别硬件为例：

系统效率R

利用率U

日均供给（EF/10GW）

0.5

0.33

0.14B

0.5

0.50

0.22B

1.0

0.33

0.29B

1.0

0.50

0.43B

每投入10GW下一代基础设施，可获得0.14-0.43十亿EFLOPs的日均有效算力。换算可知：每10亿EFLOPs有效容量需对应23-71兆瓦（MW）的电力支持。

缺口测算

连接供需两端：将消费者推理需求（3.6-7.2BEFLOPs/天）与供给能力（每10GW供给0.14-0.43BEFLOPs/天）进行对比：

日均Token/用户

需求（EF/天）

算力缺口倍数

0.8M

3.6B

8倍

1.2M

5.4B

12-13倍

1.6M

7.2B

17倍

上述测算基于最乐观的供给假设（R=1.0,U=0.5）。若采用保守假设（R=0.5,U=0.33），算力短缺将扩大至25-50倍。

消费者端仅是冰山一角

上述计算仅针对消费者推理。同样的加速器容量还必须覆盖：

前沿模型训练（其算力消耗显著高于推理）

企业级/垂直行业推理（内部辅助驾驶Copilot、数据分析、自动化流程）

主权/国防集群（国家级AI战略能力建设）

推荐与广告系统（Recsys/Ads）

机器人/自动驾驶/具身智能（物理世界应用）

因此，即便到2026年能满足消费者端50-70%的需求，也不意味着基础设施建设已经完成，而仅仅是填补了初步需求，训练及其他垂直领域仍存在巨大缺口。

成效初显

上述算力缺口测算具备扎实的现实基础。AI已经开始显著改变部分公司的单位经济效益，这并非假设，也不同于所谓的元宇宙概念。

C.H. Robinson (CHRW)

在货运市场低迷期，该公司通过投入代理式供应链提升了业绩预期。利用AI自动化处理报价、调度和货物跟踪。结果：在业务量持平或增长的情况下，实现了运营支出和人员配置的大幅缩减。这是运营支出通缩配合财务杠杆的典型案例。

AppLovin (APP)

其转型完全依托于Axon/Axon 2这一AI广告引擎。谷歌的案例研究显示，其关键模型负载性能提升了4倍，性价比优化了约40%。若无此引擎，APP可能仅是一个普通广告网络，而现在其资产属性已进化为纯正的AI基础设施。

Tesla (TSLA)

FSD是已交付的真实产品。特斯拉在2023年重构了自动驾驶技术栈，且尚未大规模部署Blackwell级别的训练硬件，这意味着未来仍有显著提升空间。它展示了大规模端到端感知与控制能力，以及硬件外壳下的软件式高毛利属性。FSD的感知系统也在直接赋能Optimus机器人项目。

Palantir (PLTR)

AIP平台使Palantir实现了业务增速的重新提速。通过向客户派遣现场工程师，将AI深度嵌入具体工作流。证据表明，当避开DIY（自行研发）陷阱后，试点项目能够高效转化为大规模部署。

Databricks

目前年度经常性收入（ARR）约40亿美元，同比增长超过50%，AI相关收入占比极高。其核心价值在于为AI准备非结构化数据。对于大型企业，数据清洗、集中和建模通常需要12-24个月。这种数据就绪工作是目前资本支出的核心驱动力。

调研证据：沃顿商学院 vs MIT

虽然有观点指出许多生成式AI项目停留在试点阶段，但2025年沃顿商学院GBK报告显示：

2023年仅有不足40%的决策者每周使用生成式AI；到2025年，该比例已超过80%。

约46%的用户每天使用。

近四分之三的企业已实现正向ROI；约80%预计随着部署扩展将获得强劲回报。

核心结论：DIY试点容易停滞，但获得专业支持的部署已显现出显著威力。

值得重视的看空观点

理性的看空逻辑应基于以下两点：

AI带来的影子产出缺口

AI可能引发一场巨大的隐性供给冲击：消费者通过节省时间成本获得的剩余价值，以及通过运营支出通缩获得的更廉价服务。这些价值可能无法直接体现在GDP或每股收益（EPS）中，从而引发更深层次的索洛悖论（Solow Paradox）。

ROI表现为生存权而非EPS爆发

对于许多公司，AI资本支出的回报可能仅仅是维持竞争地位。由于无法观察到不投入AI会产生的负面后果，这一争论将持续存在。

因此，理性的看空逻辑是：AI创造的剩余价值巨大，但其中大部分可能被竞争摊薄，或体现为通缩效应，而非普遍性的EPS爆发。对于核心护城河公司，股东捕获的价值依然显著，但可能不如技术爆发所暗示的那样激进。

启示

AI的发展趋势已经确立。核心问题在于基础设施追赶需求曲线的速度，以及谁能在这一过程中捕获剩余价值。

功率限制：阻碍与护城河的统一

电力供应紧缺既是约束，也是一种护城河：

稀缺的电力支撑了计算资源的定价，降低了商品化风险。

价值向能够早期锁定电力资源和发电设备的头部玩家集中。

它促使政府与独立电力生产商（IPP）达成深度合作，降低了优质项目的加权平均资本成本（WACC）。

折旧：会计处理与经济现实的背离

经济寿命不等同于会计寿命。即便GPU按3年寿命计提折旧，也不会改变机架级投资的现金内部收益率（IRR）或算力资源被充分利用的现实。Hopper架构在中国市场的二级价值强化了这一点：活跃的次级市场支撑了残值，这对于融资和评估真实经济寿命至关重要。

关注指标

Token流速：用户多模态使用习惯是否如期养成？

MFU改进：推理效率的提升能否在需求爆炸前缩小算力缺口？

电力交付：承诺的吉瓦级容量多快能真正上线？

企业级转化：试点转产率是否随着部署支持的完善而提升？

附录

附录A：TPU vs. GPU

针对“TPU正赢得推理市场”这一观点，存在两个主要的质疑领域：供给现实与推理演进趋势。

FP8与FP4入门指南

FP8（8位浮点）：目前高效推理的标准。相比FP16，其内存和算力需求减半。目前大多数基准测试均在此维度展开。

FP4（4位浮点）：下一个前沿领域。单数字仅需4位表示，能效比（Token-per-watt）较FP8又有约2倍提升。随着量化技术的改进，多数推理任务的精度损失已降至可控范围。

供给约束

谷歌每半年内部算力翻倍。他们能否同时锁定足够的HBM和CoWoS产能，从而成为大规模的第三方TPU供应商？先进封装与显存瓶颈对全行业均构成限制。

推理路线图

Blackwell架构通过FP4能力增强了竞争位势。鉴于能效比提升，4位推理可能承载未来大部分负载。Rubin架构将进一步推高FP4效率。此外，GPU在可编程性、CUDA生态及多云兼容性方面仍具护城河。

附录B：中国的算力缺口

将昇腾（Ascend）集群与单台Blackwell机架进行对比，往往低估了系统级的缺口，包括低延迟互联、HBM带宽、软件工具链及生态系统。在处理大规模真实负载时，纸面上的浮点运算能力并不能完全代表竞争力。

西方在EUV光刻机、先进封装、HBM显存及高端网络环节的领先，使得中国面临的算力缺口具有长期性。

Hopper架构出口：2026年的博弈

2026年可能出现一种动态：美国允许Hopper级别GPU出口，同时严格限制Blackwell及更高架构。这将：

提升旧款GPU的残值，辅助美国本土新架构建设的融资。

为中国提供实际算力，但维持1-2个代差的领先地位。

在经济层面支撑美国建设加速器的逻辑，在政治层面增加筹码。

附录C：机器人与世界模型

多模态演进的自然终点是具身智能。聊天机器人仅是阶段性产品，最终目标是能在数字与物理世界跨域操作的智能系统。

通用机器人（如宇树Unitree）和专用平台正在走向商用转折点。未来十年，家用与工业级机器人的大规模普及将成为现实。

这正是多模态Token价值爆发的领域：视频帧、音频和传感器流产生的Token量比文本高出数个数量级。单次合成训练会话可轻易消耗数十亿Token。

在软件端，Sora类工具不仅是内容创作工具，更是通向机器人、自动驾驶及科学研究高保真模拟器的必经之路。

----------

参考文章：Dratch, M. (2025, December 21). AI infrastructure and the compute gap. https://drive.google.com/file/d/1n8WcKsQtYN8K7vvUMbpdKpyatJeAg03P/view

更多交流，可加本人微信

（请附中文姓名/公司/关注领域）

页: [1]

萍聚社区-德国热线-德国实用信息网's Archiver

AI基础设施与计算缺口:从“泡沫论”转向“结构性短缺”的重估