找回密码
 注册

Sign in with Twitter

It's what's happening?

微信登录

微信扫一扫,快速登录

查看: 207|回复: 0

AI基础设施与计算缺口:从“泡沫论”转向“结构性短缺”的重估

[复制链接]
发表于 2026-1-2 03:05 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
核心论断

核心逻辑:当前的算力投入并非基于现有需求的线性外推,而是对“Token作为数字经济能源”这一新范式的战略入场。

核心总结:基础设施建设尚未过热,反而因多模态和智能体需求的爆发,正处于大规模缺口的爆发前夜。

1.需求端:Token的“千瓦时”化与指数级扩张

    单位价值重定义:Token是AI时代的“电力单位”。随着单价下降,用户需求不会饱和,而是转向复杂度高出数个数量级的任务(从简单文本到长序列智能体交互、多模态视频及物理传感器流)。

    复杂度乘数:实际推理中,由于长上下文(KV Cache)和智能体逻辑链(规划、调用、反思)的存在,单Token的算力需求约为激活参数量的6倍(6N),远超理想实验值。

    市场空间(TAM):AI正在将人工时薪($50/h)转化为极低成本的运营支出(OpEx),在成熟阶段,仅消费者端的推理价值空间就达万亿美元量级。

2.供给端:13GW存量的“效率打折”

    算力度量衡转换:不再以GPU片数衡量,而以功率(GW)为核心单位。目前全球前沿AI装机仅约13GW,而存量125GW数据中心正面临“加速计算”的全量改造。

    级联效率损耗:从单芯片标称性能到集群级实际算力,存在严重的“效率栈”折损。受限于站点功耗分配(PUE/辅助设备)、模型浮点利用率(MFU)及新旧机队组合,实际效率仅为芯片标称值的5-10%。

3.缺口测算:8-50倍的供需错配

    消费端推理缺口:即便按最乐观假设,成熟期的消费者推理算力需求也将产生8-17倍的缺口;若考虑保守的系统效率,缺口将达25-50倍。

    冰山底座:上述缺口尚未计入模型训练、企业级私有化部署、主权AI以及具身智能(机器人)等更高耗能的领域。

4.产业启示与现实映射

    生存权vs.爆发力:对于企业而言,AI资本支出不仅是盈利驱动力,更是数字化生存的“门票”。部分先驱(如AppLovin、C.H.Robinson)已通过AI实现显著的OpEx通缩和毛利扩张。

    电力即护城河:算力的物理约束已从芯片转移至电力。早期锁定电力资源和发电设备的头部玩家,实际上建立了极高的资源定价权和竞争壁垒。

    具身智能是终局:多模态演进的终点是物理世界的Token化(视频、传感器流)。这一领域产生的Token消耗比文本高出数个数量级,将彻底重塑基础设施的建设规模。

5.地缘算力博弈(中国视角)

    代差的持久化:由于在HBM显存、先进封装及高速网络工具链上的系统性滞后,中国面临的算力缺口可能具有长期性。2026年左右可能出现“旧架构出口、新架构封锁”的动态平衡。

w1.jpg

在AI时代,怀疑者远多于梦想家,这既具讽刺意味,也令人欣慰。正如Philippe Laffont所言:想象力也是一种技能。

下文构建的需求模型正需要这种技能。如果仅锚定于当前的ChatGPT使用场景(日均提问数有限且以文本为主),当下的资本支出浪潮确实显现出非理性。但这绝非未来的演进方向。

核心发现:即便对硬件效率和利用率做出最乐观的假设,在智能体(Agentic)与多模态普及的成熟阶段,仅消费者端的推理需求就可能产生8-50倍的算力缺口。此项测算尚未计入企业级应用、主权AI、机器人技术或模型训练的需求。

本分析框架基于以下三个核心论断:

1.Token是知识工作的千瓦时(kWh)。随着单价下降,用户不会满足于以更低成本询问重复的问题,而是会提出复杂度呈数量级增长的问题,涵盖工具调用、长短期记忆、视频、音频及传感器数据。

2.全球前沿AI计算的装机容量约为13吉瓦(GW)(部分估算超过20GW)。全球现有的125GW数据中心容量最终将全部转换为加速计算,且后续建设规模将进一步扩张。

3.综合考虑模型浮点利用率(MFU)、电力分配损失和集群新旧组合,集群级的实际效率仅为芯片标称规格的5-10%。

本框架以功率(GW)而非GPU数量为度量单位。黄氏定律(Jensen's Law)带来的效能改进体现为系统效率(R)的提升,但资本支出(CapEx)的逻辑逻辑一致:效率提升要么转化为芯片溢价,要么驱动更大规模的吉瓦级设施建设。无论路径如何,均属于高度资本密集的投入。

当前的资本支出浪潮并非盲目扩张,而是针对一个巨大且企业级投资回报率(ROI)日益显现的总潜在市场(TAM)进行的早期战略布局。

本备忘录附录部分涵盖以下相关课题:

    附录A:TPU与GPU之争。FP4为何是必然趋势,以及Rubin架构带来的影响。

    附录B:中国的算力缺口。前沿技术1-3年的滞后为何可能演变为永久性差距。

    附录C:机器人与世界模型。具身智能(Embodied AI)未来十年的演进逻辑。

需求端:为何算力需求远超预期

多模态的崛起

将AI计算视为Token——即基本工作单位——是准确的思维模型,类比于电力系统中的千瓦时(kWh)。尽管Token单价在下降,但其消耗体积与复杂度正在产生复合增长:

    简单文本提示:数百Token

    带工具调用的智能体链:数千Token

    文本与图像混合输入:数万Token

    带音频的短视频:数十万Token

    多传感器机器人交互:单次运行达数百万Token

因此,即便累计成本下降90%以上,也不会导致需求饱和,因为查询频率与单次查询的复杂度都在呈指数级增长。

单Token算力需求:2N推导法

对于一个拥有N个激活参数、仅含解码器(Decoder-only)的Transformer模型,推理阶段单Token大约需要2N次浮点运算(FLOPs,指前向传递;训练则需6N)。该结论源于Kaplan等人2020年关于规模定律(Scaling Laws)的经典论文。该模型描述的是理想环境:短提示语、单次传递、完美的批处理。

然而现实应用场景更为复杂。用户通常拥有长历史上下文(涉及海量KV Cache查找),智能体极少能通过单次生成给出最终结果;单一动作往往需要经过规划、工具调用、反思及最终答复的链式反应。因此,本模型采用3倍乘数来修正此类工程开销:

单Token算力需求=2N×3=6N

以150B激活参数模型为例:单Token消耗约为0.9TFLOPs。

消费者推理需求场景模拟

在成熟的智能体与多模态应用环境下模拟消费者推理需求。假设用户基数为50亿,模型激活参数150B,单Token消耗0.9TFLOPs:

日均Token消耗/用户

全球日均Token总量

全球日均算力需求(EFLOPs

0.8M

4.0E15

3.6B

1.2M

6.0E15

5.4B

1.6M

8.0E15

7.2B

仅消费者推理一项,每日就需3.5-7.5十亿EFLOPs的算力,这尚未计入企业、主权国家、机器人或模型训练的需求。

从用户视角看潜在市场规模(TAM)

一个简化的分析框架:假设AI每天为用户创造10美元价值,平台以50%的增量毛利率捕获其中20%作为收入。这意味着单个用户年贡献收入约730美元,毛利约365美元。每1亿用户对应730亿美元收入和365亿美元毛利。

在40亿用户规模下(类比Meta旗下产品线),毛利空间将达1.45万亿美元量级。核心逻辑在于:这并非40亿人付费使用聊天机器人,而是涵盖了直接订阅、商家转化率提升、预订佣金、支付手续费,以及最重要的——当智能体以极低成本完成原本时薪50美元的人工工作时所产生的运营支出(OpEx)通缩效应。

谷歌内部的压力测试

谷歌AI基础设施主管告知员工,他们需要每六个月将服务容量翻倍,并在4-5年内实现约1000倍的扩张。这是多模态演进在工程端的真实映射:从文本到图像,再到视频、音频、传感器流,直至世界模型与机器人。每一步演进都在成倍增加单个工作单元的Token消耗,并因延迟约束降低了批处理效率。因此,服务能力的扩张速度必须远超查询次数的增长速度。

供给端:13GW的起点

面对上述需求,现有的供给能力仍处于起步阶段。根据黄仁勋的估算,目前全球已部署的前沿AI计算容量约为13GW(部分估算超过20GW)。无论如何,全球现有125GW的数据中心容量最终都将转向加速计算,且后续建设进程将持续加速。

什么是加速计算?

加速计算指由GPU(或TPU)处理AI任务,而非由传统CPU服务器处理常规企业负载。常被引用的125GW全球容量涵盖了所有数据中心,其中大部分为陈旧的CPU基础设施。随着AI负载占据主导,整个存量基数将逐步转化为加速计算。关键在于:目前已部署的前沿GPU/TPU容量究竟有多少?

装机量校验:13GW测算逻辑

根据NVIDIA的数据中心营收,结合其经验法则进行反推:

    NVIDIA数据中心营收(2024财年Q1至2026财年Q3):约2940亿美元。

    经验法则:每1GW前沿AI容量对应约250亿美元的NVIDIA数据中心营收。

    份额假设:在此区间内,NVIDIA占据加速器市场约90%的份额。

计算过程:将营收调整至100%份额即3270亿美元。除以每GW250亿美元成本,得出全球已装机的前沿AI容量约为13GW。

乘法效应下的效率栈

NVIDIA公布的规格(如GB200在FP8下约为8-10TF/s/W)仅代表单芯片效率。在实际集群部署中,效率受到多重因素的复合影响:

1.站点功率分配:站点总功率中仅有50-70%能真正到达加速器。其余功耗分布在CPU、网卡(NIC)、交换机、光模块、固态硬盘(SSD)、电源、冷却系统及PUE开销上。

2.MFU现实:根据Databricks/Mosaic的大规模基准测试,40-60%的MFU被视为优秀水平。即便在理想的GEMM测试中,受限于动态频率缩放(DVFS)、功率上限等因素,Hopper/Blackwell架构也仅能达到峰值性能的70-80%。

3.集群组合:由于无法在首日实现全量Blackwell化,现有的装机基数是各代产品的混合体。

级联这些因素后,集群级的实际效率通常落在0.5-1.0TF/s/W区间,仅为芯片标称FP8数值的5-10%。

供给公式

日均可用算力(EFLOPs)=R×P(GW)×U×86,400×10³

其中R为系统级效率(TF/s/W),U为生产环境利用率。以Rubin/TPUv8级别硬件为例:

系统效率R

利用率U

日均供给(EF/10GW

0.5

0.33

0.14B

0.5

0.50

0.22B

1.0

0.33

0.29B

1.0

0.50

0.43B

每投入10GW下一代基础设施,可获得0.14-0.43十亿EFLOPs的日均有效算力。换算可知:每10亿EFLOPs有效容量需对应23-71兆瓦(MW)的电力支持。

缺口测算

连接供需两端:将消费者推理需求(3.6-7.2BEFLOPs/天)与供给能力(每10GW供给0.14-0.43BEFLOPs/天)进行对比:

日均Token/用户

需求(EF/天)

算力缺口倍数

0.8M

3.6B

8倍

1.2M

5.4B

12-13倍

1.6M

7.2B

17倍

上述测算基于最乐观的供给假设(R=1.0,U=0.5)。若采用保守假设(R=0.5,U=0.33),算力短缺将扩大至25-50倍。

消费者端仅是冰山一角

上述计算仅针对消费者推理。同样的加速器容量还必须覆盖:

    前沿模型训练(其算力消耗显著高于推理)

    企业级/垂直行业推理(内部辅助驾驶Copilot、数据分析、自动化流程)

    主权/国防集群(国家级AI战略能力建设)

    推荐与广告系统(Recsys/Ads)

    机器人/自动驾驶/具身智能(物理世界应用)

因此,即便到2026年能满足消费者端50-70%的需求,也不意味着基础设施建设已经完成,而仅仅是填补了初步需求,训练及其他垂直领域仍存在巨大缺口。

成效初显

上述算力缺口测算具备扎实的现实基础。AI已经开始显著改变部分公司的单位经济效益,这并非假设,也不同于所谓的元宇宙概念。

C.H. Robinson (CHRW)

在货运市场低迷期,该公司通过投入代理式供应链提升了业绩预期。利用AI自动化处理报价、调度和货物跟踪。结果:在业务量持平或增长的情况下,实现了运营支出和人员配置的大幅缩减。这是运营支出通缩配合财务杠杆的典型案例。

AppLovin (APP)

其转型完全依托于Axon/Axon 2这一AI广告引擎。谷歌的案例研究显示,其关键模型负载性能提升了4倍,性价比优化了约40%。若无此引擎,APP可能仅是一个普通广告网络,而现在其资产属性已进化为纯正的AI基础设施。

Tesla (TSLA)

FSD是已交付的真实产品。特斯拉在2023年重构了自动驾驶技术栈,且尚未大规模部署Blackwell级别的训练硬件,这意味着未来仍有显著提升空间。它展示了大规模端到端感知与控制能力,以及硬件外壳下的软件式高毛利属性。FSD的感知系统也在直接赋能Optimus机器人项目。

Palantir (PLTR)

AIP平台使Palantir实现了业务增速的重新提速。通过向客户派遣现场工程师,将AI深度嵌入具体工作流。证据表明,当避开DIY(自行研发)陷阱后,试点项目能够高效转化为大规模部署。

Databricks

目前年度经常性收入(ARR)约40亿美元,同比增长超过50%,AI相关收入占比极高。其核心价值在于为AI准备非结构化数据。对于大型企业,数据清洗、集中和建模通常需要12-24个月。这种数据就绪工作是目前资本支出的核心驱动力。

调研证据:沃顿商学院 vs MIT

虽然有观点指出许多生成式AI项目停留在试点阶段,但2025年沃顿商学院GBK报告显示:

    2023年仅有不足40%的决策者每周使用生成式AI;到2025年,该比例已超过80%。

    约46%的用户每天使用。

    近四分之三的企业已实现正向ROI;约80%预计随着部署扩展将获得强劲回报。

核心结论:DIY试点容易停滞,但获得专业支持的部署已显现出显著威力。

值得重视的看空观点

理性的看空逻辑应基于以下两点:

AI带来的影子产出缺口

AI可能引发一场巨大的隐性供给冲击:消费者通过节省时间成本获得的剩余价值,以及通过运营支出通缩获得的更廉价服务。这些价值可能无法直接体现在GDP或每股收益(EPS)中,从而引发更深层次的索洛悖论(Solow Paradox)。

ROI表现为生存权而非EPS爆发

对于许多公司,AI资本支出的回报可能仅仅是维持竞争地位。由于无法观察到不投入AI会产生的负面后果,这一争论将持续存在。

因此,理性的看空逻辑是:AI创造的剩余价值巨大,但其中大部分可能被竞争摊薄,或体现为通缩效应,而非普遍性的EPS爆发。对于核心护城河公司,股东捕获的价值依然显著,但可能不如技术爆发所暗示的那样激进。

启示

AI的发展趋势已经确立。核心问题在于基础设施追赶需求曲线的速度,以及谁能在这一过程中捕获剩余价值。

功率限制:阻碍与护城河的统一

电力供应紧缺既是约束,也是一种护城河:

    稀缺的电力支撑了计算资源的定价,降低了商品化风险。

    价值向能够早期锁定电力资源和发电设备的头部玩家集中。

    它促使政府与独立电力生产商(IPP)达成深度合作,降低了优质项目的加权平均资本成本(WACC)。

折旧:会计处理与经济现实的背离

经济寿命不等同于会计寿命。即便GPU按3年寿命计提折旧,也不会改变机架级投资的现金内部收益率(IRR)或算力资源被充分利用的现实。Hopper架构在中国市场的二级价值强化了这一点:活跃的次级市场支撑了残值,这对于融资和评估真实经济寿命至关重要。

关注指标

    Token流速:用户多模态使用习惯是否如期养成?

    MFU改进:推理效率的提升能否在需求爆炸前缩小算力缺口?

    电力交付:承诺的吉瓦级容量多快能真正上线?

    企业级转化:试点转产率是否随着部署支持的完善而提升?

附录

附录A:TPU vs. GPU

针对“TPU正赢得推理市场”这一观点,存在两个主要的质疑领域:供给现实与推理演进趋势。

FP8与FP4入门指南

FP8(8位浮点):目前高效推理的标准。相比FP16,其内存和算力需求减半。目前大多数基准测试均在此维度展开。

FP4(4位浮点):下一个前沿领域。单数字仅需4位表示,能效比(Token-per-watt)较FP8又有约2倍提升。随着量化技术的改进,多数推理任务的精度损失已降至可控范围。

供给约束

谷歌每半年内部算力翻倍。他们能否同时锁定足够的HBM和CoWoS产能,从而成为大规模的第三方TPU供应商?先进封装与显存瓶颈对全行业均构成限制。

推理路线图

Blackwell架构通过FP4能力增强了竞争位势。鉴于能效比提升,4位推理可能承载未来大部分负载。Rubin架构将进一步推高FP4效率。此外,GPU在可编程性、CUDA生态及多云兼容性方面仍具护城河。

附录B:中国的算力缺口

将昇腾(Ascend)集群与单台Blackwell机架进行对比,往往低估了系统级的缺口,包括低延迟互联、HBM带宽、软件工具链及生态系统。在处理大规模真实负载时,纸面上的浮点运算能力并不能完全代表竞争力。

西方在EUV光刻机、先进封装、HBM显存及高端网络环节的领先,使得中国面临的算力缺口具有长期性。

Hopper架构出口:2026年的博弈

2026年可能出现一种动态:美国允许Hopper级别GPU出口,同时严格限制Blackwell及更高架构。这将:

    提升旧款GPU的残值,辅助美国本土新架构建设的融资。

    为中国提供实际算力,但维持1-2个代差的领先地位。

    在经济层面支撑美国建设加速器的逻辑,在政治层面增加筹码。

附录C:机器人与世界模型

多模态演进的自然终点是具身智能。聊天机器人仅是阶段性产品,最终目标是能在数字与物理世界跨域操作的智能系统。

通用机器人(如宇树Unitree)和专用平台正在走向商用转折点。未来十年,家用与工业级机器人的大规模普及将成为现实。

这正是多模态Token价值爆发的领域:视频帧、音频和传感器流产生的Token量比文本高出数个数量级。单次合成训练会话可轻易消耗数十亿Token。

在软件端,Sora类工具不仅是内容创作工具,更是通向机器人、自动驾驶及科学研究高保真模拟器的必经之路。

----------

参考文章:Dratch, M. (2025, December 21). AI infrastructure and the compute gap. https://drive.google.com/file/d/1n8WcKsQtYN8K7vvUMbpdKpyatJeAg03P/view

更多交流,可加本人微信

(请附中文姓名/公司/关注领域)

w2.jpg

w3.jpg

w4.jpg

w5.jpg

w6.jpg

w7.jpg

w8.jpg

w9.jpg

w10.jpg

w11.jpg

w12.jpg

w13.jpg

w14.jpg

w15.jpg
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+1, 2026-1-12 06:48 , Processed in 0.103345 second(s), 31 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表