我爱免费 发表于 2025-10-6 11:03

AI算力竞赛的隐形杀手:GPU 35%时间在“空转”?

作者:微信文章


导语: 从ChatGPT到GPT-4,AI模型参数量已突破万亿级,单颗GPU已无法承载。在由数万颗GPU组成的巨型AI集群中,算力网络正扮演着“计算机”本身的角色。然而,Meta等巨头的实践表明,网络已成为制约AI性能的头号瓶颈。博通首席架构师在开放计算项目(OCP)大会上,深度剖析了这一困境,并提出了以太网(Ethernet)的终极优化方案。

博通的首席架构师Kamran Naki 以网络工程师的视角,讲述AI如何进入网络世界,观察到的挑战,以及为改进AI网络性能所做的努力。

还会讨论在Sonic上进行的增强,以及为什么以太网(Ethernet)是AI工作负载的正确网络,以及如何通过Ultra Ethernet Consortium 使其更加完善。




AI工作负载的本质

从虚拟化到分布式计算

传统云计算解决的是虚拟化问题,即将服务器和CPU资源虚拟化,以便在同一硬件上运行多个虚拟机。

然而,生成式AI(GenAI)正朝着相反的方向发展。像ChatGPT-3(千亿参数)和ChatGPT-4(万亿参数)这样庞大的模型,无法在单个CPU、单个GPU甚至少量GPU上运行。

运行这些模型需要数万个GPU协同工作。这意味着:

1.AI网络是一个分布式计算问题:一个模型运行在数千个节点上,所有这些GPU需要互联、协作,表现得像一台单一的计算机。

2.网络效率是关键:AI基础设施的性能取决于网络的效率。

3.网络即计算机(Network is the computer):Sun公司在20年前提出的这句话,在审视当前的AI基础设施时依然非常贴切。



网络:从解决方案到瓶颈

大约15年前,Google通过裸机服务器和开放式以太网光纤解决了上一代分布式计算问题——搜索。但是,Meta在两年前的OCP主题演讲中指出,网络是其AI基础设施的瓶颈。

数据令人震惊:对于Meta的各种GPU负载,部分情况下有57%的时间花费在网络上。平均来看,35%的时间被用于网络,这意味着这些耗资数百万甚至数十亿美元构建的GPU,有三分之一的时间处于闲置状态,等待网络完成工作。

尽管网络成本可能只占AI基础设施总成本的约10%,但如果网络没有做好,它带来的损失将远超其成本。



AI网络面临的核心挑战

AI工作负载与传统云计算流量有着显著的区别:

1.流量和负载均衡挑战

特性云计算 (Cloud Computing)AI基础设施 (AI Infrastructure)流量大小小数据包、小流 (Small packets, small flows)非常大的流(Elephant Flows,持续时间长,交换数据量大)流量数量多个机器相互通信(数千台)相对较少的流协议特性N/ARDMA流(五元组熵低)
低熵问题: 由于RDMA流的熵低,导致负载均衡效果不佳,无法充分利用所有可用链接。

2.对丢包的高度敏感性:RDMA流对丢包非常敏感,因为它们运行像Go Back N或Go Back Zero这样的算法。一次丢包可能导致大量的分组需要重新传输,从而延长了通信阶段。

3. 尾部延迟 (Tail Latency):机器学习算法包含计算阶段(矩阵乘法,产生梯度和权重)、通信阶段和同步阶段。关键在于:下一轮迭代不会开始,直到最后一个GPU完成其工作。这意味着只要有一个慢流,就会拖慢所有人。尾部延迟是影响作业完成时间的关键杀手。

4. 导致问题的具体因素:1.瞬态超额订阅(Transient over subscription):虽然在AI后端结构中不常见,但在存储部分仍可能出现。2.流碰撞(Flow collisions):静态ECMP将多个大象流映射到同一条链接上,导致拥塞。3.链接故障(Link failure):在大型网络中不可避免,且AI应用对丢包敏感。4.Incast:多个GPU同时向一个GPU发送数据,导致拥塞。



博通的解决方案与独特架构

针对这些挑战,博通提供了多层次的解决方案:

1.解决瞬态超额订阅(In-band Telemetry):我们利用芯片中内置的带内遥测(inband Telemetry)功能。阿里巴巴(Alibaba)在两年前的OCP会议上分享,他们利用博通芯片的遥测功能,在中国的“双十一”购物节期间,成功地将尾部延迟降低了50%。

2.完美的负载均衡:认知路由(Cognitive Routing)为了解决流碰撞问题,需要完美的负载均衡。路径喷洒(Packet Spraying):对单个流进行逐包负载均衡,可实现完美的负载均衡,但接收端必须具备重排序能力。认知路由(Cognitive Routing):这是一种负载感知ECMP方法,我们将在Sonic中支持此方案。

3. Incast管理:Incast问题最好在接收端解决。接收端确切知道它能处理多少流量,并可以通过信用控制机制(credit control mechanisms)来调整发送方的发送速率。

4. 两种独特的AI网络架构:1.交换机调度光纤(Switch Scheduled Fabric):拥塞管理、流量控制和负载均衡全部由交换机管理。2.端点调度光纤(Endpoint Scheduled Fabric):端点(Endpoint)需要参与到拥塞管理中。这是我们与Sonic合作采用的方法,重点使用认知路由。

5. 认知路由套件详解:认知路由是一套增加全局智能的能力,尤其适用于AI应用。GLB(全局负载均衡, Global Load Balancing):交换机在做路由决策时,不仅考虑本地条件,还考虑全局条件,包括下游链路利用率和多跳之外的情况,对整个拓扑结构有全局视图。这是通过在博通芯片中运行嵌入式应用程序实现的,类似于汽车的GPS导航系统。

Reactive Path Rebalancing(反应性路径重新均衡):GenAI流可以持续数周之久。该功能持续寻找更好的路径,如果网络情况发生变化(例如夜间),它会将重载的大象流切换到拥塞较少的链路上。

Fast Link Failover(快速链路故障转移):在我们的Tomahawk 5芯片中,实现了200纳秒的故障转移,这比标准以太网(50毫秒)或DCN(50微秒)快了数个数量级。

DCN(数据中心网络拥塞通知/丢包修剪):如果数据包因拥塞而丢失,会修剪数据包,只将报头发送到接收方,进入快速队列。接收方迅速要求发送方重传该数据包,从而极大地加快了重传过程,避免发送方等待确认超时。



Sonic操作系统的增强功能

以下是我们正在或即将在Sonic中提供的增强功能(预计今年夏天发布):Adaptive Routing(自适应路由):即我们提到的负载感ECMP。

Advanced Hashing(高级哈希):解决低熵问题。UDF Hashing(用户定义字段哈希):检查RDMA报头内部的Q对,以获取更多熵,实现更好的负载均衡。Versatile Hashing(多功能哈希):改进了哈希算法,性能优于常规的Rag 7算法。

Rocky V2支持:我们简化了Rocky V2的部署。只需一个命令:Rocky enable enter,即可自动配置ECMP、ECN、PFC和无损缓冲区。

Tomahawk 5上的多租户(Multi-tenancy):我们在Tomahawk 5系列芯片上支持VXLAN。这是因为客户需要在后端AI网络上实现多租户,特别是对于“GPU即服务”的场景。


以太网优于InfiniBand

AI网络的标准

过去,InfiniBand因其在HPC(高性能计算)和低延迟方面的成就,被认为可能成为AI网络的主流。然而,事实证明,在AI网络中,以太网每天都击败InfiniBand。

性能:根据超大规模客户的基准测试结果,以太网提供的性能至少比InfiniBand高出10%。由于网络成本占AI基础设施的10%,这10%的性能提升足以抵消网络本身的成本。

可靠性和故障转移:光模块的年故障率高达2%甚至更高。在一个4000节点的网络中,每月可能发生15次故障。以太网的故障转移速率至少比InfiniBand快30倍。

行业标准:以太网是AI网络的事实标准(de facto standard),除了一家之外,所有超大规模厂商都部署了以太网。阿里巴巴集团和字节跳动(ByteDance)不仅使用以太网,还在其AI网络中使用了Sonic。


展望未来:迈向百万节点规模

AI模型规模正在快速增长(例如,ChatGPT-3到ChatGPT-4增长了六倍)。目前,我们已经在构建超过64,000个节点的集群。

为了迎接AI网络的下一阶段——支持100万个AI节点的规模,许多公司正在Ultra Ethernet Consortium (UEC)中合作,努力改进以太网。UEC的工作重点之一是RDMA的现代化。

基于Ultra Ethernet的产品预计将在明年推出。

页: [1]
查看完整版本: AI算力竞赛的隐形杀手:GPU 35%时间在“空转”?