我爱免费 发表于 2025-8-18 21:17

AMD发布新一代AI芯片(如Instinct MI325X),在AI算力上挑战英伟达H200

作者:微信文章


AMD近日发布的Instinct MI325X AI芯片,凭借CDNA 3架构与256GB HBM3e内存的组合,在AI算力领域对英伟达H200发起有力挑战。

这款芯片采用3nm制程工艺,集成1530亿晶体管,内存带宽达6TB/s,FP8精度下算力达2.6 PFLOPS,较H200的实测算力(约1 PFLOPS)提升30%。

在Meta Llama 3.1 70B等大模型推理中,MI325X的延迟较H200降低20%-40%,Mixtral 8x7B模型吞吐量更是达到H200的1.4倍。

从硬件规格看,MI325X的内存容量(256GB vs 141GB)和带宽(6TB/s vs 4.8TB/s)分别实现1.8倍和1.3倍的提升,八卡系统总带宽达48TB/s,FP8算力聚合至20.8 PFLOPS。尽管H200在FP8精度下理论算力更高(3.958 PFLOPS),但实测中受限于稀疏计算优化,其有效算力仅与MI325X相当。

在DeepSeek-R1 671B等超大规模模型测试中,H200凭借141GB HBM3e显存和4.8TB/s带宽,实现首token响应<3秒、高并发吞吐量稳定在1100+ tokens/s,而MI325X在Llama 2 70B测试中八卡配置达33,928 tokens/s,接近H200水平。

软件生态层面,AMD通过ROCm 6.2平台优化,在Hugging Face模型支持量、大模型数据吞吐延迟等方面显著改进,但英伟达CUDA的开发者锁定效应仍构成挑战。

市场定位上,MI325X通过性价比和内存优势,在需要大内存的高参数模型场景中突围,而H200依托成熟生态和综合性能维持领先。

随着AMD计划2025年推出CDNA 4架构的MI350系列(288GB HBM3e,FP8算力9.2 PFLOPS),以及英伟达Blackwell架构的持续演进,AI芯片市场的竞争正进入架构创新与生态布局的深水区。

本文作者 | Watson

审校 | 编辑部

配图/封面来源 | 网络

编辑/出品 | 32度域(未经允许,禁止转载)

长期征集资讯/爆料:关于打印机行业、芯片和半导体行业、AI人工智能行业的最新内幕动向或传闻、公司业务调整、企业人事变动等消息,当然,如果你想吐槽一些行业内的奇闻趣事,也请尽管砸过来。如对本期资讯有异议或投诉,请联系 lin@sentgon.com

👍 喜欢有价值的内容,就在 32度域 扎堆



精彩动态,关注 32度域 视频号
页: [1]
查看完整版本: AMD发布新一代AI芯片(如Instinct MI325X),在AI算力上挑战英伟达H200