多客科技 发表于 2025-8-9 08:14

如何在 Ryzen AI 处理器和 Radeon 显卡上运行 OpenAI GPT-OSS 20B 和 120B 模型

作者:微信文章
本文翻译自博客 https://www.amd.com/en/blogs/2025/how-to-run-openai-gpt-oss-20b-120b-models-on-amd-ryzen-ai-radeon.html

OpenAI发布了其首款先进的开放权重语言模型。该版本包含一个拥有 1168 亿个参数(简称 120B)的模型(其中 51 亿个活跃参数)和一个拥有 209 亿个参数(简称 20B)的模型(其中 36 亿个活跃参数)。OpenAI GPT-OSS 20B 和 120B 语言模型为本地 AI 推理提供了先进的推理能力,并且 AMD 产品(例如锐龙 AI 处理器和 Radeon 显卡)已准备好提供 0 day 支持。您可以通过合作伙伴 LM Studio 在兼容硬件上试用这些模型。

AMD还宣布 Ryzen AI Max+ 395 是全球首款运行 OpenAI GPT-OSS 120B参数模型的消费级 AI PC 处理器。此前只能在数据中心级硬件上实现的功能,如今已可在轻薄本上实现。

扩展阅读《DeepSeek能否引领AI PC发展趋势?(技术篇)》



上周,AMD 升级了配备 128GB 内存的 AMD Ryzen™ AI Max+ 395 处理器的功能,使其能够通过 llama.cpp在 Windows 中运行高达 1280 亿个参数 的大模型。还发布了一篇 常见问题解答博客 (译文《FAQ: 96GB+16GB可变显存与128B大模型、MCP等》),涵盖模型大小、参数、量化、AMD 可变显存、MCP 等内容。

GGML 转换后的 MXFP4 权重大约需要 61GB 显存,可轻松装入 AMD Ryzen™ AI Max+ 395 处理器的 96GB 独立显存中。请注意,需要 AMD Software: Adrenalin™ Edition 25.8.1 WHQL 或更高版本的驱动程序才能解锁此功能。





凭借高达每秒 30 个令牌(Token/s)的速度,AMD 客户不仅可以访问数据中心级的先进模型,而且得益于 Ryzen™ AI Max+ 平台的带宽以及 OpenAI GPT-OSS 120B 的混合专家架构,其性能也非常实用。凭借其大内存,Ryzen™ AI Max+ 395 (128GB) 还支持该模型的模型上下文协议 (MCP) 实现。使用 AMD Ryzen™ AI 300 系列处理器的用户还可以充分利用 Open AI 提供的较小规模的 20B 模型。

为了在 OpenAI GPT-OSS 20B 模型中获得极速性能,用户可以在桌面系统中使用 AMD Radeon™ 9070 XT 16GB 显卡。此配置不仅提供闪电般的每秒令牌生成速度,还具有令人难以置信的 TTFT 优势。这意味着,在通常计算受限的情况下,使用模型上下文协议 (MCP) 实现 20B 模型的用户将发现此配置具有极高的 TTFT 响应性能。





在 AMD Ryzen™ AI 处理器和 Radeon™ 显卡上体验 OpenAI 的 GPT-OSS 120B 和 20B 模型

下载并安装AMD 软件:Adrenalin Edition 25.8.1 WHQL驱动程序或更高版本。请注意,旧版驱动程序的性能和支持可能会降低或缺失。
如果您使用的是搭载 AMD Ryzen™ AI 处理器的机器,请右键单击桌面 > AMD 软件:Adrenalin™ Edition >“性能”选项卡 >“调优”选项卡 >“可变显存”>请根据下方提供的规格表设置 VGM。如果您使用的是 AMD Radeon™ 显卡,则可以忽略此步骤并继续操作。

下载并安装 LM Studio。

跳过新用户引导培训。

转到“发现”选项卡(放大镜)

搜索“gpt-oss”。您应该会在左侧看到一个带有“ lm studio community ”前缀的选项。请选择 20B 或 120B 版本(以下方矩阵中与您的产品对应的版本为准)。点击下载。

转到聊天选项卡。

点击顶部的下拉菜单,选择 OpenAI 模型。务必点击“手动加载参数”。

将“GPU 卸载”滑块一直移到“最大”。检查记忆设置。

点击加载。如果您使用的是 120B 型号,则可能需要一段时间,并且加载进度条可能卡住(大多数 SSD 的读取速度在爆发后会下降,而且这款型号的容量很大,很难迁移到内存!)。

开始提示!
注:以上部分操作也可以参考我之前写的《从Qwen3 MoE & 稠密模型性能测试-看CPU/GPU算力需求》

编者注:120B模型,在4.25 Bit量化精度下,最低有60多GB内存可以跑起来。但以上配置中,还是建议用Ryzen AI Max + 128GB内存。因为在系统内存64GB时,给iGPU最多分配48GB专用显存。20B MoE模型对内存的要求门槛降低很多,只要达到16GB显存(包括集显),上图中列出的配置都能跑起来。超长上下文的情况则应另外讨论。尾注:


SHO-39-AMD 测试截至 2025 年 8 月。所有测试均基于 LM Studio 0.3.21b4 进行。Llama.cpp 运行时版本 1.44。每秒令牌数:针对样本问题“一个球从 10 米高处落下落地需要多长时间?”进行多次运行的持续性能平均值。测试模型:OpenAI GPT-OSS 120B。AMD 锐龙 AI MAX+ 395 处理器,搭载 ASUS ROG Flow Z13,配备 128GB 8000 MT/s 内存、Windows 11 Pro 24H2 操作系统和 Adrenalin 25.8.1 WHQL 系统。性能可能会有所不同。SHO-39

GD-164 - Day-0 驱动程序的兼容性和功能可用性取决于系统制造商和/或套装驱动程序版本。如需获取最新驱动程序,请访问 AMD.com。GD-164。

扩展阅读:《企业存储技术》文章分类索引更新(微信公众号合集标签)

注:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。如果您想在这个公众号上分享自己的技术干货,也欢迎联系我:)

感谢您的阅读和支持!《企业存储技术》微信公众号:HL_Storage



长按二维码可直接识别关注

历史文章汇总:http://www.toutiao.com/c/user/5821930387/

http://www.zhihu.com/column/huangliang
页: [1]
查看完整版本: 如何在 Ryzen AI 处理器和 Radeon 显卡上运行 OpenAI GPT-OSS 20B 和 120B 模型