【如何在 Ryzen AI 处理器和 Radeon 显卡上运行 OpenAI GPT-OSS 20B 和 120B 模型】萍聚社区-德国热线-德国实用信息网人工智能

多客科技 发表于 2025-8-9 08:14

如何在 Ryzen AI 处理器和 Radeon 显卡上运行 OpenAI GPT-OSS 20B 和 120B 模型

作者：微信文章
本文翻译自博客 https://www.amd.com/en/blogs/2025/how-to-run-openai-gpt-oss-20b-120b-models-on-amd-ryzen-ai-radeon.html

OpenAI发布了其首款先进的开放权重语言模型。该版本包含一个拥有 1168 亿个参数（简称 120B）的模型（其中 51 亿个活跃参数）和一个拥有 209 亿个参数（简称 20B）的模型（其中 36 亿个活跃参数）。OpenAI GPT-OSS 20B 和 120B 语言模型为本地 AI 推理提供了先进的推理能力，并且 AMD 产品（例如锐龙 AI 处理器和 Radeon 显卡）已准备好提供 0 day 支持。您可以通过合作伙伴 LM Studio 在兼容硬件上试用这些模型。

AMD还宣布 Ryzen AI Max+ 395 是全球首款运行 OpenAI GPT-OSS 120B参数模型的消费级 AI PC 处理器。此前只能在数据中心级硬件上实现的功能，如今已可在轻薄本上实现。

扩展阅读《DeepSeek能否引领AI PC发展趋势？(技术篇)》

上周，AMD 升级了配备 128GB 内存的 AMD Ryzen™ AI Max+ 395 处理器的功能，使其能够通过 llama.cpp在 Windows 中运行高达 1280 亿个参数的大模型。还发布了一篇常见问题解答博客（译文《FAQ: 96GB+16GB可变显存与128B大模型、MCP等》），涵盖模型大小、参数、量化、AMD 可变显存、MCP 等内容。

GGML 转换后的 MXFP4 权重大约需要 61GB 显存，可轻松装入 AMD Ryzen™ AI Max+ 395 处理器的 96GB 独立显存中。请注意，需要 AMD Software: Adrenalin™ Edition 25.8.1 WHQL 或更高版本的驱动程序才能解锁此功能。

凭借高达每秒 30 个令牌（Token/s）的速度，AMD 客户不仅可以访问数据中心级的先进模型，而且得益于 Ryzen™ AI Max+ 平台的带宽以及 OpenAI GPT-OSS 120B 的混合专家架构，其性能也非常实用。凭借其大内存，Ryzen™ AI Max+ 395 (128GB) 还支持该模型的模型上下文协议 (MCP) 实现。使用 AMD Ryzen™ AI 300 系列处理器的用户还可以充分利用 Open AI 提供的较小规模的 20B 模型。

为了在 OpenAI GPT-OSS 20B 模型中获得极速性能，用户可以在桌面系统中使用 AMD Radeon™ 9070 XT 16GB 显卡。此配置不仅提供闪电般的每秒令牌生成速度，还具有令人难以置信的 TTFT 优势。这意味着，在通常计算受限的情况下，使用模型上下文协议 (MCP) 实现 20B 模型的用户将发现此配置具有极高的 TTFT 响应性能。

在 AMD Ryzen™ AI 处理器和 Radeon™ 显卡上体验 OpenAI 的 GPT-OSS 120B 和 20B 模型

下载并安装AMD 软件：Adrenalin Edition 25.8.1 WHQL驱动程序或更高版本。请注意，旧版驱动程序的性能和支持可能会降低或缺失。
如果您使用的是搭载 AMD Ryzen™ AI 处理器的机器，请右键单击桌面 > AMD 软件：Adrenalin™ Edition >“性能”选项卡 >“调优”选项卡 >“可变显存”>请根据下方提供的规格表设置 VGM。如果您使用的是 AMD Radeon™ 显卡，则可以忽略此步骤并继续操作。

下载并安装 LM Studio。

跳过新用户引导培训。

转到“发现”选项卡（放大镜）

搜索“gpt-oss”。您应该会在左侧看到一个带有“ lm studio community ”前缀的选项。请选择 20B 或 120B 版本（以下方矩阵中与您的产品对应的版本为准）。点击下载。

转到聊天选项卡。

点击顶部的下拉菜单，选择 OpenAI 模型。务必点击“手动加载参数”。

将“GPU 卸载”滑块一直移到“最大”。检查记忆设置。

点击加载。如果您使用的是 120B 型号，则可能需要一段时间，并且加载进度条可能卡住（大多数 SSD 的读取速度在爆发后会下降，而且这款型号的容量很大，很难迁移到内存！）。

开始提示！
注：以上部分操作也可以参考我之前写的《从Qwen3 MoE & 稠密模型性能测试-看CPU/GPU算力需求》

编者注：120B模型，在4.25 Bit量化精度下，最低有60多GB内存可以跑起来。但以上配置中，还是建议用Ryzen AI Max + 128GB内存。因为在系统内存64GB时，给iGPU最多分配48GB专用显存。20B MoE模型对内存的要求门槛降低很多，只要达到16GB显存（包括集显），上图中列出的配置都能跑起来。超长上下文的情况则应另外讨论。尾注：

SHO-39-AMD 测试截至 2025 年 8 月。所有测试均基于 LM Studio 0.3.21b4 进行。Llama.cpp 运行时版本 1.44。每秒令牌数：针对样本问题“一个球从 10 米高处落下落地需要多长时间？”进行多次运行的持续性能平均值。测试模型：OpenAI GPT-OSS 120B。AMD 锐龙 AI MAX+ 395 处理器，搭载 ASUS ROG Flow Z13，配备 128GB 8000 MT/s 内存、Windows 11 Pro 24H2 操作系统和 Adrenalin 25.8.1 WHQL 系统。性能可能会有所不同。SHO-39

GD-164 - Day-0 驱动程序的兼容性和功能可用性取决于系统制造商和/或套装驱动程序版本。如需获取最新驱动程序，请访问 AMD.com。GD-164。

扩展阅读：《企业存储技术》文章分类索引更新（微信公众号合集标签）

注：本文只代表作者个人观点，与任何组织机构无关，如有错误和不足之处欢迎在留言中批评指正。如果您想在这个公众号上分享自己的技术干货，也欢迎联系我：）

感谢您的阅读和支持！《企业存储技术》微信公众号：HL_Storage

长按二维码可直接识别关注

历史文章汇总：http://www.toutiao.com/c/user/5821930387/

http://www.zhihu.com/column/huangliang

页: [1]

萍聚社区-德国热线-德国实用信息网's Archiver

如何在 Ryzen AI 处理器和 Radeon 显卡上运行 OpenAI GPT-OSS 20B 和 120B 模型