OpenAI 的 GPT-5 看起来不像是 AI 进化,更像是成本削减:总得想办法支付所有这些 GPU 的费用
作者:微信文章尽管 OpenAI 的新顶级模型充满了夸张的言论,但它似乎并不是什么进步,而是一种节省计算成本的方法——而这一点并没有得到该公司最忠实用户的认可。
作为开启生成式人工智能时代的旗手,OpenAI 面临着巨大的压力,不仅要展示技术进步,还要通过证明其业务正在增长来证明其数十亿美元的巨额融资是合理的。
为了实现这一目标,OpenAI 可以扩大用户群、提高价格或削减成本。业内大部分公司已经围绕每月 20 美元和 200 美元的定价模式进行调整。因此,OpenAI 需要提供一些其他公司无法提供的产品来证明其溢价的合理性,否则可能会面临客户流失到 Anthropic 或谷歌等竞争对手的风险。
新学年即将开始,暑假过后学生们陆续返校,OpenAI 的订阅量必将迎来新一轮增长。付费用户增多固然意味着收入增加,但也意味着计算成本上升。
进入削减成本时代。
或许,削减成本的最佳证据是 GPT-5 实际上并非单一模型。它至少包含两种模型:一种是能够快速响应大多数请求的轻量级 LLM,另一种是旨在处理更复杂主题的更重型模型。提示落入哪种模型由路由器模型决定,该模型的作用有点像整个平台的智能负载均衡器。图像提示使用完全不同的模型,即 Image Gen 4o。
这与 OpenAI 过去的运作方式有所不同。此前,Plus 和 Pro 用户可以选择自己喜欢的模型。如果你想问一些 GPT-4 可以轻松解决的普通问题,你大可以问。
理论上,OpenAI 的路由器模型应该允许 GPT-5 的大部分流量由其较小、资源密集程度较低的模型来提供服务。
OpenAI 决定根据任务的复杂程度自动默认开启或关闭推理功能,这进一步证明了其降低成本的意图。“免费用户”……我们指的是免费套餐用户,无法自行开启此功能。模型进行的推理越少,生成的代币就越少,运行成本也就越低。
然而,虽然这种方法可能对 OpenAI 的盈利能力更为有利,但它似乎并没有让模型本身变得更加智能。正如我们在发布日报道中提到的那样,OpenAI 的基准测试结果与之前的模型相比,提升幅度相当有限。最大的改进在于工具调用和抑制幻觉方面。
你的眼睛没有欺骗你,GPT-5 在 AIME 2025 等数学基准测试中仅显示出迭代改进 - 点击放大
新系统依赖于路由模型将提示重定向到正确的语言模型,根据早期反馈,OpenAI 的这一系统运行效果并不理想。Altman 表示,GPT-5 发布当天,其路由功能就出现了故障,这导致该模型看起来比实际“笨得多”。
想必这就是为什么 GPT-5 认为“蓝莓”只有一个 B 的原因。现在看来,OpenAI 已经修复了这个相当尴尬的错误。
但由于 GPT-5 的路由器是一个单独的型号,该公司至少可以对其进行改进。
弃用模型
路由器模型并非 OpenAI 唯一的成本削减措施。在上周这家 AI 巨头的发布会上,高管们透露,他们对 GPT-5 非常有信心,因此将弃用所有之前的模型。
这并没有得到用户的认可,首席执行官 Sam Altman 后来承认,OpenAI 在选择删除 GPT-4o 等模型时犯了一个错误,尽管该模型缺乏推理能力且在基准测试中的表现普遍较差,但它显然在最终用户和企业中颇受欢迎。
他写道:“如果你一直在关注 GPT-5 的推出,你可能会注意到,有些人对特定的 AI 模型有着多么深厚的感情。这种感情与人们对之前各种技术的感情截然不同,而且更加强烈(因此,突然弃用用户在工作流程中依赖的旧模型是一个错误)。”
尽管如此,需要处理的模型越少,意味着可用的资源就越多。
OpenAI 没有透露有关其内部(非开源)模型的太多技术细节,但如果 GPT-5 与开发人员的开放权重模型 gpt-oss-20b 和 gpt-oss-120b 有任何相似之处,并且它被量化为 MXFP4,那么 OpenAI 有充分的理由希望所有这些遗留的 GPT 消失。
正如我们最近探索的那样,与使用 BF16 相比,该数据类型可以将 LLM 所需的内存、带宽和计算量减少高达 75%。
目前,OpenAI 已向付费用户恢复了 GPT-4o,但我们毫不怀疑,一旦 OpenAI 弄清楚是什么让该模型如此受欢迎以及如何将其应用于 GPT-5,他们就会这样做。
缺乏背景
除了架构上的改变之外,OpenAI 还选择不增加 GPT-5 的上下文窗口(你可以将其视为其长期记忆)。免费用户仍然限制在 8,000 个令牌上下文,而 Plus 和 Pro 用户则限制在 128,000 个令牌。
与 Claude 的 Pro 计划相比,Anthropic 的定价与 OpenAI 的 Plus 订阅相似,并提供 20 万个令牌上下文窗口。谷歌的 Gemini 支持高达 100 万个令牌的上下文。
较大的上下文非常适合搜索或汇总大量文本,但它们也需要大量内存。通过坚持使用较小的上下文,OpenAI 可以在更少的 GPU 上运行其模型。
如果 OpenAI 关于 GPT-5 幻觉比之前的模型减少 80% 的说法属实,那么我们预计用户会想要更大的上下文窗口来进行文档搜索。
话虽如此,如果长上下文对你很重要,那么通过 OpenAI 的 API 提供的 GPT-5 版本支持多达 400,000 个令牌的上下文窗口,但如果你真的想利用它,你将付出相当多的钱。
在 GPT-5 上仅填充一次上下文就会花费你大约 50 美分,如果你计划持续向模型中输入大量文档,那么这笔费用很快就会累积起来。
奥特曼挥动双手
自 GPT-5 首次亮相以来,奥特曼一直在做相当多的损害控制工作。
除了恢复 GPT-4o 之外,付费用户现在还可以选择并调整 GPT-5 的响应速度(自动、快速和思考)。他还将消息发送频率限制提高到每周 3000 条。
周一,奥特曼阐述了OpenAI 未来几个月的计算分配策略,毫无疑问,该策略将优先考虑付费客户。
Altman 表示,一旦 ChatGPT 的客户获得资源,API 的使用将优先考虑,至少在当前分配的容量范围内。“粗略估计,凭借这一容量,我们可以支持大约 30% 的新增 API 增长,”他在一篇 X 帖子中写道。
只有到那时,OpenAI 才会考虑提升 ChatGPT 免费层的质量或扩展 API 容量。不过不用担心,如果 Altman 的话属实,到今年年底,OpenAI 的计算能力将翻倍。
他写道:“我们将在未来 5 个月内将计算能力扩大一倍!所以这种情况应该会有所好转。”
theregister.com
页:
[1]