花花AI观察室 | 76.OpenAI时隔六年再开源!gpt‑oss双模型对战Qwen3,中美开源竞赛打响?笔记本就能跑?冲了!
作者:微信文章你好,我是花花,欢迎来到《花花AI观察室》
每天一件AI事,看透世人小心思,看懂行业大趋势。
OpenAI 昨天甩出了一颗重磅炸弹——时隔整整六年,它终于又开源了。没错,就是那个一直被外界认为“死守闭源阵地”的 OpenAI,这回直接放出了两个推理型大模型的全部权重:gpt‑oss‑120b 和 gpt‑oss‑20b,还用了宽松的 Apache 2.0 许可证,允许你商用、魔改、再分发,甚至直接抱回家在笔记本上跑。
简单说,大号的 120b 接近 1170 亿参数,在很多推理任务上能跟自家的 o4-mini 掰手腕,在数学和健康问答里甚至能赢;小号的 20b 参数只有 210 亿,却能在 16GB 内存的电脑、甚至高端平板上本地跑起来,性能比 o3-mini 还好。一个冲击高端算力市场,一个锁死轻量级部署场景,组合拳打得干脆。
要知道,上一次 OpenAI 开源还是 2019 年的 GPT-2,那会儿他们还担心“能力太强会被滥用”,结果一开完源就彻底关上了大门,转头走上了闭源 API 的商业化高速路。这次为什么又回来了?我看主要有三层原因。
第一,形势变了。过去一年,Meta Llama、阿里的 Qwen、DeepSeek、Mistral……一波又一波开源模型冲击市场,从学术到企业都在抢着跑本地化。OpenAI 如果不下场,开源推理的山头迟早要被别人占满。
第二,产品定位变了。gpt‑oss 系列并不是最顶尖的旗舰模型,属于能力够强、成本够低、部署够广的“种子选手”。这就像你在社交平台丢一个话题,等社区去帮你发酵、二创、改造,既能吸引开发者,又不影响自家闭源旗舰赚钱。
第三,生态布局变了。AWS 已经宣布直接接入 gpt‑oss,让它成为 Bedrock 和 SageMaker 的可选模型;Hugging Face 上一开放下载就冲进热门榜前列。开源不仅是技术输出,更是一次用户关系抢占战。
奥特曼自己也表态,说这是为了“把 AI 带给尽可能多的人”,听上去很理想主义,但你要知道,这句话是在 Qwen 3 已经横扫 Hugging Face 榜单、DeepSeek 在 Reddit 上成了传奇之后说的——这不光是情怀,还是回应。
我也去看了社区的反应,数据量不小,国外 Reddit、Hacker News、国内 LM Studio 用户群,正反都有。
正面的声音很直接——120b 版跑分接近 o3/o4-mini,推理链加长后输出明显变聪明,有服务商能跑到 3000 tokens/s,这速度简直离谱;20b 在低配机器上轻快顺滑,被夸是“史上最可用的小型高质模型”。
负面的吐槽也不少——有人说“真不怎么样”,跟自己熟悉的 Kimi K2、DeepSeek R1 比没惊喜;有人测了几轮 agent 工具调用,失败率高到离谱;还有人直接甩冷水:“看到大V说好用我就知道在吹”。更有意思的是,几乎每一篇讨论帖底下,都会出现对比 Qwen 3 的评论——有人直言这已经成了“阿里 vs OpenAI”的开源暗战。
我注意到一个有意思的分歧:国内外测试的口径差很多,国内很多人在对比多轮推理、中文任务和长文生成,国外更多测的是数学推理、编程 benchmark。加上每个人的硬件、部署环境、提示词习惯都不同,得出的结论自然天差地别。
单独说一句——我真心想为开源社区精神点个赞。它的核心价值,不仅是“免费”二字,还有那种把技术交到公众手里,让全世界的开发者、爱好者、研究员都能平等使用、自由试错、公开交流的氛围。你可以在论坛里看到别人分享奇葩测试案例,也能在 GitHub 上直接下载别人的优化脚本。
正因为这种开放和共享,我们才能更快暴露问题、更快找到改进方案。一个模型一旦进入开源社区,就意味着它的寿命、形态和边界,将不再由厂商单方面定义,改为由成千上万的用户共同塑造。不觉得,我们中国人,很需要这种精神吗?
我一直觉得,这才是开源的意义——模型一旦放出来,就会被成千上万的用户用各种离谱、刁钻甚至恶意的方式去测试,你会听到赞美,也会听到骂声,中间还有一堆模棱两可的“看场景”。这比任何官方跑分都更贴近真实。
如果一个开源模型只有好评,那八成是被公关筛过;如果只有差评,那要么它真拉胯,要么它踩了某个群体的痛点。最有参考价值的,永远是这种多元而混乱的社区声音。
至于这次和 Qwen 3 的较量,我反而觉得是件好事。中美两家头部厂商在开源赛道硬碰硬,对谁都是催化剂——Qwen 3 在多语言和长上下文上继续优化,gpt‑oss 在安全对齐和推理链能力上加码,开发者和用户就是最大的受益方。
所以我对这件事的态度很简单:这是一次好事,甚至是一次标志性事件。它证明了开源不再是“非主流厂商的自救”,已经被头部玩家重新接纳的主流策略。它让市场的水温升高,让更多人愿意跳进来试水、折腾、改造,也让那些坐在岸边看热闹的公司感受到压力。
更重要的是,它让我们这些普通用户能真切地参与到一次技术的“集体验收”里——你可以在自己的设备上跑它、骂它、夸它、改它,这本身就是一种被科技时代赋予的参与权。
再回到花花我自己啊,这次我是真的打算好好试一试。之前我对开源大模型的第一次尝试,是 DeepSeek 的那个小容量版本。那时候大家兴冲冲地跑了几轮,普遍觉得也就那么回事儿,然后就放那儿吃灰了。可这次不一样——毕竟是我每天都在用的 ChatGPT 亲手放出来的开源模型,积极性立马就上来了。也许这里面有点“粉丝滤镜”,但我觉得这挺好,起码会让我更愿意投入时间,耐心地把流程跑通,把功能摸透。说不定,这种投入本身就是一次价值,也是这件事对我的意义所在。
今天的花花AI观察室就到这里,没有人比我更懂AI。
如果你喜欢今天的专栏,欢迎转发给朋友,我们明天见。
PS:我问豆包,自己写的东西,没有人看,有点写不下去了,豆包给我说,不如就当写给未来的自己怎么样?好吧,我每篇都会给未来的自己说一句话
致未来的我:今天我刷X收集各种开源评价觉得可有意思了,你知道吗?其实带节奏说负面的虽然流量不少,但是客观说正面的显然看起来更舒服,不知道未来的你,是不是硬件设备中都有AI模型在里面啊?用的是谁家的啊?希望给我留言
我们正在借助AI实现内容自由,如果您也想打造个人IP,布局自媒体,或者为自己的数字生命积累数据,欢迎加入我们,一起【留下点什么】服务体系日益完善,目标千人日更大社区,真正的活在未来!一件事,一群人,一辈子【终身招募】AI日更实战营|用99天,实现内容自由! 2.0
DYOR AI 智库 免费分享大量AI素材和课程
帮你省下海量银子
扫码添加客服微信领素材包
https://mmbiz.qpic.cn/mmbiz_jpg/CiasOtjLf2zvHgwYwfRJB6KaTcRLTBd4UOjwHCpribcePnVAfS3rLKseicKCBUPr7cTYT2AyVqOogNh283AQNnfCA/640?wx_fmt=jpeg&from=appmsg&wxfrom=5&wx_lazy=1&wx_co=1&randomid=l5kozj74&tp=webp
页:
[1]