AI首次夺金!OpenAI大模型在2025国际数学奥林匹克中获金牌
作者:微信文章这是一个划时代的进展,OpenAI 新的实验性推理大模型在2025年国际数学奥林匹克(IMO)上达到了金牌水平,意味着它不仅能解决高难度的数学题,而且是在接近人类巅峰水平的条件下完成的。
AI 提交的答案如下:https://github.com/aw31/openai-imo-2025-proofs/
✅ 这意味着什么?
1. 模型在“长推理链”上的重大突破
以往 AI 多数只能处理较短的逻辑链,例如:
GSM8K:小学四则运算,平均人类推理时间 6 秒;MATH benchmark:中学竞赛题,推理约需 1 分钟;AIME:美国中级数学竞赛,约需 10 分钟;IMO:国际数学奥林匹克,推理时间跨度通常是1.5 小时 / 每题,总计 9 小时。
现在这个模型能完整写出 IMO 题目的自然语言证明,标志着 AI 正在逼近“系统 2”级的人类深度思维过程。
2. 超越 RL 奖励机制的训练方式
IMO 题目的答案不是单个选项或数值,而是:
多页复杂证明;没有标准答案可验证;只有人类专家才能判断“是否合理”。
这意味着 OpenAI 放弃了传统“可验证 reward”强化学习路径,而采用了更靠近“人类推理模拟”的范式。
🚀 技术路线亮点
“我们不是靠 task-specific 微调,而是通过通用强化学习 + 增强计算规模(test-time compute scaling)突破的。”
- Alexander Wei
简而言之:
不是靠投喂 IMO 历年题库训练“考试机器”;而是通过提升模型自身的推理广度与深度,来具备自然解题能力;使用 test-time compute scaling 技术,让模型在关键任务中动态增加推理步骤与资源,相当于“考试时额外动脑”。
📌 意义与影响
对 AI 行业:
标志着 LLM 开始跨入需要严谨推理的复杂领域;在某种程度上,迈出了朝“通用智能(AGI)”又一步。
对数学教育与科研:
未来 AI 可辅助学生构造证明步骤;助力学者探索未解问题的中间推理环节;模型能被用于“逆训练”:从结论反推出构造性证明。
🎯 模型成绩与评估方式
“模型解决了 2025 IMO 的 6 道题中的 5 道,总得分 35/42,足以获得金牌。”
✅ 评分机制:
每道题由三位前 IMO 金牌选手独立评分;最终得分由三人一致同意后确认;说明这不是机械式对错判断,而是真正从“数学证明合理性”出发的专家审核。
🧠 模型做对的是哪几道题?
P1 ~ P5 均解决成功;P6(通常是最难的一题)未能给出答案。
35 分是 IMO 金牌线的上游水平,通常金牌 cutoff 约在 28-34 之间。
🔬 模型属性
“这个模型是一个实验性研究模型,并不会在短期内公开。”
lol,还是不公开吗
当前模型并非即将发布的 GPT-5;GPT-5 即将发布,但不会具备 IMO 级别数学能力;数学能力强到这个程度的模型,还属于实验室原型阶段,OpenAI 预计数月内不会释放此类能力。
虽然公众可用模型在逐步升级,但最尖端的推理 AI 仍属受控试验型技术。
🚀 AI 进步速度:远超预测
“我曾预测到 2025 年只能做到 MATH benchmark 的 30%,现在模型已经拿下了 IMO 金牌。”
MATH benchmark 是 1 分钟级推理任务,而 IMO 是 90 分钟以上的人类智力极限。
预测 vs 现实差距:
原预测:2025 年只能在中学竞赛题上做到 30%;实际表现:2025 年模型解出了全球最顶级数学竞赛的金牌题。
人类专家在 2021 年对 AI 数学能力的评估,大幅低估了当前的发展速度。
页:
[1]