【AI首次夺金!OpenAI大模型在2025国际数学奥林匹克中获金牌】萍聚社区-德国热线-德国实用信息网人工智能

多客科技 发表于 2025-7-20 12:13

AI首次夺金!OpenAI大模型在2025国际数学奥林匹克中获金牌

作者：微信文章
这是一个划时代的进展，OpenAI 新的实验性推理大模型在2025年国际数学奥林匹克（IMO）上达到了金牌水平，意味着它不仅能解决高难度的数学题，而且是在接近人类巅峰水平的条件下完成的。

AI 提交的答案如下：https://github.com/aw31/openai-imo-2025-proofs/

✅ 这意味着什么？

1. 模型在“长推理链”上的重大突破

以往 AI 多数只能处理较短的逻辑链，例如：
GSM8K：小学四则运算，平均人类推理时间 6 秒；MATH benchmark：中学竞赛题，推理约需 1 分钟；AIME：美国中级数学竞赛，约需 10 分钟；IMO：国际数学奥林匹克，推理时间跨度通常是1.5 小时 / 每题，总计 9 小时。

现在这个模型能完整写出 IMO 题目的自然语言证明，标志着 AI 正在逼近“系统 2”级的人类深度思维过程。
2. 超越 RL 奖励机制的训练方式

IMO 题目的答案不是单个选项或数值，而是：
多页复杂证明；没有标准答案可验证；只有人类专家才能判断“是否合理”。

这意味着 OpenAI 放弃了传统“可验证 reward”强化学习路径，而采用了更靠近“人类推理模拟”的范式。

🚀 技术路线亮点

“我们不是靠 task-specific 微调，而是通过通用强化学习 + 增强计算规模（test-time compute scaling）突破的。”
- Alexander Wei

简而言之：
不是靠投喂 IMO 历年题库训练“考试机器”；而是通过提升模型自身的推理广度与深度，来具备自然解题能力；使用 test-time compute scaling 技术，让模型在关键任务中动态增加推理步骤与资源，相当于“考试时额外动脑”。
📌 意义与影响

对 AI 行业：

标志着 LLM 开始跨入需要严谨推理的复杂领域；在某种程度上，迈出了朝“通用智能（AGI）”又一步。
对数学教育与科研：

未来 AI 可辅助学生构造证明步骤；助力学者探索未解问题的中间推理环节；模型能被用于“逆训练”：从结论反推出构造性证明。
🎯 模型成绩与评估方式

“模型解决了 2025 IMO 的 6 道题中的 5 道，总得分 35/42，足以获得金牌。”
✅ 评分机制：

每道题由三位前 IMO 金牌选手独立评分；最终得分由三人一致同意后确认；说明这不是机械式对错判断，而是真正从“数学证明合理性”出发的专家审核。
🧠 模型做对的是哪几道题？

P1 ~ P5 均解决成功；P6（通常是最难的一题）未能给出答案。

35 分是 IMO 金牌线的上游水平，通常金牌 cutoff 约在 28-34 之间。
🔬 模型属性

“这个模型是一个实验性研究模型，并不会在短期内公开。”

lol，还是不公开吗
当前模型并非即将发布的 GPT-5；GPT-5 即将发布，但不会具备 IMO 级别数学能力；数学能力强到这个程度的模型，还属于实验室原型阶段，OpenAI 预计数月内不会释放此类能力。

虽然公众可用模型在逐步升级，但最尖端的推理 AI 仍属受控试验型技术。
🚀 AI 进步速度：远超预测

“我曾预测到 2025 年只能做到 MATH benchmark 的 30%，现在模型已经拿下了 IMO 金牌。”

MATH benchmark 是 1 分钟级推理任务，而 IMO 是 90 分钟以上的人类智力极限。

预测 vs 现实差距：
原预测：2025 年只能在中学竞赛题上做到 30%；实际表现：2025 年模型解出了全球最顶级数学竞赛的金牌题。

人类专家在 2021 年对 AI 数学能力的评估，大幅低估了当前的发展速度。

页: [1]

萍聚社区-德国热线-德国实用信息网's Archiver

AI首次夺金!OpenAI大模型在2025国际数学奥林匹克中获金牌