AI研究者如何无意中颠覆了300年的学习理论
作者:微信文章彩票票假设揭示:为何庞大神经网络成功,挑战传统预测
五年前,提议训练万亿参数的神经网络会被认为是异想天开。这违背机器学习铁律:
模型过大,就会变成“记忆机器”,记住训练数据却无法泛化。这是300年统计理论的基石,教科书上的曲线无情:小模型欠拟合,最优模型泛化,大模型过拟合。
然而,今天这些“不可能”的大模型驱动了ChatGPT、破解蛋白质结构,引发全球AI竞赛。
改变的不仅是算力,而是我们对学习的认知。这场突破源于研究者挑战传统,揭示了AI成功的秘密:规模化并非陷阱,而是通往优雅解法的钥匙。
机器学习的铁律:偏差-方差权衡
300年来,偏差-方差权衡统治学习理论。模型太简单,错过关键模式;太复杂,记住噪声而非信号。想象一个学加法的学生:
聪明学生学算法,愚笨学生背答案。前者在考试中胜出,后者失败。神经网络尤其易陷入“背答案”陷阱,百万参数可存储整个数据集,传统理论预测它们在测试中会崩溃。
研究者因此痴迷于优化小型模型,用架构设计、正则化等手段避免过拟合。扩大规模被视为昂贵且无用,学术界斥之为异端。
挑战传统的突破:双重下降
2019年,研究者大胆无视警告,训练超大型网络。理论预测的崩溃并未发生。模型在看似过拟合后,性能意外再次提升!
这种“双重下降”现象——错误率先升后降——颠覆了传统智慧。Mikhail Belkin等人记录道:“这与偏差-方差分析矛盾。”
OpenAI进一步发现,规模越大,模型不仅记住更多,还展现新能力,如从少量示例学习任务。
谷歌、微软、Meta等投入巨资,GPT参数从1.17亿暴增到1750亿。“越大越好”成为行业信条。
但问题仍存:为何规模化有效?
彩票票假设:规模的秘密
答案来自MIT的Jonathan Frankle和Michael Carbin。2018年,他们研究网络剪枝,发现大型网络中藏着“中奖彩票”——小型子网络,移除96%参数仍保持高性能。
但关键是:这些子网络需保留原始随机初始权重,否则失效。
彩票票假设由此诞生:大型网络成功不是因为复杂,而是提供无数“彩票”,每张是一个随机初始化的小型网络。
训练像抽奖,最优子网络脱颖而出。规模增加“彩票”数量,找到简单解法的概率大增。
这调和了传统理论:大模型不记忆数据,而是通过规模找到优雅的简单解法。奥卡姆剃刀依然适用,规模只是更高效的搜索工具。
智能的本质:规模与优雅
彩票票假设不仅解释AI成功,还重新定义智能。人类大脑有860亿神经元,过度参数化却擅于泛化。
这与大模型类似:规模提供更多机会找到简单模式,而非复杂记忆。
这对科学进步也有启示。研究者因理论限制避免规模化,但经验突破揭示新机制。类似地,板块构造、量子力学都曾挑战传统,最终推动科学向前。AI的突破提醒我们:真理常隐藏在理论边界之外。
未来:机遇与局限
规模化让AI大放异彩,但彩票票假设暗示回报递减。Yann LeCun指出,架构限制可能阻碍模型达到真正理解。未来突破或许需新设计,而非单纯加参数。
这场意外发现揭示:最深刻洞见常来自挑战常规。进化本身也如此,探索基因空间找到适者生存的简单解法。AI的成功并非打破规则,而是以更精妙的方式遵循规则。
页:
[1]