AI人物-强化学习之父萨顿:教会机器"摸着石头过河"的科学家
作者:微信文章从心理学到AI:一位非典型计算机科学家的成长轨迹
理查德·萨顿(Richard Sutton)这个名字在人工智能圈子里如雷贯耳,但这位"强化学习之父"的学术起点却与计算机科学毫不相干。1977年,萨顿获得了斯坦福大学的心理学学士学位,那时的他对人类和动物学习机制充满好奇,这种兴趣最终引领他走向了人工智能研究的道路。用他自己的话说:"我对人工智能或与人工智能相关的一切感到很好奇,所以选择了计算机科学。我的秘密武器正是心理学背景——这让我看待AI的角度与众不同。"
这位跨界科学家的职业生涯像极了他所研究的强化学习算法——在不断尝试中寻找最优路径。1984年,他在马萨诸塞大学安姆斯特分校获得计算机科学博士学位,导师正是后来与他共同获得图灵奖的安德鲁·巴托(Andrew Barto)。此后,他辗转于工业界和学术界,曾在GTE实验室、AT&T香农实验室工作,2003年最终落脚加拿大阿尔伯塔大学,在那里建立了"强化学习与人工智能实验室"。
2024年3月,萨顿与导师巴托共同获得了计算机领域的最高荣誉——图灵奖,表彰他们为强化学习领域做出的奠基性贡献。评委会特别指出,他们的工作"不仅推动了强化学习理论发展,还为深度强化学习的崛起铺平了道路"。有趣的是,萨顿的学术传承形成了一条清晰的"师徒链":巴托指导了萨顿,萨顿又培养了将强化学习应用于AlphaGo的大卫·席尔瓦(David Silver)。
强化学习:让AI学会"吃一堑长一智"
想象一下教小狗做动作的场景:当它正确完成指令时,你会给它零食奖励;如果做错了,就得不到奖励。经过多次尝试,小狗会逐渐明白哪些行为能带来好吃的,从而更频繁地做出正确动作。强化学习的核心思想与此惊人地相似——让机器通过"尝试-犯错-调整"的循环来自主学习。
萨顿和巴托在20世纪80年代开始系统研究这一理念,他们从心理学中的行为主义理论和神经科学的多巴胺奖励机制获得灵感,将生物学的"试错学习"原理转化为可计算的数学模型。他们构建的框架简单却强大:一个智能体(Agent)通过与环境的不断互动,以获得最大累积奖励为目标,逐步优化自己的决策策略。
这种思路打破了传统AI依赖预设规则的局限,使机器能够像生物一样通过经验自我进化。用萨顿的话说:"强化学习系统可以尝试很多不同的事物。我们必须尝试不同的事物,必须搜索动作和空间或定义学习来最大化世界。"这与当时主流的监督学习形成鲜明对比——后者更像是"填鸭式教育",机器只能被动记忆人类提供的标准答案。
萨顿团队提出的时间差分学习(TD Learning)算法尤为关键。这个拗口的名词其实描述了一种相当直观的学习方式:机器不需要等待最终结果,而是在每一步都根据最新信息调整自己的预期。举个例子,下棋时不需要等到整盘棋结束才知道输赢,每走一步都能根据局势变化评估胜算。这种"边走边学"的方法极大提高了学习效率,成为后来Q-learning和深度强化学习的基石。
1998年,萨顿与巴托合著的《强化学习:导论》出版,这本书被奉为领域"圣经",全球引用超7.5万次,至今仍是斯坦福、MIT等顶尖学府的标准教材。书中通过二十一点、迷宫导航等生动案例,将抽象理论转化为可实践的代码逻辑,让更多研究者能够进入这一领域。
从理论到现实:当强化学习遇上大算力
尽管强化学习的理论体系在上世纪就已成型,但它的真正爆发要等到计算能力大幅提升之后。萨顿曾坦言:"我们需要时间等待可用的硬件...很长一段时间以来,人们都在说我们会在2030年拥有足以支持强人工智能的算力。"
2016年,谷歌DeepMind的AlphaGo通过数百万局自我博弈,结合蒙特卡洛树搜索与深度强化学习,击败了世界围棋冠军李世石。这一里程碑事件首次向公众展示了强化学习在复杂决策中的惊人潜力——围棋可能的走法比宇宙中的原子数量还多,传统编程根本无法穷尽所有可能性,而强化学习让AI通过"自我对弈"找到了人类千年智慧都未曾发现的棋路。
另一个改变世界的应用是ChatGPT等大语言模型。这些模型训练的第二阶段采用了基于人类反馈的强化学习(RLHF)技术——人类标注员对模型的回答进行评分,AI则根据这些反馈调整自己的输出,使其更符合人类期望。萨顿对此评价道:"传统的深度学习方式需要使用标记好的数据集进行训练,而强化学习并不需要这样。你可以发挥想象力改变设定,因为你虽然没有足够的数据,但你知道在正常情况下应该怎么做。"
强化学习的应用远不止于此:从谷歌数据中心节能优化到特斯拉自动驾驶的路径规划,从网络拥塞控制到芯片设计,这套方法正在各个领域释放价值。最神奇的是,一些在虚拟环境中训练出的技能竟能迁移到现实世界——比如通过强化学习,机器人手可以在模拟中学会解魔方,然后将这一能力直接应用于真实机械臂。
"苦涩的教训":萨顿对当前AI发展的另类思考
在众人为大型语言模型欢呼时,萨顿却保持着冷静的批判态度。2019年,他发表了一篇题为《苦涩的教训》(The Bitter Lesson)的文章,核心观点直指AI研究的痛点:过去70年最大的教训是"我们过于依赖人类经验和知识,而忽视了可扩展计算的力量"。
萨顿认为,当前的大语言模型方向"没有前途",尽管它们展示了计算、网络和学习的潜力,但"缺乏行动、目标以及对真实性的判断能力"。他尖锐指出:"人类数据已经接近极限,继续依赖人类数据来推动AI发展是不可持续的。"在他看来,像GPT这样的大模型只是在模仿人类行为,并未真正理解自己的行动,"在于你互动时完全不会学习"。
这位强化学习先驱提出了一个颠覆性的转向:AI需要从"人类数据时代"迈向"经验时代",即通过与环境的直接交互来获取经验,而非依赖预设的人类数据。他预测"大模型可能会在五年内被抛弃,而扩展计算才是未来",因为单纯增加模型规模带来的性能提升已趋于平缓,投入与回报不成正比。
萨顿的观点与具身智能(Embodied Intelligence)理念不谋而合——强调智能体通过身体与环境的实际互动来学习,而非被动处理抽象数据。他设想未来的AI系统应该是去中心化的,由多个具有不同目标和能力的智能体组成,通过强化学习独立追求各自目标,同时协作完成复杂任务。
这种思路正在影响新一代AI系统的设计。例如DeepSeek的R1推理模型通过无监督强化学习解决数学问题,展示了机器突破特定任务限制、向通用智能迈进的可能性。萨顿团队近期提出的"奖励居中"(Reward Centering)理论,则通过优化奖励信号处理显著提升了算法效率。
争议与未来:强化学习能带我们走多远?
尽管成就斐然,萨顿对当前AI的发展速度持谨慎态度。当被问及2030年前能否实现强人工智能算法时,他回答:"我认为我们现在还没有强人工智能的算法,但我们也许能在2030年之前实现它。"但他也提醒,即使硬件条件成熟,"可能仍然需要10年以上的时间等待最聪明的研究者研究出算法"。
萨顿与巴托在获得图灵奖之际,也不忘表达对AI安全的担忧。巴托批评许多公司急于将未充分测试的产品推向市场,这种做法如同"建造一座桥,然后通过让行人使用来测试其安全性"。萨顿则指出,商业利益驱动导致业界忽视深入研究,他呼吁建立更严谨的安全标准。
关于强化学习与通用人工智能(AGI)的关系,萨顿的看法颇为辩证。他实验室的名字"强化学习与人工智能"(RLAI)中的"与"(and)字被他赋予了哲学意味:"它可能是'and',也能是'or'。因为强化学习既是人工智能的一个子集,也是人工智能的一个源头。其中的关系挺模糊的。我们也仍还在寻找答案。"
展望未来,萨顿认为让机器通过强化学习掌控物理身体将是"通向通用人工智能的自然路径"。这与婴儿通过与环境互动学习认识世界的过程惊人相似。或许,这位从心理学起步的科学家,最终为我们指明了一条最接近自然智能发展规律的人工智能之路。从围棋冠军到聊天机器人,从数据中心到自动驾驶,萨顿开创的强化学习已经深刻改变了AI领域的面貌。但对他而言,这远非终点。正如他在《苦涩的教训》结尾所写:"未来的突破将来自那些充分利用计算规模的方法,而非执着于人类既有的认知方式。"在这个大数据时代,这位科学家的"反数据"主张显得格外叛逆而深刻。
当大多数研究者沉迷于构建更大的模型、收集更多的数据时,萨顿提醒我们回归智能的本质:学习不是记忆,而是通过主动探索理解世界运行的规律。这种思想或许正是AI突破当前瓶颈的关键所在。用他自己的话说:"让机器通过强化学习掌控物理身体,将是通向通用人工智能的自然路径。"在这个意义上,强化学习不仅是AI的一个分支,更是一种关于智能本质的深刻哲学。
页:
[1]