【AI的下一站:从＂喂饭＂到＂自己学走路＂的革命性转变!强化学习大佬的＂思想炸弹＂!】萍聚社区-德国热线-德国实用信息网人工智能

我爱免费 发表于 2025-4-21 19:49

AI的下一站:从＂喂饭＂到＂自己学走路＂的革命性转变!强化学习大佬的＂思想炸弹＂!

作者：微信文章
最近，我被一篇来自DeepMind的文章彻底震撼了！Richard Sutton（没错，就是那位RL大佬）和David Silver（AlphaGo之父）联合发表了《Welcome to the Era of Experience》。这篇文章其实就是AI领域的"思想炸弹"，它没有复杂的技术细节，却像一盏明灯，为AI未来指明了方向！

David Silver访谈截图为什么这篇文章如此重要？

说实话，我平时看到的AI论文大多是在讲模型结构、参数调优或者各种benchmark成绩。但这篇文章完全不一样！它不是在讲"怎么做"，就是在讲"为什么做"和"往哪里走"。

这就像是AI界的"指南针"，而不是又一个"工具箱"。

回想一下，Sutton之前的《The Bitter Lesson》已经成为了OpenAI发展ChatGPT的指导思想。所以这篇新文章很可能会成为未来几年AI发展的重要指南！
AI发展的三个阶段：我们正在见证历史

文章提出了AI发展的三个关键阶段，我觉得这个框架超级清晰：

AI发展三个阶段时间轴
人工特征工程阶段（The Era of Simulation）：工程师们手动设计特征，告诉AI该关注什么。这个阶段的代表作是AlphaGo和AlphaZero，主要以强化学习为主，在仿真环境中训练。

从人类数据学习阶段（The Era of Human Data）：AI从人类提供的大量数据中学习，代表作是GPT系列。在这个阶段，对强化学习的关注度逐渐下降。

自主经验学习阶段（The Era of Experience）：AI通过自己的经验和探索来学习，代表作是AlphaProof。在这个阶段，强化学习的关注度又开始上升。

图表中还画了一条"超人类智能"(Super Intelligence)的线，暗示只有通过经验学习的方法，AI才有可能突破这个界限，而基于人类数据的方法很难达到超人类水平。

我们现在正处在第二阶段向第三阶段过渡的关键时期！这就像是从"喂饭"到"教会孩子自己吃饭"的转变，简直太激动人心了！
为什么现有的LLM会遇到天花板？

说到这里，我不得不吐槽一下现在的大语言模型。它们确实很强，但也有明显的局限性：
数据依赖症：它们完全依赖人类提供的数据，就像一个只会模仿的鹦鹉

页: [1]

萍聚社区-德国热线-德国实用信息网's Archiver

AI的下一站:从＂喂饭＂到＂自己学走路＂的革命性转变!强化学习大佬的＂思想炸弹＂!