AI的下一站:从"喂饭"到"自己学走路"的革命性转变!强化学习大佬的"思想炸弹"!
作者:微信文章最近,我被一篇来自DeepMind的文章彻底震撼了!Richard Sutton(没错,就是那位RL大佬)和David Silver(AlphaGo之父)联合发表了《Welcome to the Era of Experience》。这篇文章其实就是AI领域的"思想炸弹",它没有复杂的技术细节,却像一盏明灯,为AI未来指明了方向!
David Silver访谈截图为什么这篇文章如此重要?
说实话,我平时看到的AI论文大多是在讲模型结构、参数调优或者各种benchmark成绩。但这篇文章完全不一样!它不是在讲"怎么做",就是在讲"为什么做"和"往哪里走"。
这就像是AI界的"指南针",而不是又一个"工具箱"。
回想一下,Sutton之前的《The Bitter Lesson》已经成为了OpenAI发展ChatGPT的指导思想。所以这篇新文章很可能会成为未来几年AI发展的重要指南!
AI发展的三个阶段:我们正在见证历史
文章提出了AI发展的三个关键阶段,我觉得这个框架超级清晰:
AI发展三个阶段时间轴
人工特征工程阶段(The Era of Simulation):工程师们手动设计特征,告诉AI该关注什么。这个阶段的代表作是AlphaGo和AlphaZero,主要以强化学习为主,在仿真环境中训练。
从人类数据学习阶段(The Era of Human Data):AI从人类提供的大量数据中学习,代表作是GPT系列。在这个阶段,对强化学习的关注度逐渐下降。
自主经验学习阶段(The Era of Experience):AI通过自己的经验和探索来学习,代表作是AlphaProof。在这个阶段,强化学习的关注度又开始上升。
图表中还画了一条"超人类智能"(Super Intelligence)的线,暗示只有通过经验学习的方法,AI才有可能突破这个界限,而基于人类数据的方法很难达到超人类水平。
我们现在正处在第二阶段向第三阶段过渡的关键时期!这就像是从"喂饭"到"教会孩子自己吃饭"的转变,简直太激动人心了!
为什么现有的LLM会遇到天花板?
说到这里,我不得不吐槽一下现在的大语言模型。它们确实很强,但也有明显的局限性:
数据依赖症:它们完全依赖人类提供的数据,就像一个只会模仿的鹦鹉
页:
[1]