AI Agents,年中总结!
作者:微信文章嘿,大家好!这里是一个专注于前沿AI和智能体的频道~
梳理了下6月份在旧金山举办的AI Engineering World's Fair,扒了扒几个重磅分享,总的来说,AI Agent的发展方向已经很明确了:未来不是更好的聊天机器人,而是能自主处理复杂工作的助手。今天和家人们分享几个关键趋势。
Ambient Agents 正在崛起
什么是Ambient Agents?简单说就是在后台默默干活的智能体,不需要你时时刻刻盯着聊天界面。 这个词不知道咋翻译,DeepSeek建议:环境智能体。
Scott Wu (Cognition, Devin)分享了一个关键数据:AI能够自主执行的任务长度每7个月翻一倍。从修bug到实现完整功能,Agent正在从几分钟的小任务扩展到几小时甚至几天的复杂项目。
Devin就是典型例子。从去年夏天开始,它就能通过Slack接收需求,然后自主修复bug或实现功能。Windsurf的Kevin Hou也提到,他们正在从8:2的人机协作模式转向完全自主的异步工作流,只在最终需要审批时才找人确认。
OpenAI最近发布的Codex CLI也是这个方向,可以连接GitHub管理异步编程任务。
环境智能体的核心特征就是:后台工作、智能约束、多人协作、易于发现。
Agent UX设计的两派观点
关于Agent应该长什么样,现在有两派明显不同的观点。
简约派: Boris Cherny(Anthropic),觉着根据苦涩教训(通用方法比专门优化更有效),Agent UX应该通用、简约、无偏见。Claude Code就跑在终端里,没有UI。Boris甚至预测,今年年底可能很多人就不用IDE了。
定制派: Kevin Hou(Windsurf),认为应该构建针对特定工作流的专用UI(比如IDE),用它来收集数据,然后训练专门的模型。他们的SWE-1模型就是这样训练出来的。
Agent训练进入RL时代
Agent的训练方法也在快速演进。核心趋势是基于可验证奖励的强化学习(RLVR)。
Nathan Lambert (Allenai)表示,我们在这个缩放曲线上还很早期:OpenAI从o1到o3,RL计算量增加了10倍。历史上用于RL后训练的计算量远少于预训练,还有巨大提升空间。
Open Pipe的Art-E项目是个很好的例子。他们用Enron邮件数据集,合成了10万封邮件的QA对,用LLM做判断给奖励信号,训练出了一个专门回答邮件问题的Agent。用Qwen-2.5-14b做基座,花了一周时间,80美元计算成本,效果超过了提示工程的前沿模型。
关键问题是RLVR能否扩展到不可验证任务(代码和数学之外)。目前看,精心设计的LLM判断系统是个有前景的方向。
工具标准化势在必行
为什么需要MCP这样的标准?
John Walsch(Anthropic)分享了实际痛点:LLM工具调用能力变强后,每个人都开始写工具,但缺乏协调。结果就是重复开发、接口不一致、维护困难。
MCP提供了标准协议,但更重要的是需要内部工具支撑。Anthropic构建了内部MCP网关,成为Claude连接上下文和工具的最简单方式。这样就有了中心化的审计点,可以做策略执行和可观测性。
Memory让Agent真正"学会"
Scott Wu(Cognition, Devin)提出了一个重要观点:如果你教会Agent怎么做某件事,你希望它下次能记住!
现在Devin、Windsurf、Cursor都有记忆功能。Boris Cherny(Anthropic)也展示了如何把记忆保存到各种CLAUDE.md文件中。
但记忆的UX很棘手。什么时候获取记忆?Simon Willison举了个例子:记忆可能意味着用户失去控制。他遇到过GPT-4o基于记忆在图片中注入位置信息,但这不是他想要的。
另外,现在的记忆系统都是外部的。Nathan Lambert(Allenai)提到了持续学习——未来人类反馈可能直接融入模型,而不是使用外部记忆系统。
最后
未来的AI Agent不会是更好的聊天机器人,而是能自主处理复杂工作的助手。这个转变正在加速发生。
好了,这就是我今天想分享的内容。如果你对构建AI智能体感兴趣,别忘了点赞、关注噢~
页:
[1]