【AI Agents,年中总结!】萍聚社区-德国热线-德国实用信息网人工智能

多客科技 发表于 2025-6-25 06:24

AI Agents,年中总结!

作者：微信文章
嘿，大家好！这里是一个专注于前沿AI和智能体的频道~

梳理了下6月份在旧金山举办的AI Engineering World's Fair，扒了扒几个重磅分享，总的来说，AI Agent的发展方向已经很明确了：未来不是更好的聊天机器人，而是能自主处理复杂工作的助手。今天和家人们分享几个关键趋势。
Ambient Agents 正在崛起

什么是Ambient Agents？简单说就是在后台默默干活的智能体，不需要你时时刻刻盯着聊天界面。这个词不知道咋翻译，DeepSeek建议：环境智能体。

Scott Wu （Cognition， Devin）分享了一个关键数据：AI能够自主执行的任务长度每7个月翻一倍。从修bug到实现完整功能，Agent正在从几分钟的小任务扩展到几小时甚至几天的复杂项目。

Devin就是典型例子。从去年夏天开始，它就能通过Slack接收需求，然后自主修复bug或实现功能。Windsurf的Kevin Hou也提到，他们正在从8:2的人机协作模式转向完全自主的异步工作流，只在最终需要审批时才找人确认。

OpenAI最近发布的Codex CLI也是这个方向，可以连接GitHub管理异步编程任务。

环境智能体的核心特征就是：后台工作、智能约束、多人协作、易于发现。
Agent UX设计的两派观点

关于Agent应该长什么样，现在有两派明显不同的观点。

简约派： Boris Cherny（Anthropic），觉着根据苦涩教训（通用方法比专门优化更有效），Agent UX应该通用、简约、无偏见。Claude Code就跑在终端里，没有UI。Boris甚至预测，今年年底可能很多人就不用IDE了。

定制派： Kevin Hou（Windsurf），认为应该构建针对特定工作流的专用UI（比如IDE），用它来收集数据，然后训练专门的模型。他们的SWE-1模型就是这样训练出来的。

Agent训练进入RL时代

Agent的训练方法也在快速演进。核心趋势是基于可验证奖励的强化学习（RLVR）。

Nathan Lambert （Allenai）表示，我们在这个缩放曲线上还很早期：OpenAI从o1到o3，RL计算量增加了10倍。历史上用于RL后训练的计算量远少于预训练，还有巨大提升空间。

Open Pipe的Art-E项目是个很好的例子。他们用Enron邮件数据集，合成了10万封邮件的QA对，用LLM做判断给奖励信号，训练出了一个专门回答邮件问题的Agent。用Qwen-2.5-14b做基座，花了一周时间，80美元计算成本，效果超过了提示工程的前沿模型。

关键问题是RLVR能否扩展到不可验证任务（代码和数学之外）。目前看，精心设计的LLM判断系统是个有前景的方向。
工具标准化势在必行

为什么需要MCP这样的标准？

John Walsch（Anthropic）分享了实际痛点：LLM工具调用能力变强后，每个人都开始写工具，但缺乏协调。结果就是重复开发、接口不一致、维护困难。

MCP提供了标准协议，但更重要的是需要内部工具支撑。Anthropic构建了内部MCP网关，成为Claude连接上下文和工具的最简单方式。这样就有了中心化的审计点，可以做策略执行和可观测性。

Memory让Agent真正"学会"

Scott Wu（Cognition， Devin）提出了一个重要观点：如果你教会Agent怎么做某件事，你希望它下次能记住！

现在Devin、Windsurf、Cursor都有记忆功能。Boris Cherny（Anthropic）也展示了如何把记忆保存到各种CLAUDE.md文件中。

但记忆的UX很棘手。什么时候获取记忆？Simon Willison举了个例子：记忆可能意味着用户失去控制。他遇到过GPT-4o基于记忆在图片中注入位置信息，但这不是他想要的。

另外，现在的记忆系统都是外部的。Nathan Lambert（Allenai）提到了持续学习——未来人类反馈可能直接融入模型，而不是使用外部记忆系统。
最后

未来的AI Agent不会是更好的聊天机器人，而是能自主处理复杂工作的助手。这个转变正在加速发生。

好了，这就是我今天想分享的内容。如果你对构建AI智能体感兴趣，别忘了点赞、关注噢~

页: [1]

萍聚社区-德国热线-德国实用信息网's Archiver

AI Agents,年中总结!