AI-Agent专辑之一以大模型为核心的智能体

新闻 · 发表于 2025-10-26 02:49

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

作者：微信文章
AI-Agent就像是把大模型往更小的细节分解，分解成一个个独立的智能体，就像生物体由一个个细胞组成，细胞里包含了基因，说的更细一点：每个细胞都有整个生物体的基因，都是带着全息影像在智能体里。

每个基于大模型的AI-Agent智能体都带有所采用LLM大模型的“基因”，就像乐高积木一样，每个智能体给赋予了结构简单，界限清晰，功能范围明确的细胞或者基因。“大”模型发力在微“小”的智能体，“大”的一定要在“小”中实现其真正价值，体现了一种“反者道之动”的哲学味道。--EBATOM

02

—

基本构成和技术原理

AI Agent的基本构成

复旦大学NLP团队在《A Survey on Large Language Model basedAutonomous Agents》一文中总结性地指出，如果基于大语言模型构建AI Agent，其总体框架由大脑、感知和行动三个关键部分组成：

·大脑：主要由一个大型语言模型组成，该模型不仅存储知识和记忆，还承担信息处理和决策功能，能够呈现推理和规划过程，以很好地处理未知任务。

·感知：感知模块的核心目的是将主体的感知空间从纯文本领域扩展到文本、听觉和视觉模式。

·行动：在代理的构建中，行动模块接收大脑模块发送的动作序列，并执行与环境交互的动作。

在感知环境后，人类会对大脑中感知到的信息进行整合、分析和推理，并做出决策。随后，他们利用神经系统控制自己的身体，并进行适应性或创造性的行动，如交谈、躲避障碍或生火。当一个智能体拥有类似大脑的结构，以及知识、记忆、推理、规划、泛化能力和多模式感知能力时，它也有可能对周围环境做出各种类似人类的反应。在智能体的构建过程中，动作模块接收大脑模块发送的动作序列，并执行与环境交互的动作。

对细节感兴趣可进一步查阅原论文：https:///pdf/2309.07864.pdf

从上面的架构中我们可以看到，AI Agent可能涉及的组件非常之多。我们无法一一列举，但可以对其中的一部分稍作探讨：‍感知：感知是人工智能主体从其环境中接收的感官输入。这些提供了关于代理操作的可观察环境的当前状态的信息。例如，如果人工智能代理是客户服务聊天机器人，感知可以包括：

·用户消息

·用户配置文件信息

·用户位置

·聊天历史记录

·语言首选项（例如中文简体or英文）

·时间和日期

·用户首选项

·用户情绪识别

Agent Function：智能体体系结构的核心是智能体的Function。它将代理对环境的感知映射到它应该采取的行动。换言之，代理功能允许人工智能根据收集到的信息确定应该采取什么行动。这就是代理的“智能”所在，因为它涉及推理和选择行动来实现其目标。软件Agent和AI tools具有学习元素和性能元素，这意味着当代理执行任务时，代理功能会根据代理的历史和训练数据进行改进。执行：执行器本质上是代理的“肌肉”，执行Agent功能所做的决策。这些动作可以是一系列广泛的任务，从驾驶自动驾驶汽车到在聊天机器人的屏幕上键入文本。‍一些常见的执行器包括：

·文本响应生成器：该执行器负责生成基于文本的响应并将其发送给用户。它接收聊天机器人基于文本的回复，并通过聊天界面将其发送给用户。

·服务集成API：聊天机器人可能需要集成一个系统，如公司的CRM系统，以访问客户数据、创建支持票证或检查订单状态。这些集成涉及作为执行器的API调用，允许聊天机器人与外部系统交互，并根据需要检索或更新信息。

·通知和提醒：通知执行器可以向用户的设备发送电子邮件通知、短信或推送通知，提醒他们即将到来的约会、订单状态更改、促销或其他相关更新。这些执行器有助于让用户了解情况并参与其中。

‍知识库：知识库是人工智能代理存储其关于环境的初始知识的地方。这些知识通常是预定义的或在训练期间学习的。它是代理人决策过程的基础。例如，自动驾驶汽车可能有一个包含道路规则信息的知识库，而客户服务的自动代理可以访问有关公司产品的详细信息。‍反馈：随着时间的推移，反馈对于人工智能代理的改进至关重要。这种反馈可以来自两个来源：评估者或环境本身。评估者可以是人类，也可以是用于评估Agent性能的另一个AI系统。或者，环境可以以由Agent的行动产生的结果的形式提供反馈。这种反馈循环使代理能够适应，从经验中学习，并在未来做出更好的决策。

需要强调的是，根据选择的不同具身方法，智能体能够以软件操作、机器人、自动驾驶汽车等多种形式表现。而并不是只有软件程序层面的Action（例如根据需要决定调用指定的插件/API）。

比如知名AI专家李飞飞团队推出的具身智能框架——VoxPoser，就是将大模型接入机器人，把复杂指令转化成具体行动规划（无需额外数据和训练），让其在模拟和现实世界的各种机器人操作任务中取得了很不错的表现：

而自动驾驶，则是迄今为止我心目中最为高级的具身智能形式了：

AI Agent的工作原理

旨在完成指定目标的典型AI Agent基本遵循以下步骤（但步骤的顺序可能会因智能体设计的不同配置或目标而异）：AI Agent的工作与其他流行的AI解决方案类似，即要求用户输入目标，然后智能体通过参与后台操作的核心语言学习模型来启动其迈向目标的旅程，以返回其第一个输出并展示其对手头任务的理解。接下来是精心制作任务清单。在既定的目标的驱动下，智能体制定一系列任务，按完成顺序排列优先级。一旦对其计划感到满意，它就会深入研究信息检索。Agent的功能就像一个实验性的计算机用户，在互联网的广阔领域中导航以收集相关信息。一些高级Agent与其他人工智能模型协作，实现图像生成、计算机视觉功能等专业任务的访问（即Function call和工具使用）。所有收集到的数据都由Agent精心管理，用于将信息传递回用户，并完善其策略以实现更优化的进度。当每项任务完成时，Agent都会积极寻求外部来源和内部思维过程的反馈，以估计其与最终目标的距离。在实现目标之前，代理会不断迭代，制定新的任务，并寻求更多的数据和反馈，以朝着目标前进。以AutoGPT为例>>>

AutoGPT是一个基于 GPT-4 的自动化生成内容的AI Agent框架，它最引人注目的地方在于其几乎可以完全独立工作（偏文本性的，例如搜集和整理行业信息、撰写市场研究报告、生成代码等），极少需要人为干预。下面，我们将通过一个简单的过程介绍来说明AutoGPT是如何接收任务、处理信息，并给出解决方案的：

·初始化和目标设定：开始使用AutoGPT时，首先是为它设置一个标识（比如名字），并明确它需要完成的任务。这一步骤帮助AutoGPT明确目标方向，为后续的决策和任务执行奠定基础。

·数据分析：AutoGPT从你提供的信息开始着手工作，它会深入分析这些数据，识别其中的模式和关键细节。这个过程加深了它对任务的理解，为生成解决方案的提示打下了基础。

·生成提示：基于对数据的分析，AutoGPT能够生成用于解决任务的自生成提示。这些提示指导AutoGPT如何有效地达成目标。

·自主信息搜集：AutoGPT不仅仅局限于开始时提供的数据，它还会主动在互联网上搜集更多信息，以丰富自己的知识库，从而提高任务处理的深度和准确度。

·数据审查和优化：收集到的新信息会被系统仔细审查和评估，以确保所有信息的真实性和有效性。任何误导性或不准确的内容都会被排除，保证决策依据的可靠性。

·持续学习和改进：AutoGPT注重从每个任务中学习和自我改进。通过分析执行结果和反馈，系统不断调整和优化，使其在处理后续任务时更加高效和精准。

·输出结果：经过一系列的分析、学习和优化后，AutoGPT会提供一个综合了所有可用信息和分析的解决方案。这个输出是对任务的深入理解和全面回应。

来自网络，如有侵权请联系删除。

账号		自动登录	找回密码
密码			注册

萍聚头条

AI-Agent专辑之一以大模型为核心的智能体

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

浏览过的版块