AI 智能体安全框架白皮书

新闻 · 发表于 2026-1-10 22:44

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

作者：微信文章
写在前面

谷歌 2025 年发布的《Google’s Approach for Secure AI Agents: An Introduction》聚焦 AI 智能体的安全构建，指出 AI 智能体作为能自主感知、决策和行动的系统，兼具生产力与创新潜力，但核心面临违规操作和敏感数据泄露两大风险，传统安全范式或纯 AI 推理防御均不足够；文档提出 “明确人类控制者、权限受限、行动可观测”三大核心安全原则，并落地为 “传统确定性措施 + 动态推理型防御” 的混合纵深防御方案，通过政策引擎、对抗训练等技术及持续测试保障，平衡智能体效用与安全，推动其负责任部署。

原文：https://storage.googleapis.com/gweb-research2023-media/pubtools/1018686.pdf1 引言：AI 智能体的潜力与风险

我们正迈入一个由 AI 智能体驱动的新时代 —— 这类 AI 系统能够感知环境、制定决策并采取自主行动，以实现用户设定的目标。与主要生成内容的标准大语言模型（LLM）不同，智能体能够主动执行操作。它们借助 AI 推理能力与其他系统交互并执行任务，涵盖从简单自动化任务（如对收到的服务请求进行分类）到复杂的多步骤规划（如跨多个来源研究某个主题、总结研究结果并为团队起草邮件）等各类场景。

这种不断提升的能力与自主性蕴含着巨大价值，有望重塑企业的运营模式以及个人与技术的交互方式。谷歌 Agent Development Kit（ADK）等智能体框架以及 LangChain 等开源工具的快速发展，标志着其正朝着广泛部署的方向发展，未来可能出现规模化运行的 “智能体集群”，而非仅仅是孤立的实例。与此同时，智能体的发展潜力也带来了独特且严峻的安全挑战，需要管理层予以重视。

2 核心风险：违规操作与敏感数据泄露

AI 智能体的本质特性催生了新的风险，这些风险源于其多项固有属性。其底层 AI 模型具有不可预测性—由于模型的非确定性，即便输入相同，其行为也未必具有可重复性。可能会出现未被明确编程的复杂涌现行为。决策自主性的提升，不仅会扩大错误的影响范围与严重程度，还会增加被恶意攻击者利用的漏洞风险。确保行为对齐（即智能体的行动与用户意图合理匹配，尤其是在解读模糊指令或处理不可信输入时）仍是一项重大挑战。最后，有效管理智能体的身份与权限也面临诸多挑战。

这些因素催生了 “智能体安全” 这一专业领域，该领域专注于降低这类系统所带来的新型风险。需要重点关注的核心风险包括违规操作（非预期、有害或违反政策的行为）与敏感数据泄露（未授权披露隐私信息）。其中存在一项核心矛盾：推动智能体实用价值的自主性与能力提升，与风险的增加呈直接正相关。
仅靠传统安全范式远远不够

保障 AI 智能体安全需应对一项棘手的权衡：通过提升自主性与能力来增强智能体的实用价值，这本身就会增加保障其安全性的复杂度。传统系统安全方案（例如通过传统软件对智能体行为实施限制）缺乏多功能智能体所需的上下文感知能力，且可能过度限制其实用价值。相反，纯推理型安全方案（仅依赖 AI 模型自身的判断）也存在不足 —— 当前的大语言模型仍易受提示注入等操纵手段影响，无法提供足够可靠的保障。这两种方案单独使用，均无法妥善平衡智能体的实用价值与安全风险。

3 我们的前行路径：混合方案

本方案基于成熟的安全软件与系统设计原则，并与谷歌安全 AI 框架（SAIF）² 保持一致，谷歌正倡导并推行一种混合方案 — 融合传统确定性控制措施与动态推理型防御策略的双重优势，构建分层安全架构 — 即 “纵深防御方案”³。该方案旨在遏制潜在危害的同时，最大限度保留智能体的实用价值，其核心构建于本文后续详细阐述的三大安全原则之上。
2. www.saif.google3. https://google.github.io/building-secure-and-reliable-systems/raw/ch08.html#defense_in_depth

本文首先阐述 AI 智能体的典型工作流程及其固有的安全关键点，随后分析智能体面临的核心风险，介绍安全核心原则，并详细说明谷歌的混合纵深防御策略。文中还穿插了指导性问题，帮助读者梳理思路。后续将推出一份全面的详细白皮书，深入探讨这些主题，并提供更丰富的技术细节与缓解措施。

4 AI 智能体工作原理的安全挑战

要理解智能体独特的安全风险，先建立一个描述典型智能体架构的心智模型会很有帮助。尽管具体细节可能存在差异，但该架构包含若干具有广泛适用性的核心概念。我们将简要介绍每个环节，并明确每个组件对应的安全风险。

4.1 输入、感知与个性化

AI 智能体首先接收输入。这些输入既可以是直接的用户指令（如键入命令、语音查询），也可以是从环境中收集的上下文数据（如传感器读数、应用程序状态、近期文档）。这些输入可能是多模态的（文本、图像、音频），会由智能体进行处理和感知，并通常被转换为 AI 模型可理解的格式。

安全影响：此环节的核心挑战在于，如何可靠区分可信的用户指令与潜在不可信的上下文数据及其他来源的输入（例如电子邮件或网页内的内容）。若无法做到这一点，将为提示注入攻击提供可乘之机 —— 隐藏在数据中的恶意指令可能借此劫持智能体。安全的智能体必须仔细解析并分离这些输入流。此外，智能体学习用户偏好的个性化功能也需设置控制措施，以防止操纵行为或用户间的数据污染。

需思考的问题

4.2 系统指令

智能体的核心模型以结构化提示词的形式接收组合输入。该提示词整合了预定义系统指令（用于明确智能体的用途、能力与边界）、特定用户查询，以及智能体内存、外部检索信息等各类数据源。

安全影响：关键安全措施在于，需在提示词内部清晰界定并分离这些不同元素。保持可信系统指令与潜在不可信的用户数据或外部内容之间的明确区分，对于缓解提示注入攻击至关重要。

4.3 推理与规划

经过处理的输入会与定义智能体用途及能力的系统指令相结合，共同输入核心 AI 模型。该模型会围绕用户目标进行推理，并制定实现目标的计划 —— 通常是包含信息检索、工具调用等步骤的序列。这种规划可采用迭代式方式，根据新信息或工具反馈优化计划内容。

安全影响：由于大语言模型（LLM）的规划具有概率性，其本质存在不可预测性，且容易因误解产生错误。此外，当前 LLM 架构无法对提示词的各组成部分（尤其是系统指令、用户指令与外部不可信输入）进行严格隔离，导致其易受提示注入等操纵手段影响。而 “推理循环” 中常见的迭代式规划做法会进一步加剧这一风险：每个循环都可能引入逻辑漏洞、偏离用户意图或被恶意数据劫持的机会，进而可能使问题恶化。因此，具备高度自主性、需执行复杂多步骤迭代规划的智能体，其风险显著更高，亟需部署强健的安全控制措施。

需思考的问题：

4.4 编排与行动执行（工具使用）

为执行计划，智能体通过 “工具” 或 “行动” 与外部系统或资源进行交互。交互方式可能包括通过 API 发送邮件、查询数据库、访问文件系统、控制智能设备，甚至与网页浏览器组件进行交互。智能体会根据自身计划，选择合适的工具并提供必要的参数。

安全影响：此阶段是违规计划转化为实际危害的关键环节。每个工具都会赋予智能体特定的操作权限。若规划阶段存在漏洞，智能体对高风险操作（如删除文件、进行交易、传输数据，甚至调整医疗设备设置）的无限制访问将带来极大风险。安全的编排机制要求对工具使用实施严格的认证与授权流程，确保智能体仅拥有完成当前任务所需的适当受限权限（最小权限）。此外，动态集成新工具（尤其是第三方工具）会引入相关风险，例如工具描述存在欺诈性或工具本身实现存在安全缺陷。

需思考的问题：

4.5 智能体内存(Memory)

许多智能体会保留某种形式的内存，用于跨交互过程保留上下文信息、存储已学习的用户偏好，或记忆先前任务中的相关事实。

安全影响：内存可能成为持续攻击的载体。若包含提示注入的恶意数据被处理并存储到内存中（例如，作为从恶意文档中总结的 “事实”），可能会影响智能体在后续无关交互中的行为。内存设计必须确保不同用户之间的严格隔离，且同一用户的不同上下文之间也需可能进行隔离，以防止数据污染。用户还需对智能体内存拥有透明度和控制权。了解这些环节可明确漏洞可能出现在智能体运行周期的各个阶段，因此需要在每个关键节点部署安全控制措施。

4.6 响应渲染（Response rendering）

此环节会接收智能体生成的最终输出，并对其进行格式化处理，以便在用户的应用程序界面（如网页浏览器或移动应用）中展示。

安全影响：如果应用程序未根据内容类型对智能体输出进行适当清洗或转义就直接渲染，可能会引发跨站脚本攻击（XSS）或数据窃取（例如，通过图像标签中恶意构造的 URL）等漏洞。因此，渲染组件必须执行强健的输出清洗操作，这一点至关重要。

需思考的问题

5 AI 智能体的核心风险

我们认为，智能体的固有设计结合其强大的能力，可能使用户面临两类主要风险 —— 我们称之为违规操作与敏感数据泄露。下文将探讨这两类风险，以及攻击者实施这些风险的具体手段。

5.1 风险1：违规操作（Rogue actions）

违规操作——即智能体非预期、有害或违反政策的行为——是AI智能体面临的核心安全风险之一。

其关键成因是提示注入：隐藏在处理数据（如文件、电子邮件或网站内容）中的恶意指令，可能欺骗智能体的核心AI模型，劫持其规划或推理阶段。模型会将这些嵌入的数据误判为指令，进而利用用户权限执行攻击者的命令。例如，处理恶意电子邮件的智能体可能被操纵，泄露用户数据而非执行原本请求的任务。

即便没有恶意输入，违规操作也可能发生，其根源在于根本的目标错位或理解偏差。智能体可能误解模糊的指令或上下文。例如，“给迈克发邮件告知项目更新情况”这类模糊请求，可能导致智能体选错联系人，无意中泄露敏感信息。此类情况的本质是智能体的解读与用户意图产生有害偏差，而非外部攻击导致的妥协。

此外，若智能体误解与外部工具或环境的复杂交互，也可能引发意外负面后果。例如，它可能误判复杂网站上的按钮或表单功能，导致在执行计划操作时发生意外购买或非预期的数据提交。

任何违规操作的潜在影响，都与智能体的授权能力及工具访问权限呈直接正相关。随着智能体被允许执行的操作敏感度和现实影响提升，其可能引发的财务损失、数据泄露、系统中断、声誉损害乃至人身安全风险，都会急剧上升。

5.2 风险2：敏感数据泄露（Sensitive data disclosure）

这一关键风险指智能体不当泄露隐私或机密信息。实现敏感数据泄露的主要手段是数据窃取，即诱骗智能体向攻击者暴露敏感信息。攻击者通常会利用智能体的操作及其副作用（通常由提示注入驱动）来实现这一目的：他们可能系统性地引导智能体执行一系列操作，诱使其检索敏感数据后，通过特定方式泄露——例如将数据嵌入智能体被指令访问的URL中，或在代码提交信息中隐藏机密。

此外，另一种数据泄露路径是操纵智能体的输出生成过程。攻击者可能诱骗智能体在响应（如文本或Markdown格式内容）中直接包含敏感数据。若应用程序未对该输出进行适当验证或清洗（例如，缺乏适配浏览器展示的安全处理）就直接渲染，数据便可能被泄露。例如，隐藏在Markdown中的恶意构造图像URL，可能在被获取时泄露数据，这种路径还可能引发跨站脚本攻击（XSS）。

数据泄露的影响极为严重，可能导致隐私侵犯、知识产权损失、合规违规乃至账号被盗，且相关损害往往不可逆。

缓解这些多样且严重的风险，需要一套基于清晰、可执行原则的审慎、多维度安全策略。

6 智能体安全的核心原则

为在充分发挥智能体巨大潜力的同时降低其风险，我们建议智能体产品开发者遵循三大核心安全原则。针对每项原则，我们均提供了可参考的控制措施或技术手段。

6.1 原则 1：智能体必须有明确的人类控制者

智能体通常充当人类的代理或助手，继承访问资源和执行操作的权限。因此，智能体在明确的人类监督下运行，对安全性和问责制至关重要。每个智能体都必须有明确的人类控制用户群体。该原则要求系统必须能够可靠区分来自授权控制用户的指令与其他任何输入，尤其是智能体处理的潜在不可信数据。对于被判定为关键或不可逆的操作（如删除大量数据、授权重大财务交易或更改安全设置），系统应在执行前要求人类明确确认，确保用户始终参与其中。

此外，涉及多名用户或多个智能体的场景需重点考量。代表团队或群体运作的智能体需具备独特的身份标识和清晰的授权模型，以防止未授权的跨用户数据访问，或某一用户无意中触发影响其他用户的操作。与单用户智能体适用的粗粒度权限不同，当智能体为多用户共享时，应向用户提供授予更精细权限的工具。同样，若智能体的配置或自定义提示词可共享，共享过程必须透明，确保用户清楚了解共享配置可能如何改变智能体的行为及潜在操作。

控制措施：该原则依赖有效的智能体用户控制，由提供独特智能体身份标识和安全输入通道的基础设施提供支持，以实现用户指令的区分。

6.2 原则 2：智能体的权限必须受限

智能体的权限 —— 即其可执行的操作和可访问的资源 —— 必须严格受限，且与其实用目的及控制用户的风险容忍度相匹配。例如，为研究用途设计的智能体不应拥有修改财务账户的权限。通用智能体需具备在运行时动态限制其能力的机制，确保仅激活与当前查询相关的权限（例如，当任务为创意写作时，禁止文件删除操作）。

该原则延伸了传统的最小权限原则，要求智能体的权限与具体用途和当前用户意图动态匹配，而非仅进行静态最小化设置。这一区别至关重要：基于模型的智能体运行在潜在无界的生态系统中，且易出现推理错误，因此需要超出人类用户或传统软件常规考量范围的上下文感知型限制。

该原则要求必须能够定义并执行最高权限级别。关键在于，必须防止智能体自行提升权限，超出明确的预授权范围。用户还需保留查看并撤销授予智能体的任何权限的能力。实现这一点需要调整并强化核心的 AAA（认证 / 授权 / 审计）架构以适配智能体，包括可验证的智能体身份标识、精细权限系统，以及对范围化 OAuth 令牌等凭证的安全管理。

控制措施:实现这一原则需明确智能体权限控制措施，由适配智能体的强健 AAA（认证 / 授权 / 审计）架构提供执行保障，并利用范围化 OAuth 令牌等凭证安全管理访问权限。

6.3 原则 3：智能体的行动与规划必须具备可观测性

信任建立、高效调试、安全审计、事件响应及用户理解，均取决于智能体活动的透明度。若智能体的运作完全不透明，我们既无法确保其忠实执行任务，也无法排查问题。因此，智能体的行动（在可行情况下还包括其规划过程）必须具备可观测性与可审计性。这要求在智能体的整个架构中部署强健的日志记录机制，捕获关键信息 —— 例如接收的输入、调用的工具、传递的参数、生成的输出，理想情况下还应包括中间推理步骤。日志记录需安全执行，确保日志本身包含的敏感数据得到保护。

有效的可观测性还意味着，智能体可执行行动的属性（如行动属于只读型还是状态变更型、是否处理敏感数据等）必须被清晰界定。这些元数据对自动化安全机制和人工审核至关重要。此外，用户界面设计应注重透明度，向用户揭示智能体的 “思考过程”、查阅的数据来源或拟执行的行动 —— 尤其是在处理复杂或高风险操作时。这需要投入基础设施建设，搭建安全的集中式日志系统和标准化 API，以通俗易懂的方式呈现行动属性。

控制措施：有效的智能体可观测性控制至关重要，这需要投入基础设施资源，构建安全的集中式日志系统和标准化 API，明确界定行动属性及潜在副作用。

这三大原则共同构成了缓解智能体风险的战略框架。

鉴于当前 AI 模型的固有局限性，且完全无法保证针对所有潜在威胁实现完美对齐，谷歌采用了以混合方案为核心的纵深防御策略。该方案战略性地融合了传统确定性安全措施与动态推理型防御策略，核心目标是为智能体的运行环境建立坚实边界，大幅降低有害结果的风险（尤其是由提示注入引发的违规操作），同时竭力保留智能体的实用价值。

这一纵深防御方案依靠为 AI 智能体运行环境设定的强制边界，防范潜在的最坏情况。即便智能体的内部推理过程因复杂攻击或意外输入而受损或偏离目标，这些边界仍能起到防护作用。这种多层防御方案认识到，纯规则系统或纯 AI 判断均无法单独满足安全需求。

注：核心是直观呈现谷歌针对AI智能体安全设计的“两层防御+持续保障”体系，清晰展示各安全组件如何覆盖智能体全操作流程，最终实现“风险防控”与“效用保留”的平衡。

（1）图的核心架构定位

图以“AI Agent（AI智能体）”为中心，左侧、右侧及下方分布着不同安全组件，整体对应文档中“混合纵深防御”的核心逻辑——融合传统确定性措施与推理型防御策略，并通过持续测试与审核确保防御有效性，所有组件均围绕“阻断智能体安全风险（如违规操作、数据泄露）”展开。

（2）核心组件拆解：两层防御+持续保障

第一层：传统确定性措施（左侧，静态刚性防护）。这一层是独立于AI推理的“基础安全护栏”，通过预定义规则限制智能体行为，避免最坏情况发生，对应文档中“有限权限”原则：

第二层：推理型防御策略（右侧，动态智能防护）。这一层利用AI模型自身增强安全性，弥补传统措施“缺乏上下文感知”的缺陷，对应文档中“可观测行为”原则：

（3）持续保障措施（下方，防御有效性验证）

这部分是两层防御的“支撑体系”，通过持续测试与人工审核发现漏洞，确保防御措施不失效：

（3）支撑与警示元素

（4）图的核心价值

这张图并非单纯展示技术组件，而是将文档中的“三大安全原则”（明确人类控制者、有限权限、可观测行为）与“混合防御策略”具象化：

第一层：传统确定性措施（运行时策略执行）

第一层安全防护采用可靠的确定性安全机制（谷歌称之为“策略引擎”），该机制独立于AI模型的推理过程运行。这些引擎会在智能体执行操作前对其行为进行监控与控制，充当安全检查点的角色。

当智能体决定使用工具或执行操作（如“发送邮件”“购买商品”）时，相关请求会被策略引擎拦截。引擎会根据预定义规则评估该请求，评估依据包括操作的固有风险（是否具有不可逆性？是否涉及资金？）、当前上下文，以及可能的过往操作链（智能体近期是否处理过不可信数据？）。例如，某条策略可能通过以下方式执行消费限额：自动拦截所有500美元以上的购买操作，或对100-500美元之间的购买操作，通过提示要求用户明确确认；另一条策略可能规定，若智能体刚处理过来自已知可疑来源的数据，除非用户明确批准，否则禁止其向外发送邮件。

基于上述评估，策略引擎会确定最终处理结果：允许操作、若违反关键策略则拦截操作，或要求用户确认。这种确定性执行机制提供了可靠且可预测的刚性限制，具备可测试、可审计的特性，能有效降低智能体故障的最坏影响，直接支撑“智能体权限必须受限”的核心原则。

然而，运行时策略引擎也存在局限性。为庞大的操作生态系统制定全面策略既复杂又难以扩展；此外，策略往往缺乏深度上下文感知能力——在策略制定者未预见到的特定场景中，一条规则可能会拦截合法操作，或放行有害操作。例如，读取文档后发送邮件的行为，有时是合理需求（总结内容并发送），有时却具有危害性（窃取数据），而简单的静态规则难以应对这种细微差异。

第二层：推理型防御策略

为补充确定性防护护栏的不足，并解决其在处理上下文与新型威胁方面的局限性，第二层防护采用推理型防御策略：即利用AI模型自身，评估输入、输出或智能体内部推理过程中的潜在风险。该策略旨在从本质上提升智能体核心推理与规划过程的抗操纵能力，使其更好地契合安全运行参数。

其中一种常用技术是对抗训练。在模型开发阶段，会让模型接触大量攻击案例（如各类提示注入攻击）；训练过程会教会模型理想的安全响应方式，通常是识别并忽略嵌入在数据中的恶意指令，或标记该输入以待审查。这一过程常需借助结构化提示词规范（如清晰的分隔符、角色标记），帮助模型区分可信指令与不可信输入。

另一种技术是使用专用防护模型。这类模型通常是经专门训练、用作分类器的小型AI模型，其功能类似安全分析师，会检查输入或输出中的攻击迹象（例如，检测用户数据中类似指令的语言、排查恶意模式）——这些迹象往往会被简单过滤器遗漏。

此外，模型还可用于分析与预测。通过分析智能体拟执行的行动计划，模型能预测该计划导致不良结果的概率，进而可能标记高风险计划以待审核，或触发更严格的政策执行。

推理型防御的优势在于其具备处理动态行为与上下文的能力：相比静态规则，模型能学习识别更细微或不断演变的恶意模式，大幅提高攻击者的攻击难度与成本。

8 安全探索智能体的未来

AI 智能体代表着一场变革性技术飞跃，为生产力与创新带来巨大潜力。然而，其自主性与能力要求从一开始就采取主动且成熟的安全策略。

违规操作与敏感数据泄露的风险不容忽视，这些风险源于智能体系统的核心特性 —— 尤其是对复杂 AI 推理的依赖，以及与外部工具和数据的交互。单纯依赖为可预测软件设计的传统安全措施，或反过来盲目信任当前 AI 模型不完善的推理能力，都无法应对这一挑战。

我们相信，混合策略为未来提供了务实且必要的路径。通过将运行时政策执行的确定性保障，与推理型防御策略的上下文适应性分层结合，我们能够构建更具韧性的安全架构。该方案立足于三大核心原则：智能体必须在明确的人类控制下运行；其权限需根据风险与用途严格限制；其行动与规划需具备可观测性，以确保信任与问责。

持续警惕、严格测试，以及对混合策略的持续优化投入至关重要。AI 智能体安全并非一次性解决的问题，而是一套需要持续投入与调整的规范体系。在发展智能体能力的同时优先考虑安全，我们才能致力于构建不仅强大实用，而且可信、与人类利益保持一致的 AI 智能体系统，确保负责任地发挥其变革性潜力。
9 致谢

本白皮书的完成离不开众多人员的专注投入与协作。我们向以下人士致以诚挚感谢，感谢他们的宝贵贡献 —— 从富有洞察力的想法到对草案的建设性反馈：达米安・博格尔（Damian Bogel）、埃利・布尔茨泰因（Elie Bursztein）、德鲁・卡尔卡尼奥（Drew Calcagno）、丹尼尔・迪巴托洛（Daniel DiBartolo）、丹尼尔・法比安（Daniel Fabian）、福・弗林（Four Flynn）、德克・戈曼（Dirk Göhmann）、罗亚尔・汉森（Royal Hansen）、埃文・科佐维诺斯（Evan Kotsovinos）、大卫・拉比安卡（David LaBianca）、尼古拉斯・利兹博尔斯基（Nicolas Lidzborski）、单饶（Shan Rao）、洛朗・西蒙（Laurent Simon）、查理・斯奈德（Charley Snyder）以及亚辛特・绍博（Jacint Szabo）。同时，感谢妮基塔・贾因（Nikita Jain）与迈克尔・坦普尔（Michael Temple）在本白皮书的图表与视觉设计方面提供的关键支持。

我们也向所有为该项目提供支持的其他人员表示感谢。

账号		自动登录	找回密码
密码			注册

AI 智能体安全框架白皮书

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

浏览过的版块