谷歌 2025 年发布的《Google’s Approach for Secure AI Agents: An Introduction》聚焦 AI 智能体的安全构建,指出 AI 智能体作为能自主感知、决策和行动的系统,兼具生产力与创新潜力,但核心面临违规操作和敏感数据泄露两大风险,传统安全范式或纯 AI 推理防御均不足够;文档提出 “明确人类控制者、权限受限、行动可观测”三大核心安全原则,并落地为 “传统确定性措施 + 动态推理型防御” 的混合纵深防御方案,通过政策引擎、对抗训练等技术及持续测试保障,平衡智能体效用与安全,推动其负责任部署。
我们正迈入一个由 AI 智能体驱动的新时代 —— 这类 AI 系统能够感知环境、制定决策并采取自主行动,以实现用户设定的目标。与主要生成内容的标准大语言模型(LLM)不同,智能体能够主动执行操作。它们借助 AI 推理能力与其他系统交互并执行任务,涵盖从简单自动化任务(如对收到的服务请求进行分类)到复杂的多步骤规划(如跨多个来源研究某个主题、总结研究结果并为团队起草邮件)等各类场景。
这种不断提升的能力与自主性蕴含着巨大价值,有望重塑企业的运营模式以及个人与技术的交互方式。谷歌 Agent Development Kit(ADK)等智能体框架以及 LangChain 等开源工具的快速发展,标志着其正朝着广泛部署的方向发展,未来可能出现规模化运行的 “智能体集群”,而非仅仅是孤立的实例。与此同时,智能体的发展潜力也带来了独特且严峻的安全挑战,需要管理层予以重视。
2 核心风险:违规操作与敏感数据泄露
AI 智能体的本质特性催生了新的风险,这些风险源于其多项固有属性。其底层 AI 模型具有不可预测性—由于模型的非确定性,即便输入相同,其行为也未必具有可重复性。可能会出现未被明确编程的复杂涌现行为。决策自主性的提升,不仅会扩大错误的影响范围与严重程度,还会增加被恶意攻击者利用的漏洞风险。确保行为对齐(即智能体的行动与用户意图合理匹配,尤其是在解读模糊指令或处理不可信输入时)仍是一项重大挑战。最后,有效管理智能体的身份与权限也面临诸多挑战。
保障 AI 智能体安全需应对一项棘手的权衡:通过提升自主性与能力来增强智能体的实用价值,这本身就会增加保障其安全性的复杂度。传统系统安全方案(例如通过传统软件对智能体行为实施限制)缺乏多功能智能体所需的上下文感知能力,且可能过度限制其实用价值。相反,纯推理型安全方案(仅依赖 AI 模型自身的判断)也存在不足 —— 当前的大语言模型仍易受提示注入等操纵手段影响,无法提供足够可靠的保障。这两种方案单独使用,均无法妥善平衡智能体的实用价值与安全风险。
鉴于当前 AI 模型的固有局限性,且完全无法保证针对所有潜在威胁实现完美对齐,谷歌采用了以混合方案为核心的纵深防御策略。该方案战略性地融合了传统确定性安全措施与动态推理型防御策略,核心目标是为智能体的运行环境建立坚实边界,大幅降低有害结果的风险(尤其是由提示注入引发的违规操作),同时竭力保留智能体的实用价值。
这一纵深防御方案依靠为 AI 智能体运行环境设定的强制边界,防范潜在的最坏情况。即便智能体的内部推理过程因复杂攻击或意外输入而受损或偏离目标,这些边界仍能起到防护作用。这种多层防御方案认识到,纯规则系统或纯 AI 判断均无法单独满足安全需求。
Hardening of the base model, classifiers, and safety fine-tuning(基础模型加固、分类器优化与安全微调)通过对抗训练(让模型识别提示注入)、专用防护模型(小型分类器检测恶意输入)、安全微调(强化模型安全对齐),提升智能体核心推理过程的抗操纵能力。覆盖智能体全流程:防护嵌入“Perception(感知层,处理输入)”“Reasoning core(核心推理层,规划任务)”“Orchestration(编排层,协调工具)”“Rendering(渲染层,输出结果)”,确保每个环节的风险都被动态监测。
(3)持续保障措施(下方,防御有效性验证)
这部分是两层防御的“支撑体系”,通过持续测试与人工审核发现漏洞,确保防御措施不失效:
Regression testing(回归测试)验证安全修复是否持续有效,防止漏洞复现(如修复提示注入后,测试旧漏洞是否重新出现)。Variant Analysis(变体分析)主动测试已知威胁的变体形式(如提示注入的新话术),预判攻击者手段演变,提前加固防御。Testing for regressions, variants, and new vulnerabilities(回归/变体/新型漏洞测试)全维度覆盖漏洞类型,既验证旧问题,也排查新型未知风险。Red Teams & Human Reviewers(红队与人工审核)红队模拟真实攻击场景(如尝试劫持智能体泄露数据),人工审核补充自动化测试的不足,发现复杂或隐蔽漏洞。
(3)支撑与警示元素
Application(应用层)作为智能体与用户的交互入口,承接“响应渲染”环节的安全防护(如输出清洗防XSS攻击),确保用户界面展示的内容安全。Examples of new vulnerabilities(新型漏洞示例)图中隐含对“提示注入、内存污染”等核心风险的警示,明确两层防御需重点针对的攻击类型,为组件功能提供针对性方向。