Reddit 起诉 AI 公司 Anthropic,指控其非法抓取内容训练 Claude 模型
作者:微信文章旧金山 - 社交媒体巨头 Reddit, Inc. 已于2025年6月4日在加州高级法院对人工智能公司 Anthropic, PBC 提起诉讼 。诉状指控 Anthropic 非法抓取并使用 Reddit 平台上的海量用户生成内容,以训练和商业化其著名的人工智能模型,包括 Claude。这起诉讼标志着内容平台与人工智能大模型开发者之间就数据权利和商业使用的法律斗争进入了新的阶段。核心指控:违约与数据盗用根据诉状,Reddit 的核心论点是 Anthropic 的行为直接违反了其《用户协议》。该协议是任何访问 Reddit 平台的用户、个人乃至自动化机器人必须同意的条款。
禁止商业利用:Reddit 的《用户协议》明确禁止未经其书面同意,对平台内容进行“商业性利用”。Reddit 指控 Anthropic 利用抓取来的数据开发和销售其 Claude AI 产品,从而将 Reddit 的内容进行了商业化,这构成了直接违约。禁止未经授权的抓取:协议还禁止未经授权的自动化数据收集或“抓取”(scraping)。诉状称,Anthropic 自2021年起就系统性地抓取 Reddit 内容,并用其“微调”AI 模型。
用户隐私与平台责任Reddit 在诉状中强调,其不仅是为了保护自身的商业利益,更是为了履行对用户的隐私保护责任 。Reddit 指出,其通过正式的许可协议(例如与谷歌和 OpenAI 签订的协议)来确保数据使用方遵守严格的隐私保护措施。这些措施包括:
尊重删除权:Reddit 的许可模式要求合作伙伴连接到一个“合规 API”,该接口能确保在用户删除其帖子或评论后,这些数据也会从合作伙伴的系统中被移除。
绕过保护机制:诉状称,Anthropic 通过直接抓取,完全绕过了这些保护用户的机制 。这意味着即使用户删除了自己的内容,这些内容可能仍然存在于 Claude 的训练数据中,而 Anthropic 无法也无意去移除它们 。Claude 本身也承认,它“没有办法确切知道”其训练数据是否来自已被删除的源头。
对 Anthropic “白衣骑士”形象的抨击诉状花了大量篇幅抨击 Anthropic 的公开形象。Anthropic 将自己定位为一家负责任、注重伦理的“公益公司”。然而,Reddit 指控其“言行不一”,称其“高尚的声明只是空洞的营销噱头”。诉状特别指出,Anthropic 曾公开声称已停止抓取 Reddit,但 Reddit 的后台日志显示,在此之后 Anthropic 的机器人仍访问其服务器超过十万次。🍞起诉状中关于 robots.txt 的信息总结在 Reddit 对 Anthropic 的诉讼中,robots.txt 文件是证明 Anthropic 明知故犯、违反访问规则的关键证据之一。总结如下:Reddit 对 robots.txt 的定义和用途
功能说明:Reddit 将 robots.txt 文件定义为一种包含计算机代码指令的工具,用于告知自动化机器人(bots)可以访问和不可以访问网站的哪些页面。目的:该文件旨在允许良性的、共生性质的访问(例如搜索引擎的爬取),同时限制寄生性的、商业性的机器人访问。明确的限制:Reddit 在其《用户协议》中明确指出,有条件地允许根据 robots.txt 文件中设置的参数进行爬取,但未经其书面同意,禁止抓取其服务。针对搜索引擎:为了进一步澄清其意图,Reddit 强调其 robots.txt 文件一直都清楚地告知访问者,其仅为搜索引擎提供合法爬取授权,而不适用于像 Anthropic 这样的商业抓取者 。例如,在2024年5月之前的版本中,文件明确写道:“我们的 robots.txt 文件是为搜索引擎准备的”。
Anthropic 对 robots.txt 的公开立场
公开承认其效力:Anthropic 公司公开承认 robots.txt 文件是一种行业标准,并声称其尊重并遵守这些规则。具体承诺:Anthropic 公开表示,它会“通过遵守 robots.txt 中的行业标准指令...来尊重‘禁止爬取’信号”。
Reddit 指控 Anthropic 违反 robots.txt 规则
言行不一:诉状的核心指控之一是,尽管 Anthropic 公开声称尊重 robots.txt,但其行为却恰恰相反。无视指令:Reddit 指控 Anthropic 无视其 robots.txt 文件中的指令,持续进行商业性抓取。行业内的普遍行为:诉状还引用了公开报告,称 Anthropic 不仅在 Reddit 平台上,而是在广泛的范围内都存在无视 robots.txt 反抓取措施的行为。虚假声明:诉状认为 Anthropic 声称“我们遵守 robots.txt”的说法是其众多“空洞的营销噱头”之一,旨在塑造其负责任的形象,而实际上却从事着不合规的数据抓取活动。
在整个诉讼中,robots.txt 不仅仅是一个技术文件,它被 Reddit 用作一个法律意义上的“禁止进入”标志。Reddit 的论点是:1) 我明确设置了规则 (robots.txt 只对搜索引擎开放);2) 你 (Anthropic) 公开承认你懂并会遵守这个规则;3) 但你实际上无视了规则,非法进入并拿走了我的东西。这构成了明知故犯的侵权行为,并直接违反了双方都需遵守的《用户协议》。
五大诉因与救济请求Reddit 提出了五项具体的法律诉因:违约 (Breach of Contract):直接违反《用户协议》。不当得利 (Unjust Enrichment):指控 Anthropic 牺牲 Reddit 的利益而获利数十亿美元 。动产侵权 (Trespass to Chattels):指控 Anthropic 的自动化访问损害了 Reddit 服务器的性能和价值 。侵权性干扰合同 (Tortious Interference With Contract):指控 Anthropic 的行为干扰了 Reddit 与其用户之间的合同关系,特别是在隐私保护方面 。不正当竞争 (Unfair Competition):指控 Anthropic 的行为构成了非法、不公平和欺诈性的商业行为 。
Reddit 寻求的不仅仅是金钱赔偿。其最重要的请求之一是法院颁发禁令,要求 Anthropic 停止使用任何 Reddit 数据,并禁止其继续销售或许可任何使用 Reddit 数据训练的商业产品,包括 Claude 。
诉讼提交日期:2025年6月4日 审判日期:未定
这起诉讼的结果,可能会对 AI 行业如何获取和使用公开网络数据产生深远影响。
☟起诉状链接
https://redditinc.com/hubfs/Reddit%20Inc/Content/PDFs/Docket%20Stamped%20Complaint.pdf
END
往期推荐
日本出台首部人工智能法|一部没有设置处罚措施的法案,主打一个支持发展!
欧盟知产局最新研报《从版权视角看生成式人工智能的发展》|436 页原文下载
2025年5月27日起,Meta将使用用户发布的帖子用于AI训练(德法院:合法!)
北知院:大模型结构和参数受法律保护——抖音诉B612不正当竞争获赔160万
Google新发布的《Agents》让我这个外行入门了!简单易懂,图文并茂!
英国ICO的政策立场:网络爬虫数据训练AI模型的合法依据是什么!
页:
[1]