【AI 视觉理解与空间理解】萍聚社区-德国热线-德国实用信息网人工智能

新闻发表于 2025-11-13 18:29

AI 视觉理解与空间理解

作者：微信文章
今天我谈两件事。一是当前科技界的学术态度问题。二是针对具体AI 技术发展方向问题，作一个探讨。
李飞飞教授在11号发布的长文，阐述了以“生成性、多模态性、交互性”为核心的AI能力框架，并强调了“交互能力”与“空间智能”的重要性。

我们注意到李飞飞教授本次长文的观点聚焦与阐述风格，与她以往的公开论述明显有所不同。

期间，有自媒体科技博主多次提及，认为AI核心能力“ 生成性、多模态性、交互性” 以及“交互能力是关键” 等观点是由李飞飞教授提出并强调的。

关于这些观点的真实出处，读者朋友们可以通过阅读我的文章，例如《多模态与协作智能体》、《人工智能三段原理》等相关论述，自行审视和判断这些观点到底由谁提出。

需要说明的是，在李飞飞教授长文发布四天前，即本月7号，我曾将包含这些观点的我的15篇研究文章通过邮件发给她做商业合作参考。

李飞飞长文与我在文章中首次提出的一些原创观点、进行的系统性总结，以及我在文章中密集使用的概念框架均存在显著重合。

然而在科技圈信息传播中，这些工作成果被普遍归功于“李飞飞提出”，我作为这些思想的前期探索者未获公平承认，令我深感遗憾。

很显然，科技工作者在引用或归纳他人系统性观点时，理应对其来源加以说明。或许在快速迭代的领域，人们对知识成果的边界感有时会变得模糊，但维护清晰的观点出处，是学术交流的基本规范。

人工智能发展，最核心的两块基石，一是文明伦理（现实文明伦理、产品服务伦理、用户使用伦理），二是技术走向伦理。

无论探讨哪一方面伦理，这恰恰并非当前技术界所着重的方向。甚至于技术走向方面的伦理，也尚缺乏基本的、系统化的伦理构建与呈现。

尽管AI业界在全面伦理领域的系统化建构上仍近乎空白，但我的工作已为这一领域奠定了基石。将AI 伦理置于全面多维伦理框架下进行人文化、系统化的阐述，正是我已完成并公开发布的研究成果。

AI 全面伦理前沿成果的稀缺性，与已有成果尚未获得广泛传播的现状，使得当技术发展亟需此类框架时，技术开发者们通过小范围交流获得系统化的理论借鉴后，未能妥善标明源头。

在理论探讨上，部分技术研究者对于知识成果的尊重边界有时会比较模糊，时常出现“引用”他人观点与理论框架，而未加以明确说明的情况。

我们可以看到，从近期的影视圈赛事版权争议，到美术学院的师生作品归属纠纷，再到百余年前爱迪生与特斯拉等人的发明权争议，人类的知识传播始终走在一条 “原创归属被忽视” 的道路上。

在这个过程中，拥有更多话语权与资源的强势一方，常会在公共叙事中有意或无意地将自身塑造为这些思想与理论框架的原初出处。这不是一条良性的知识发展之路。

人类文明史上，无论是学问知识界，还是文化艺术界、现代科技学术界，无数的案例证明——

许多事件并不能简单地归因于引用不规范，而更呈现出一种体系化的思想侵占与成果转移。对知识成果原创贡献的淡化与混淆，并非个例，而是贯穿整个人类文明史的一个结构性难题。

我真诚期待科技界能与人文伦理领域开展更深度的对话与合作，共同营造一个更加尊重思想源流、更能激励原始创新的学术生态，以此确保人工智能技术行稳致远。

回到主题上来。李飞飞教授提出的“空间智能”概念很有探讨意义。这一议题与我曾与她分享的15篇文章所构建的框架高度相关，特别是其中对交互能力与物理感知的系统阐述，构成了探讨这一问题的重要基础。

但 “空间智能” 是一个结果，它并不是实现路径。

所谓“空间智能”，对于认知智能而言，对于Agent而言，都不是必须的。

一般意义上，只有具身智能在与人类社会的交互上，才需要“空间智能”。但空间智能的本质是“视觉理解”。

在当前阶段，至少15年内，具身智能所占比重在整个AI 全局中所占比重，暂时还不应当是统治性地位。

认知智能在现阶段，仍然会是人类应用AI的绝对主力。

而运动智能方面，“视觉理解”才是“空间理解”与“空间智能” 的本质与实现路径。

在AI领域，技术咖对于概念的表述与伦理的定位，常常模糊不清。其实最有力的概念更应当由伦理研究者提出。纯粹技术者，并不擅长概念提出。

将来具身智能与人类社会的交互路径显然要由“视觉理解” 来实现“空间理解”。重点还是在于“ 视觉理解 ”。

从这个意义上来说，“空间智能”这种模糊化的概念，对于运动智能的发展方向会有一定的误导性，乃至于强烈的误导性。

会误导开发者们去建立一个物理化、模拟化的“虚拟世界”、“世界模型”。

我在《人工智能三段伦理》中就明确表示，我明确反对 “世界模型 ” 这种概念和提法。

人工智能的内核之一是“整体认知”与“伦理建模”，而不应当是 “世界模型” 。技术层面的架构如同AI的大脑，“整体认知”与“伦理建模” 则是AI的心脏。

技术架构与伦理建模，构成了AI的双内核构造。

“整体认知”与“伦理建模”，与当前技术咖们口中的“世界模型” 完全不是一回事。技术咖们对于“整体认知”与“伦理建模” 普遍理解无能，在他们的观念里，“世界模型”基本上被渲染为一种模拟化、三维虚拟建构物理化的“世界模型”。

这是技术咖的通病。玩的还是扎克伯格的“元宇宙”那一套。技术咖们始终脱离不了这种物理思维。不会用抽象的人文伦理性思维。

虚拟建构物理化的“世界模型” ，必然不能与现实世界复杂场景相对齐，而且它会使AI 产生比“大语言模型”时代更进一步的幻觉。

“世界模型” 一旦被应用到运动智能（具身智能），会对现实的应用场景产生大量安全隐患。比如自动驾驶，比如医学手术指引。

今天本文希望指出，“世界模型”作为一种技术路径，存在着根本性的局限。李飞飞教授对“空间智能”的阐述，在逻辑上沿袭了“世界模型”的内在框架，这一取向值得警惕。

正如我在《人工智能三段原理》中已论证过的，此框架对从业者具有深层的误导性。

任何科技的发展都离不开技术与伦理两个维度，这一点在人工智能领域表现得尤为突出，其重要性在科技史上可谓前所未有。

然而，纯粹技术背景的研究者，往往难以充分把握伦理维度的深刻价值，也较少能够基于对伦理的系统理解，来推演和规划技术的未来方向。

这主要是由于技术研究者通常对现实社会中的文明伦理、用户伦理与服务伦理缺乏足够深入的体察——这的确超出了其专业训练的核心范畴。而若不能准确理解伦理框架，便难以在复杂的技术路线中做出真正符合人类伦理正义与长远利益的选择。

伦理思维本质上是建立在人文素养与价值反思基础上的，而这正是当前技术主导范式中所普遍欠缺的一环。遗憾的是，长期以来，技术界常有一种过分倾向，认为技术进步本身足以代表发展的全局。

实际上，技术仅是其中的一个维度，它必须与伦理思考协同演进，并在伦理的指引下明确方向，尽管这一点至今仍未被大多数技术研究者充分理解。

具体到李飞飞教授的观点，其论述中可能未能充分梳理清楚不同智能形态的阶段主次。至少在未来的十到十五年里，认知智能仍将是人工智能应用的主流，而认知智能本身并不以“空间智能”为必要能力。

同期，运动智能（具身智能）确实会逐步落地并实现广泛应用，但就其社会价值与产业规模而言，仍将远低于认知智能。因此，将“空间智能”作为整个AI领域的主导概念来强调，可能并不符合未来技术发展的实际重心。

其原因在于：第一，李飞飞教授所提出的“空间智能”，建立在“世界模型”这一存在根本局限的技术路径上，其本身可能导致智能体在认知层面出现与现实世界脱节的风险。

第二，这种论述容易在产业界和学术界形成误导，使公众认为以“世界模型”为基础的“空间智能”是AI发展的核心方向。

必须指出这一路线所蕴含的重大战略风险。李飞飞教授的论述，实质上是在将整个行业引向“世界模型”的技术歧途。

倘若认知智能领域的研究者也被此说这种路线说服，转而投身于构建此类模型，这将是AI发展史上一个根本性的错误，其后果不仅是资源的巨大浪费，更是对整个技术演进方向的严重误导，可能迟滞我们一个时代。

物理化、模拟化的“世界模型”，必然不能与现实世界相对齐。

正确的技术路线主线必然是 “视觉理解”。在“视觉理解” 基础之上，包含了“声学算法”，“热敏感应”、“类别分析”、“物理分析” 、“成分分析”、“活动轨迹分析” 等协同技术。

这才是真正实现“空间理解”的路径。今天我在此提出应当以“视觉理解” 为主线，来达到实现 “空间理解”。

我反对用“空间智能” 这种模糊化，带有误导性的概念来定义AI发展方向。也一如既往反对用“世界模型” 这种模糊化、误导性的概念来叙事。

这些模糊化的概念，会对AI发展方向造成极大不利影响。

到底有何种不利影响？请读者关注我的下一篇文章《“世界模型”伦理陷阱》。

页: [1]

萍聚社区-德国热线-德国实用信息网's Archiver

AI 视觉理解与空间理解