【AI对于空间一致性的突破,如何破解AI视频的“穿模”难题】萍聚社区-德国热线-德国实用信息网人工智能

我爱免费 发表于 2025-8-26 03:38

AI对于空间一致性的突破,如何破解AI视频的“穿模”难题

作者：微信文章
前言

关于空间一致性其实一直是一件比较头痛的事情，今天没到发布会现场的同学木有关系，我给大家汇总了一期！

对于平时用的大模型，比如ChatGPT，你跟它聊文学、聊代码都行。

但你要是跟它说“在我的卧室的桌子左边有个杯子”，它其实没法真正理解这个“左边”是啥样的空间关系。它没有空间感的概念。

群核这次开源的两个模型，主要就是想解决这个问题，让AI能更好地理解和创造3D空间。

https://mmbiz.qpic.cn/mmbiz_jpg/aG6bpk8NIOw0P7SqVQzoueDQethR8ibX1pRltb3YhvAevu8cydTw0K98OkdaxzPCG6zFdgkAQPYl2JOicrVIr4dw/0?wx_fmt=jpeg&from=appmsg
PART 01
情感留存：从照片到空间

想象一下，你手里有一张几十年前的老照片，比如一张自家老房子的照片。

现在，有种技术能把这张2D的照片，变成一个你可以“走进去”漫游的3D虚拟空间，照片里的一桌一椅都变得触手可及。

以下是他们现场展示的真实案例 ↓

https://mmbiz.qpic.cn/mmbiz_gif/aG6bpk8NIOw0P7SqVQzoueDQethR8ibX1aI31aWRg2EoPStYDKEZmdYFPuicfxcUazr8dOpcXJ7HnTUnyRgf8nTQ/640?wx_fmt=gif&from=appmsg

AI在进入物理世界时，面临着三大挑战：

① 数据采集难：不像自动驾驶，可以用车载设备满世界跑来采集数据。室内空间涉及大量隐私，你不可能大规模地去扫描别人家，数据获取极其困难。

② 空间结构复杂：真实世界是“套娃”式的，房间里有家具，家具有抽屉，抽屉里有物品。这种复杂的嵌套关系，AI很难理解。

③ 缺乏交互性：现有的图像和视频数据是“死”的。AI看了再多视频，也不知道一张桌子能不能搬动，一个杯子有多重。

而群核科技的解法，我觉得是构建了一个 3D的中间世界

基于此他们推出了两个刚开源的核心模型：SpatialLM 1.5 和 SpatialGen。

网站下载并部署使用链接：

Hugging Face：

https://huggingface.co/manycore-research/SpatialGen-1.0

Github：

https://github.com/manycore-research/SpatialGen

PART 02
SpatialLM 空间语言模型

这个 SpatialLM (Spatial Language Model)

顾名思义，是能听懂空间指令的语言模型

https://mmbiz.qpic.cn/mmbiz_jpg/aG6bpk8NIOw0P7SqVQzoueDQethR8ibX1dNOXaBFw2Cm9TbGC7whvFaItfqPkmoE3wwMQ6veboVLh87a3V6lHCQ/640?wx_fmt=jpeg&from=appmsg

你不用写代码，就像聊天一样告诉它你的想法：

“我想要一个适合老人住的卧室，床边要有扶手，地面不能有门槛，光线要好。”

在现场演示中，同样一个设计任务，让GPT-4这样的通用大模型来做，生成的方案里有68%的物体存在空间冲突（比如柜子挡住门）

而用SpatialLM，这个冲突率只有9%

https://mmbiz.qpic.cn/mmbiz_png/aG6bpk8NIOw0P7SqVQzoueDQethR8ibX1yT3HiabFVeLVIWibUDo7HQ5NHjFc2w39riclOG735QToUWfo1lIibxBwwQ/640?wx_fmt=png&from=appmsg

PART 03
SpatialGen 空间生成模型
如果说SpatialLM负责“设计”，那SpatialGen (Spatial Generation Model) 就负责把它“拍”出来。SpatialGen可以基于一张图和一个布局，生成从不同角度看一致的图片和漫游视频，就像一个虚拟摄影师在一个真实存在的空间里拍摄一样。
https://mmbiz.qpic.cn/mmbiz_gif/aG6bpk8NIOw0P7SqVQzoueDQethR8ibX1cSypxlZdwFgAUXGDZjpvVQVjGuFA8ca2b3a5ZKKgAh0pdsNHrhxYcQ/640?wx_fmt=gif&from=appmsg

OK，这是怎么做到的呢？

① 视角规划：先智能地计算出几百个最佳“机位”。

② 多模态扩散：同时生成彩色、深度、语义图。

③ 高斯泼溅：把离散的图片“缝合”成连续的3D点云。

④ 物理校正：根据真实的材料光学参数，调整光影。

⑤ 动态合成：最后根据你想要的路线，生成4K高清漫游视频。

我简要总结了一下 ↓

https://mmbiz.qpic.cn/mmbiz_jpg/aG6bpk8NIOw0P7SqVQzoueDQethR8ibX1ibI0ApT0kc8lqnIEBSALujc4WgMTiaE9cOk7sDekNTTyPCYeEQ0apq4g/640?wx_fmt=jpeg&from=appmsg

那么这些技术到底能用在哪？

1. 情感留存与记忆纪念

这是最打动人的应用之一。比如，通过拍摄老人的生活影像，为他们构建一个可随时“回去看看”的虚拟空间。对于行动不便的老人或远在异乡的亲人，这无疑是一种全新的情感连接方式。

https://mmbiz.qpic.cn/mmbiz_jpg/aG6bpk8NIOw0P7SqVQzoueDQethR8ibX1Zk5pW0O2Yfx3ibibW4AYlXMCrHnegE3akUNsAfkjrBM7yfeplh6zAF4g/640?wx_fmt=jpeg&from=appmsg

2. AI视频与短剧创作

现在的AI视频（比如Sora）虽然惊艳，但普遍存在一个问题：时间一长，画面里的东西就开始变形、穿模，因为它们不懂三维物理。而群核的这套技术从根本上保证了空间和物体的一致性。这对广告、产品展示，尤其是需要场景和人物连贯的短剧行业来说，是真正的生产力工具。

https://mmbiz.qpic.cn/mmbiz_gif/aG6bpk8NIOw0P7SqVQzoueDQethR8ibX1Hjk6l84CCLDz4zGPw5Dsqq8aRxaqrDSbLqWCtNHnJGIqSx9rhV2rmg/640?wx_fmt=gif&from=appmsg

3. 机器人训练

这是个非常实际的应用。想让扫地机器人更聪明，就需要让它在各种各样的家庭环境里训练。用SpatialLM可以快速、低成本地生成海量、物理正确的虚拟房间，让机器人在里面尽情地学习，碰撞规避准确率能提升到89%以上。群核也计划在今年Q4发布机器人训练的“沙盒”工具。

https://mmbiz.qpic.cn/mmbiz_gif/aG6bpk8NIOw0P7SqVQzoueDQethR8ibX1q3C5pib9b3nXg16VTGmYia8Sa1Oib1mpojgXzMMSA8icgRiaMuyj8QViaObA/640?wx_fmt=gif&from=appmsg

PART 04
开源背后的阳谋

群核科技的战略很清晰，他们要做“全球空间智能服务提供商”，而实现路径就是开源和开放。

一个“工具-数据-模型”的飞轮！！
数据层：

2018：开源 InteriorNet，全球最大空间认知数据集

2025：开源 IntelGS 高斯数据集，登顶 Hugging Face

https://mmbiz.qpic.cn/mmbiz_jpg/aG6bpk8NIOw0P7SqVQzoueDQethR8ibX1JZR8iatguoF3d18WfVJbppia4DE4pxQXjflQdjR4o6ZaMZ1GjiayH2sTA/640?wx_fmt=jpeg&from=appmsg

https://mmbiz.qpic.cn/mmbiz_jpg/aG6bpk8NIOw0P7SqVQzoueDQethR8ibX1pOmQehV4NvE9Uyx6eBdmDCnXsuW4zWr4uialCJClQNxACYpPictA0yfg/640?wx_fmt=jpeg&from=appmsg

模型层：

SQL（理解）、CPU卷（生成） → 实时交互、提升正确率

循环飞轮：

工具 → 数据 → 模型 → 再反哺工具

https://mmbiz.qpic.cn/mmbiz_jpg/aG6bpk8NIOw0P7SqVQzoueDQethR8ibX1pHWSbX7qSzadyxISmKOJnAJfujmlicEv405RGNAPdtWSxic0ibiaEFeKog/640?wx_fmt=jpeg&from=appmsg
正如社区发起人AJ所说，一个拥有800万成员的开源社区，其技术迭代速度和创新能力，远非封闭开发可比。

https://mmbiz.qpic.cn/mmbiz_jpg/aG6bpk8NIOw0P7SqVQzoueDQethR8ibX1Bsag6buCjGmBPKblOUWUUaZ41vlEIyRw9FvsfK5oicWFXXjql7WM3DA/0?wx_fmt=jpeg&from=appmsg

PART 05
未来路线图

2025 Q3：开源10万组物理参数数据集

2025 Q4：机器人训练沙盒

2026目标：服务机器人环境认知准确率95%

https://mmbiz.qpic.cn/mmbiz_jpg/aG6bpk8NIOw0P7SqVQzoueDQethR8ibX17VeEYQRluYCmqOzh7Y10YWw7avYxjzCDTpwNRepjDkH2czK3MseiaqQ/640?wx_fmt=jpeg&from=appmsg

行业实践与生态：

① 短剧行业：头部公司年产量200部

② 动画行业：日本项目 → 手绘+AI混合流程

③ 艺术教育：空间计算提高效率，但主体性仍需探索

https://mmbiz.qpic.cn/mmbiz_png/aG6bpk8NIOw0P7SqVQzoueDQethR8ibX1H5Q9CwnfzFZefr5KYvPmC8fEqC2CjjJgNd1JfnNm4wMVicwiaibPvSsWA/0?wx_fmt=png&from=appmsg

最后

总的来说，期待未来有更多新进展~ 让大家更好使用。

好了睡觉。。拜~

页: [1]

萍聚社区-德国热线-德国实用信息网's Archiver

AI对于空间一致性的突破,如何破解AI视频的“穿模”难题