我爱免费 发表于 2025-8-26 04:38

AI对于空间一致性的突破,如何破解AI视频的“穿模”难题

作者:微信文章
前言

关于 空间一致性 其实一直是一件比较头痛的事情,今天没到发布会现场的同学木有关系,我给大家汇总了一期!

对于平时用的大模型,比如ChatGPT,你跟它聊文学、聊代码都行。

但你要是跟它说“在我的卧室的桌子左边有个杯子”,它其实没法真正理解这个“左边”是啥样的空间关系。它没有空间感的概念。

群核这次开源的两个模型,主要就是想解决这个问题,让AI能更好地理解和创造3D空间。

https://mmbiz.qpic.cn/mmbiz_jpg/aG6bpk8NIOw0P7SqVQzoueDQethR8ibX1pRltb3YhvAevu8cydTw0K98OkdaxzPCG6zFdgkAQPYl2JOicrVIr4dw/0?wx_fmt=jpeg&from=appmsg
PART 01
情感留存:从照片到空间

想象一下,你手里有一张几十年前的老照片,比如一张自家老房子的照片。

现在,有种技术能把这张2D的照片,变成一个你可以“走进去”漫游的3D虚拟空间,照片里的一桌一椅都变得触手可及。

以下是他们现场展示的真实案例 ↓

https://mmbiz.qpic.cn/mmbiz_gif/aG6bpk8NIOw0P7SqVQzoueDQethR8ibX1aI31aWRg2EoPStYDKEZmdYFPuicfxcUazr8dOpcXJ7HnTUnyRgf8nTQ/640?wx_fmt=gif&from=appmsg

AI在进入物理世界时,面临着三大挑战:

① 数据采集难:不像自动驾驶,可以用车载设备满世界跑来采集数据。室内空间涉及大量隐私,你不可能大规模地去扫描别人家,数据获取极其困难。

② 空间结构复杂:真实世界是“套娃”式的,房间里有家具,家具有抽屉,抽屉里有物品。这种复杂的嵌套关系,AI很难理解。

③ 缺乏交互性:现有的图像和视频数据是“死”的。AI看了再多视频,也不知道一张桌子能不能搬动,一个杯子有多重。

而群核科技的解法,我觉得是构建了一个 3D的中间世界

基于此他们推出了两个刚开源的核心模型:SpatialLM 1.5 和 SpatialGen。

网站下载并部署使用链接:

Hugging Face:

https://huggingface.co/manycore-research/SpatialGen-1.0

Github:

https://github.com/manycore-research/SpatialGen

PART 02
SpatialLM 空间语言模型

这个 SpatialLM (Spatial Language Model)

顾名思义,是能听懂空间指令的语言模型

https://mmbiz.qpic.cn/mmbiz_jpg/aG6bpk8NIOw0P7SqVQzoueDQethR8ibX1dNOXaBFw2Cm9TbGC7whvFaItfqPkmoE3wwMQ6veboVLh87a3V6lHCQ/640?wx_fmt=jpeg&from=appmsg

你不用写代码,就像聊天一样告诉它你的想法:

“我想要一个适合老人住的卧室,床边要有扶手,地面不能有门槛,光线要好。”

在现场演示中,同样一个设计任务,让GPT-4这样的通用大模型来做,生成的方案里有68%的物体存在空间冲突(比如柜子挡住门)

而用SpatialLM,这个冲突率只有9%

https://mmbiz.qpic.cn/mmbiz_png/aG6bpk8NIOw0P7SqVQzoueDQethR8ibX1yT3HiabFVeLVIWibUDo7HQ5NHjFc2w39riclOG735QToUWfo1lIibxBwwQ/640?wx_fmt=png&from=appmsg

PART 03
SpatialGen 空间生成模型
如果说SpatialLM负责“设计”,那SpatialGen (Spatial Generation Model) 就负责把它“拍”出来。SpatialGen可以基于一张图和一个布局,生成从不同角度看一致的图片和漫游视频,就像一个虚拟摄影师在一个真实存在的空间里拍摄一样。
https://mmbiz.qpic.cn/mmbiz_gif/aG6bpk8NIOw0P7SqVQzoueDQethR8ibX1cSypxlZdwFgAUXGDZjpvVQVjGuFA8ca2b3a5ZKKgAh0pdsNHrhxYcQ/640?wx_fmt=gif&from=appmsg

OK,这是怎么做到的呢?

① 视角规划:先智能地计算出几百个最佳“机位”。

② 多模态扩散:同时生成彩色、深度、语义图。

③ 高斯泼溅:把离散的图片“缝合”成连续的3D点云。

④ 物理校正:根据真实的材料光学参数,调整光影。

⑤ 动态合成:最后根据你想要的路线,生成4K高清漫游视频。

我简要总结了一下 ↓

https://mmbiz.qpic.cn/mmbiz_jpg/aG6bpk8NIOw0P7SqVQzoueDQethR8ibX1ibI0ApT0kc8lqnIEBSALujc4WgMTiaE9cOk7sDekNTTyPCYeEQ0apq4g/640?wx_fmt=jpeg&from=appmsg

那么这些技术到底能用在哪?

1. 情感留存与记忆纪念

这是最打动人的应用之一。比如,通过拍摄老人的生活影像,为他们构建一个可随时“回去看看”的虚拟空间。对于行动不便的老人或远在异乡的亲人,这无疑是一种全新的情感连接方式。

https://mmbiz.qpic.cn/mmbiz_jpg/aG6bpk8NIOw0P7SqVQzoueDQethR8ibX1Zk5pW0O2Yfx3ibibW4AYlXMCrHnegE3akUNsAfkjrBM7yfeplh6zAF4g/640?wx_fmt=jpeg&from=appmsg

2. AI视频与短剧创作

现在的AI视频(比如Sora)虽然惊艳,但普遍存在一个问题:时间一长,画面里的东西就开始变形、穿模,因为它们不懂三维物理。而群核的这套技术从根本上保证了空间和物体的一致性。这对广告、产品展示,尤其是需要场景和人物连贯的短剧行业来说,是真正的生产力工具。

https://mmbiz.qpic.cn/mmbiz_gif/aG6bpk8NIOw0P7SqVQzoueDQethR8ibX1Hjk6l84CCLDz4zGPw5Dsqq8aRxaqrDSbLqWCtNHnJGIqSx9rhV2rmg/640?wx_fmt=gif&from=appmsg

3. 机器人训练

这是个非常实际的应用。想让扫地机器人更聪明,就需要让它在各种各样的家庭环境里训练。用SpatialLM可以快速、低成本地生成海量、物理正确的虚拟房间,让机器人在里面尽情地学习,碰撞规避准确率能提升到89%以上。群核也计划在今年Q4发布机器人训练的“沙盒”工具。

https://mmbiz.qpic.cn/mmbiz_gif/aG6bpk8NIOw0P7SqVQzoueDQethR8ibX1q3C5pib9b3nXg16VTGmYia8Sa1Oib1mpojgXzMMSA8icgRiaMuyj8QViaObA/640?wx_fmt=gif&from=appmsg

PART 04
开源背后的阳谋

群核科技的战略很清晰,他们要做“全球空间智能服务提供商”,而实现路径就是开源和开放。

一个“工具-数据-模型”的飞轮!!
数据层:

2018:开源 InteriorNet,全球最大空间认知数据集

2025:开源 IntelGS 高斯数据集,登顶 Hugging Face

https://mmbiz.qpic.cn/mmbiz_jpg/aG6bpk8NIOw0P7SqVQzoueDQethR8ibX1JZR8iatguoF3d18WfVJbppia4DE4pxQXjflQdjR4o6ZaMZ1GjiayH2sTA/640?wx_fmt=jpeg&from=appmsg

https://mmbiz.qpic.cn/mmbiz_jpg/aG6bpk8NIOw0P7SqVQzoueDQethR8ibX1pOmQehV4NvE9Uyx6eBdmDCnXsuW4zWr4uialCJClQNxACYpPictA0yfg/640?wx_fmt=jpeg&from=appmsg

模型层:

SQL(理解)、CPU卷(生成) → 实时交互、提升正确率

循环飞轮:

工具 → 数据 → 模型 → 再反哺工具

https://mmbiz.qpic.cn/mmbiz_jpg/aG6bpk8NIOw0P7SqVQzoueDQethR8ibX1pHWSbX7qSzadyxISmKOJnAJfujmlicEv405RGNAPdtWSxic0ibiaEFeKog/640?wx_fmt=jpeg&from=appmsg
正如社区发起人AJ所说,一个拥有800万成员的开源社区,其技术迭代速度和创新能力,远非封闭开发可比。

https://mmbiz.qpic.cn/mmbiz_jpg/aG6bpk8NIOw0P7SqVQzoueDQethR8ibX1Bsag6buCjGmBPKblOUWUUaZ41vlEIyRw9FvsfK5oicWFXXjql7WM3DA/0?wx_fmt=jpeg&from=appmsg

PART 05
未来路线图

2025 Q3:开源10万组物理参数数据集

2025 Q4:机器人训练沙盒

2026目标:服务机器人环境认知准确率95%

https://mmbiz.qpic.cn/mmbiz_jpg/aG6bpk8NIOw0P7SqVQzoueDQethR8ibX17VeEYQRluYCmqOzh7Y10YWw7avYxjzCDTpwNRepjDkH2czK3MseiaqQ/640?wx_fmt=jpeg&from=appmsg

行业实践与生态:

① 短剧行业:头部公司年产量200部

② 动画行业:日本项目 → 手绘+AI混合流程

③ 艺术教育:空间计算提高效率,但主体性仍需探索

https://mmbiz.qpic.cn/mmbiz_png/aG6bpk8NIOw0P7SqVQzoueDQethR8ibX1H5Q9CwnfzFZefr5KYvPmC8fEqC2CjjJgNd1JfnNm4wMVicwiaibPvSsWA/0?wx_fmt=png&from=appmsg

最后

总的来说,期待未来有更多新进展~ 让大家更好使用。

好了睡觉。。拜~
页: [1]
查看完整版本: AI对于空间一致性的突破,如何破解AI视频的“穿模”难题