AI对于空间一致性的突破,如何破解AI视频的“穿模”难题
作者:微信文章前言
关于 空间一致性 其实一直是一件比较头痛的事情,今天没到发布会现场的同学木有关系,我给大家汇总了一期!
对于平时用的大模型,比如ChatGPT,你跟它聊文学、聊代码都行。
但你要是跟它说“在我的卧室的桌子左边有个杯子”,它其实没法真正理解这个“左边”是啥样的空间关系。它没有空间感的概念。
群核这次开源的两个模型,主要就是想解决这个问题,让AI能更好地理解和创造3D空间。
https://mmbiz.qpic.cn/mmbiz_jpg/aG6bpk8NIOw0P7SqVQzoueDQethR8ibX1pRltb3YhvAevu8cydTw0K98OkdaxzPCG6zFdgkAQPYl2JOicrVIr4dw/0?wx_fmt=jpeg&from=appmsg
PART 01
情感留存:从照片到空间
想象一下,你手里有一张几十年前的老照片,比如一张自家老房子的照片。
现在,有种技术能把这张2D的照片,变成一个你可以“走进去”漫游的3D虚拟空间,照片里的一桌一椅都变得触手可及。
以下是他们现场展示的真实案例 ↓
https://mmbiz.qpic.cn/mmbiz_gif/aG6bpk8NIOw0P7SqVQzoueDQethR8ibX1aI31aWRg2EoPStYDKEZmdYFPuicfxcUazr8dOpcXJ7HnTUnyRgf8nTQ/640?wx_fmt=gif&from=appmsg
AI在进入物理世界时,面临着三大挑战:
① 数据采集难:不像自动驾驶,可以用车载设备满世界跑来采集数据。室内空间涉及大量隐私,你不可能大规模地去扫描别人家,数据获取极其困难。
② 空间结构复杂:真实世界是“套娃”式的,房间里有家具,家具有抽屉,抽屉里有物品。这种复杂的嵌套关系,AI很难理解。
③ 缺乏交互性:现有的图像和视频数据是“死”的。AI看了再多视频,也不知道一张桌子能不能搬动,一个杯子有多重。
而群核科技的解法,我觉得是构建了一个 3D的中间世界
基于此他们推出了两个刚开源的核心模型:SpatialLM 1.5 和 SpatialGen。
网站下载并部署使用链接:
Hugging Face:
https://huggingface.co/manycore-research/SpatialGen-1.0
Github:
https://github.com/manycore-research/SpatialGen
PART 02
SpatialLM 空间语言模型
这个 SpatialLM (Spatial Language Model)
顾名思义,是能听懂空间指令的语言模型
https://mmbiz.qpic.cn/mmbiz_jpg/aG6bpk8NIOw0P7SqVQzoueDQethR8ibX1dNOXaBFw2Cm9TbGC7whvFaItfqPkmoE3wwMQ6veboVLh87a3V6lHCQ/640?wx_fmt=jpeg&from=appmsg
你不用写代码,就像聊天一样告诉它你的想法:
“我想要一个适合老人住的卧室,床边要有扶手,地面不能有门槛,光线要好。”
在现场演示中,同样一个设计任务,让GPT-4这样的通用大模型来做,生成的方案里有68%的物体存在空间冲突(比如柜子挡住门)
而用SpatialLM,这个冲突率只有9%
https://mmbiz.qpic.cn/mmbiz_png/aG6bpk8NIOw0P7SqVQzoueDQethR8ibX1yT3HiabFVeLVIWibUDo7HQ5NHjFc2w39riclOG735QToUWfo1lIibxBwwQ/640?wx_fmt=png&from=appmsg
PART 03
SpatialGen 空间生成模型
如果说SpatialLM负责“设计”,那SpatialGen (Spatial Generation Model) 就负责把它“拍”出来。SpatialGen可以基于一张图和一个布局,生成从不同角度看一致的图片和漫游视频,就像一个虚拟摄影师在一个真实存在的空间里拍摄一样。
https://mmbiz.qpic.cn/mmbiz_gif/aG6bpk8NIOw0P7SqVQzoueDQethR8ibX1cSypxlZdwFgAUXGDZjpvVQVjGuFA8ca2b3a5ZKKgAh0pdsNHrhxYcQ/640?wx_fmt=gif&from=appmsg
OK,这是怎么做到的呢?
① 视角规划:先智能地计算出几百个最佳“机位”。
② 多模态扩散:同时生成彩色、深度、语义图。
③ 高斯泼溅:把离散的图片“缝合”成连续的3D点云。
④ 物理校正:根据真实的材料光学参数,调整光影。
⑤ 动态合成:最后根据你想要的路线,生成4K高清漫游视频。
我简要总结了一下 ↓
https://mmbiz.qpic.cn/mmbiz_jpg/aG6bpk8NIOw0P7SqVQzoueDQethR8ibX1ibI0ApT0kc8lqnIEBSALujc4WgMTiaE9cOk7sDekNTTyPCYeEQ0apq4g/640?wx_fmt=jpeg&from=appmsg
那么这些技术到底能用在哪?
1. 情感留存与记忆纪念
这是最打动人的应用之一。比如,通过拍摄老人的生活影像,为他们构建一个可随时“回去看看”的虚拟空间。对于行动不便的老人或远在异乡的亲人,这无疑是一种全新的情感连接方式。
https://mmbiz.qpic.cn/mmbiz_jpg/aG6bpk8NIOw0P7SqVQzoueDQethR8ibX1Zk5pW0O2Yfx3ibibW4AYlXMCrHnegE3akUNsAfkjrBM7yfeplh6zAF4g/640?wx_fmt=jpeg&from=appmsg
2. AI视频与短剧创作
现在的AI视频(比如Sora)虽然惊艳,但普遍存在一个问题:时间一长,画面里的东西就开始变形、穿模,因为它们不懂三维物理。而群核的这套技术从根本上保证了空间和物体的一致性。这对广告、产品展示,尤其是需要场景和人物连贯的短剧行业来说,是真正的生产力工具。
https://mmbiz.qpic.cn/mmbiz_gif/aG6bpk8NIOw0P7SqVQzoueDQethR8ibX1Hjk6l84CCLDz4zGPw5Dsqq8aRxaqrDSbLqWCtNHnJGIqSx9rhV2rmg/640?wx_fmt=gif&from=appmsg
3. 机器人训练
这是个非常实际的应用。想让扫地机器人更聪明,就需要让它在各种各样的家庭环境里训练。用SpatialLM可以快速、低成本地生成海量、物理正确的虚拟房间,让机器人在里面尽情地学习,碰撞规避准确率能提升到89%以上。群核也计划在今年Q4发布机器人训练的“沙盒”工具。
https://mmbiz.qpic.cn/mmbiz_gif/aG6bpk8NIOw0P7SqVQzoueDQethR8ibX1q3C5pib9b3nXg16VTGmYia8Sa1Oib1mpojgXzMMSA8icgRiaMuyj8QViaObA/640?wx_fmt=gif&from=appmsg
PART 04
开源背后的阳谋
群核科技的战略很清晰,他们要做“全球空间智能服务提供商”,而实现路径就是开源和开放。
一个“工具-数据-模型”的飞轮!!
数据层:
2018:开源 InteriorNet,全球最大空间认知数据集
2025:开源 IntelGS 高斯数据集,登顶 Hugging Face
https://mmbiz.qpic.cn/mmbiz_jpg/aG6bpk8NIOw0P7SqVQzoueDQethR8ibX1JZR8iatguoF3d18WfVJbppia4DE4pxQXjflQdjR4o6ZaMZ1GjiayH2sTA/640?wx_fmt=jpeg&from=appmsg
https://mmbiz.qpic.cn/mmbiz_jpg/aG6bpk8NIOw0P7SqVQzoueDQethR8ibX1pOmQehV4NvE9Uyx6eBdmDCnXsuW4zWr4uialCJClQNxACYpPictA0yfg/640?wx_fmt=jpeg&from=appmsg
模型层:
SQL(理解)、CPU卷(生成) → 实时交互、提升正确率
循环飞轮:
工具 → 数据 → 模型 → 再反哺工具
https://mmbiz.qpic.cn/mmbiz_jpg/aG6bpk8NIOw0P7SqVQzoueDQethR8ibX1pHWSbX7qSzadyxISmKOJnAJfujmlicEv405RGNAPdtWSxic0ibiaEFeKog/640?wx_fmt=jpeg&from=appmsg
正如社区发起人AJ所说,一个拥有800万成员的开源社区,其技术迭代速度和创新能力,远非封闭开发可比。
https://mmbiz.qpic.cn/mmbiz_jpg/aG6bpk8NIOw0P7SqVQzoueDQethR8ibX1Bsag6buCjGmBPKblOUWUUaZ41vlEIyRw9FvsfK5oicWFXXjql7WM3DA/0?wx_fmt=jpeg&from=appmsg
PART 05
未来路线图
2025 Q3:开源10万组物理参数数据集
2025 Q4:机器人训练沙盒
2026目标:服务机器人环境认知准确率95%
https://mmbiz.qpic.cn/mmbiz_jpg/aG6bpk8NIOw0P7SqVQzoueDQethR8ibX17VeEYQRluYCmqOzh7Y10YWw7avYxjzCDTpwNRepjDkH2czK3MseiaqQ/640?wx_fmt=jpeg&from=appmsg
行业实践与生态:
① 短剧行业:头部公司年产量200部
② 动画行业:日本项目 → 手绘+AI混合流程
③ 艺术教育:空间计算提高效率,但主体性仍需探索
https://mmbiz.qpic.cn/mmbiz_png/aG6bpk8NIOw0P7SqVQzoueDQethR8ibX1H5Q9CwnfzFZefr5KYvPmC8fEqC2CjjJgNd1JfnNm4wMVicwiaibPvSsWA/0?wx_fmt=png&from=appmsg
最后
总的来说,期待未来有更多新进展~ 让大家更好使用。
好了睡觉。。拜~
页:
[1]