【AI 是怎么生成视频的】萍聚社区-德国热线-德国实用信息网人工智能

新闻发表于 2025-12-30 15:48

AI 是怎么生成视频的

作者：微信文章
AI视频大模型的底层逻辑主要基于以下核心技术与原理：扩散模型：通过“破坏-重建”的渐进式过程生成视频；Transformer 架构：通过计算每个元素（如视频帧、像素块）与其他元素的关联权重，捕捉全局依赖关系；多模态融合技术：用来音画同步生成的；大规模训练与数据驱动：堆数据，搞题海战术。
用AI生成视频，跟AI文本生成是类似的，本质是玩一个概率游戏，根据上文去推测下文，上文给的信息越详细、越准确，大模型推测出的下文就越准确。举个例子：上文是“我喜欢吃西”，那大模型基本就会推测出下面应该是“瓜”或者“红柿”，而不是“天取经”。但生成视频所需的信息量更大，要考虑的因素更多，所以出错的概率就更大；因此，为了得到一段满意的视频，反复修改分镜图和提示词，反复抽卡就不奇怪了。这就是为什么在生视频的过程中，用图片去作为参考，会比用提示词能更准确---图片包含的信息量更大、更准确；一张图片通常包括了：人物、场景、物品、颜色、光线等，以及他们各自之间的具体方位和相互关系等，这些很难用文字详细、准确地描述出来。
所以我们要用分镜图，生成一段视频，用的图越多、越准确，效果就越接近想要得到的。但也不可能一直去生成分镜图，那就成了最传统的动画制作了，耗时耗力。于是就用分镜图，再加上提示词，让AI视频大模型去推测要生成的片段，来提高效率。理解了这些，就不会对大模型有不切实际的期待，它只是一个强大但并不完善的工具，加上包括我在内的大多数使用者，水平也就那样，所以真没必要因为生成了一大堆废图、废片，而焦虑不安甚至感到怀疑人生。
目前经常有人吹一些工作流或者小众工具，我是不怎么关心的，这些顶多就是优化了一些流程。对于绝大多数人来说，用好几个国内外巨头的生图、生视频大模型就足够了，因为只有他们有技术和足够的资金来持续提升。

页: [1]

萍聚社区-德国热线-德国实用信息网's Archiver

AI 是怎么生成视频的