新闻 发表于 2025-12-30 15:48

AI 是怎么生成视频的

作者:微信文章
AI视频大模型的底层逻辑主要基于以下核心技术与原理:扩散模型:通过“破坏-重建”的渐进式过程生成视频;Transformer 架构:通过计算每个元素(如视频帧、像素块)与其他元素的关联权重,捕捉全局依赖关系;多模态融合技术:用来音画同步生成的;大规模训练与数据驱动:堆数据,搞题海战术。
用AI生成视频,跟AI文本生成是类似的,本质是玩一个概率游戏,根据上文去推测下文,上文给的信息越详细、越准确,大模型推测出的下文就越准确。举个例子:上文是“我喜欢吃西”,那大模型基本就会推测出下面应该是“瓜”或者“红柿”,而不是“天取经”。但生成视频所需的信息量更大,要考虑的因素更多,所以出错的概率就更大;因此,为了得到一段满意的视频,反复修改分镜图和提示词,反复抽卡就不奇怪了。这就是为什么在生视频的过程中,用图片去作为参考,会比用提示词能更准确---图片包含的信息量更大、更准确;一张图片通常包括了:人物、场景、物品、颜色、光线等,以及他们各自之间的具体方位和相互关系等,这些很难用文字详细、准确地描述出来。
所以我们要用分镜图,生成一段视频,用的图越多、越准确,效果就越接近想要得到的。但也不可能一直去生成分镜图,那就成了最传统的动画制作了,耗时耗力。于是就用分镜图,再加上提示词,让AI视频大模型去推测要生成的片段,来提高效率。理解了这些,就不会对大模型有不切实际的期待,它只是一个强大但并不完善的工具,加上包括我在内的大多数使用者,水平也就那样,所以真没必要因为生成了一大堆废图、废片,而焦虑不安甚至感到怀疑人生。
目前经常有人吹一些工作流或者小众工具,我是不怎么关心的,这些顶多就是优化了一些流程。对于绝大多数人来说,用好几个国内外巨头的生图、生视频大模型就足够了,因为只有他们有技术和足够的资金来持续提升。
页: [1]
查看完整版本: AI 是怎么生成视频的