Skip to content

视频生成(Sora 与世界模型)

Sora、Veo、可灵把文生视频推到风口。视频生成在图像生成(扩散模型)基础上多了「时间维度」,是多模态生成的前沿,也越来越多出现在面试的开放讨论环节——尤其是「视频生成与世界模型的关系」。

一、视频生成难在哪?

视频 = 图像 × 时间。相比文生图要额外解决:

  • 时序一致性:相邻帧连贯,物体不能闪烁、变形、忽大忽小;
  • 运动与物理合理性:重力、碰撞、流体、遮挡关系要对——这是当前最难也最容易翻车的部分;
  • 长时程:几秒到分钟级全程保持主体与场景一致;
  • 算力爆炸:数据量 = 帧数 × 分辨率,训练和推理都比图像贵一个量级以上。

二、主流技术路线

路线一:扩散 + 时空建模(当前主流)

把扩散模型从空间扩展到时空:在帧序列上去噪,用时间维注意力/卷积建模帧间关系。

  • 早期:在图像 U-Net 里插时间注意力层让帧间交互(如 Stable Video Diffusion);
  • 现在:DiT(Diffusion Transformer)+ 时空 patch 成为标准答案。

Sora 的核心:时空 patch(Spacetime Patches)——把视频在潜空间切成跨越空间和时间的小块作为 token,喂给 DiT 做扩散去噪:

  • 统一处理任意分辨率、时长、宽高比(不用裁成固定尺寸训练);
  • token 化后像 LLM 一样可规模化——「视频生成的 scaling law」是 Sora 技术报告的核心主张。

先压缩再生成:与 Latent Diffusion 同理,先用视频 VAE 在空间 + 时间两个维度压缩到低维潜空间,扩散在潜空间进行,最后解码回像素——不压缩根本算不动。

路线二:自回归生成

把视频 token 化后像语言一样逐 token 自回归生成(如 VideoPoet 及部分「世界模型」路线)。优点:天然支持任意长度续生成、与 LLM 架构统一;缺点:误差随长度累积、生成慢。当前质量上限仍以扩散为主,但自回归 + 扩散混合(自回归出关键帧/低清骨架,扩散精修)是活跃方向。

三、控制与一致性技术

  • 文本控制:文本编码器 + 交叉注意力(同文生图);训练数据的**视频重描述(re-captioning)**质量直接决定指令跟随能力(Sora 用了 DALL·E 3 式的密集描述策略)。
  • 图生视频(I2V):首帧/参考图驱动,比纯文生更可控,商业产品主力形态。
  • 运动与相机控制:轨迹/镜头语言条件注入。
  • 长视频一致性:关键帧锚定 + 插值、更长时序窗口、主体参考(角色一致性)。

四、代表产品格局

阵营代表备注
闭源旗舰Sora(OpenAI)、Veo(Google)质量标杆,物理一致性最强梯队
国产可灵(快手)、即梦/Seedance(字节)、Vidu商业化激进,与闭源差距快速收窄
创意工具Runway、Pika、Luma面向创作者工作流
开源Wan(阿里)、HunyuanVideo(腾讯)、Mochi开源权重,研究与私有化基础

五、评估怎么做?

  • 基准:VBench 等多维度基准(主体一致性、运动平滑度、美学、文本对齐分项打分);
  • 物理一致性:专项测试(物体恒存、碰撞、流体)——当前所有模型都会犯错的区域;
  • 人评仍是金标准:视频质量的「恐怖谷」效应自动指标抓不住。
  • 与 LLM 评测一样要警惕「演示精选 vs 随机样本」的差距(cherry-picking)。

六、与世界模型的关系(开放题高频)

视频生成被认为可能通向世界模型(World Model):如果模型能准确预测「下一帧会发生什么」,它就隐含学到了物理规律与世界动态。

  • 乐观派(Sora 立场):规模化视频生成 = 通往世界模拟器,生成质量提升伴随物理理解涌现;
  • 质疑派(LeCun 等):像素级生成是在「记忆外观」而非「理解因果」,主张 V-JEPA 式在表示空间预测(不生成像素)才是世界模型正道;
  • 交互式世界模型:Genie 等可交互生成环境(输入动作 → 生成下一帧),把视频生成与强化学习环境连接,被视为具身智能的训练场。

面试答法:先给两派观点,再落到证据——当前视频模型仍会穿模、物体凭空消失,说明「生成逼真」≠「理解物理」,但作为数据引擎和模拟环境的价值已经成立。

高频追问

Q:视频生成和图像生成的主要区别? 多了时间维度:要解决时序一致性、运动物理合理性、长时程一致与算力爆炸。技术上是把扩散从空间扩展到时空(时间注意力 → DiT + 时空 patch),并在时空两维都做潜空间压缩。

Q:Sora 的核心技术思想? ①视频 VAE 压到潜空间;②切成时空 patch 作为统一 token(任意分辨率/时长/宽高比通吃);③ DiT 扩散去噪;④高质量密集重描述数据。核心主张是把 LLM 的「token + Transformer + scaling」配方复制到视频。

Q:为什么要先压缩到潜空间? 像素空间的视频数据量 = 帧数 × 分辨率 × 3 通道,直接扩散算力不可承受。视频 VAE 在空间(如 8×)和时间(如 4×)同时压缩,潜空间扩散后再解码,与 Stable Diffusion 的 Latent Diffusion 同理但多了时间维。

Q:扩散和自回归两条路线怎么比较? 扩散:并行去噪、质量上限高、但固定时长且迭代步数多;自回归:任意长度续生成、与 LLM 统一、但误差累积且逐 token 慢。趋势是混合:自回归管「时间外推」,扩散管「单段精修」。

Q:怎么保证帧间一致性? 架构上:时空联合注意力让模型「看到」前后帧;生成策略上:关键帧锚定 + 插值、参考图/主体绑定、重叠窗口滑动生成。根本上仍受限于模型对物体恒存性的理解。

Q:为什么说视频生成可能是世界模型?争议在哪? 能预测下一帧 ⇒ 隐含学到物理与因果,可当智能体的「想象环境」。争议:像素生成可能只是外观统计而非因果理解(穿模等失败证明理解不完备);V-JEPA 派主张在抽象表示空间做预测。两派共识:视频数据是远未挖尽的世界知识来源。

基于 MIT 许可发布