视频生成(Sora 与世界模型)
Sora、Veo、可灵把文生视频推到风口。视频生成在图像生成(扩散模型)基础上多了「时间维度」,是多模态生成的前沿,也越来越多出现在面试的开放讨论环节——尤其是「视频生成与世界模型的关系」。
一、视频生成难在哪?
视频 = 图像 × 时间。相比文生图要额外解决:
- 时序一致性:相邻帧连贯,物体不能闪烁、变形、忽大忽小;
- 运动与物理合理性:重力、碰撞、流体、遮挡关系要对——这是当前最难也最容易翻车的部分;
- 长时程:几秒到分钟级全程保持主体与场景一致;
- 算力爆炸:数据量 = 帧数 × 分辨率,训练和推理都比图像贵一个量级以上。
二、主流技术路线
路线一:扩散 + 时空建模(当前主流)
把扩散模型从空间扩展到时空:在帧序列上去噪,用时间维注意力/卷积建模帧间关系。
- 早期:在图像 U-Net 里插时间注意力层让帧间交互(如 Stable Video Diffusion);
- 现在:DiT(Diffusion Transformer)+ 时空 patch 成为标准答案。
Sora 的核心:时空 patch(Spacetime Patches)——把视频在潜空间切成跨越空间和时间的小块作为 token,喂给 DiT 做扩散去噪:
- 统一处理任意分辨率、时长、宽高比(不用裁成固定尺寸训练);
- token 化后像 LLM 一样可规模化——「视频生成的 scaling law」是 Sora 技术报告的核心主张。
先压缩再生成:与 Latent Diffusion 同理,先用视频 VAE 在空间 + 时间两个维度压缩到低维潜空间,扩散在潜空间进行,最后解码回像素——不压缩根本算不动。
路线二:自回归生成
把视频 token 化后像语言一样逐 token 自回归生成(如 VideoPoet 及部分「世界模型」路线)。优点:天然支持任意长度续生成、与 LLM 架构统一;缺点:误差随长度累积、生成慢。当前质量上限仍以扩散为主,但自回归 + 扩散混合(自回归出关键帧/低清骨架,扩散精修)是活跃方向。
三、控制与一致性技术
- 文本控制:文本编码器 + 交叉注意力(同文生图);训练数据的**视频重描述(re-captioning)**质量直接决定指令跟随能力(Sora 用了 DALL·E 3 式的密集描述策略)。
- 图生视频(I2V):首帧/参考图驱动,比纯文生更可控,商业产品主力形态。
- 运动与相机控制:轨迹/镜头语言条件注入。
- 长视频一致性:关键帧锚定 + 插值、更长时序窗口、主体参考(角色一致性)。
四、代表产品格局
| 阵营 | 代表 | 备注 |
|---|---|---|
| 闭源旗舰 | Sora(OpenAI)、Veo(Google) | 质量标杆,物理一致性最强梯队 |
| 国产 | 可灵(快手)、即梦/Seedance(字节)、Vidu | 商业化激进,与闭源差距快速收窄 |
| 创意工具 | Runway、Pika、Luma | 面向创作者工作流 |
| 开源 | Wan(阿里)、HunyuanVideo(腾讯)、Mochi | 开源权重,研究与私有化基础 |
五、评估怎么做?
- 基准:VBench 等多维度基准(主体一致性、运动平滑度、美学、文本对齐分项打分);
- 物理一致性:专项测试(物体恒存、碰撞、流体)——当前所有模型都会犯错的区域;
- 人评仍是金标准:视频质量的「恐怖谷」效应自动指标抓不住。
- 与 LLM 评测一样要警惕「演示精选 vs 随机样本」的差距(cherry-picking)。
六、与世界模型的关系(开放题高频)
视频生成被认为可能通向世界模型(World Model):如果模型能准确预测「下一帧会发生什么」,它就隐含学到了物理规律与世界动态。
- 乐观派(Sora 立场):规模化视频生成 = 通往世界模拟器,生成质量提升伴随物理理解涌现;
- 质疑派(LeCun 等):像素级生成是在「记忆外观」而非「理解因果」,主张 V-JEPA 式在表示空间预测(不生成像素)才是世界模型正道;
- 交互式世界模型:Genie 等可交互生成环境(输入动作 → 生成下一帧),把视频生成与强化学习环境连接,被视为具身智能的训练场。
面试答法:先给两派观点,再落到证据——当前视频模型仍会穿模、物体凭空消失,说明「生成逼真」≠「理解物理」,但作为数据引擎和模拟环境的价值已经成立。
高频追问
Q:视频生成和图像生成的主要区别? 多了时间维度:要解决时序一致性、运动物理合理性、长时程一致与算力爆炸。技术上是把扩散从空间扩展到时空(时间注意力 → DiT + 时空 patch),并在时空两维都做潜空间压缩。
Q:Sora 的核心技术思想? ①视频 VAE 压到潜空间;②切成时空 patch 作为统一 token(任意分辨率/时长/宽高比通吃);③ DiT 扩散去噪;④高质量密集重描述数据。核心主张是把 LLM 的「token + Transformer + scaling」配方复制到视频。
Q:为什么要先压缩到潜空间? 像素空间的视频数据量 = 帧数 × 分辨率 × 3 通道,直接扩散算力不可承受。视频 VAE 在空间(如 8×)和时间(如 4×)同时压缩,潜空间扩散后再解码,与 Stable Diffusion 的 Latent Diffusion 同理但多了时间维。
Q:扩散和自回归两条路线怎么比较? 扩散:并行去噪、质量上限高、但固定时长且迭代步数多;自回归:任意长度续生成、与 LLM 统一、但误差累积且逐 token 慢。趋势是混合:自回归管「时间外推」,扩散管「单段精修」。
Q:怎么保证帧间一致性? 架构上:时空联合注意力让模型「看到」前后帧;生成策略上:关键帧锚定 + 插值、参考图/主体绑定、重叠窗口滑动生成。根本上仍受限于模型对物体恒存性的理解。
Q:为什么说视频生成可能是世界模型?争议在哪? 能预测下一帧 ⇒ 隐含学到物理与因果,可当智能体的「想象环境」。争议:像素生成可能只是外观统计而非因果理解(穿模等失败证明理解不完备);V-JEPA 派主张在抽象表示空间做预测。两派共识:视频数据是远未挖尽的世界知识来源。