视频生成（Sora 与世界模型）

Sora、Veo、可灵把文生视频推到风口。视频生成在图像生成（扩散模型）基础上多了「时间维度」，是多模态生成的前沿，也越来越多出现在面试的开放讨论环节——尤其是「视频生成与世界模型的关系」。

一、视频生成难在哪？

视频 = 图像 × 时间。相比文生图要额外解决：

时序一致性：相邻帧连贯，物体不能闪烁、变形、忽大忽小；
运动与物理合理性：重力、碰撞、流体、遮挡关系要对——这是当前最难也最容易翻车的部分；
长时程：几秒到分钟级全程保持主体与场景一致；
算力爆炸：数据量 = 帧数 × 分辨率，训练和推理都比图像贵一个量级以上。

二、主流技术路线

路线一：扩散 + 时空建模（当前主流）

把扩散模型从空间扩展到时空：在帧序列上去噪，用时间维注意力/卷积建模帧间关系。

早期：在图像 U-Net 里插时间注意力层让帧间交互（如 Stable Video Diffusion）；
现在：DiT（Diffusion Transformer）+ 时空 patch 成为标准答案。

Sora 的核心：时空 patch（Spacetime Patches）——把视频在潜空间切成跨越空间和时间的小块作为 token，喂给 DiT 做扩散去噪：

统一处理任意分辨率、时长、宽高比（不用裁成固定尺寸训练）；
token 化后像 LLM 一样可规模化——「视频生成的 scaling law」是 Sora 技术报告的核心主张。

先压缩再生成：与 Latent Diffusion 同理，先用视频 VAE 在空间 + 时间两个维度压缩到低维潜空间，扩散在潜空间进行，最后解码回像素——不压缩根本算不动。

路线二：自回归生成

把视频 token 化后像语言一样逐 token 自回归生成（如 VideoPoet 及部分「世界模型」路线）。优点：天然支持任意长度续生成、与 LLM 架构统一；缺点：误差随长度累积、生成慢。当前质量上限仍以扩散为主，但自回归 + 扩散混合（自回归出关键帧/低清骨架，扩散精修）是活跃方向。

三、控制与一致性技术

文本控制：文本编码器 + 交叉注意力（同文生图）；训练数据的**视频重描述（re-captioning）**质量直接决定指令跟随能力（Sora 用了 DALL·E 3 式的密集描述策略）。
图生视频（I2V）：首帧/参考图驱动，比纯文生更可控，商业产品主力形态。
运动与相机控制：轨迹/镜头语言条件注入。
长视频一致性：关键帧锚定 + 插值、更长时序窗口、主体参考（角色一致性）。

四、代表产品格局

阵营	代表	备注
闭源旗舰	Sora（OpenAI）、Veo 2/3（Google）	质量标杆，物理一致性最强梯队。Veo 2 支持 4K、电影级运镜
国产	可灵 2.0（快手）、即梦/Seedance（字节）、Vidu（生数）	商业化激进，可灵 2.0 在运动一致性上接近 Sora
创意工具	Runway Gen-3、Pika 2.0、Luma	面向创作者工作流
开源	Wan 2.1（阿里）、HunyuanVideo（腾讯）、Mochi、CogVideoX	开源权重，研究与私有化基础。HunyuanVideo 是目前最强开源之一

2025 趋势：闭源与开源的差距在缩小。开源模型（HunyuanVideo、Wan）已能生成 5~10 秒高质量视频。商业产品的发力点从"能生成"转向"可控生成"（精确运动控制、角色一致性、音视频同步）。

五、评估怎么做？

基准：VBench 等多维度基准（主体一致性、运动平滑度、美学、文本对齐分项打分）；
物理一致性：专项测试（物体恒存、碰撞、流体）——当前所有模型都会犯错的区域；
人评仍是金标准：视频质量的「恐怖谷」效应自动指标抓不住。
与 LLM 评测一样要警惕「演示精选 vs 随机样本」的差距（cherry-picking）。

六、与世界模型的关系（开放题高频）

视频生成被认为可能通向世界模型（World Model）：如果模型能准确预测「下一帧会发生什么」，它就隐含学到了物理规律与世界动态。

乐观派（Sora 立场）：规模化视频生成 = 通往世界模拟器，生成质量提升伴随物理理解涌现；
质疑派（LeCun 等）：像素级生成是在「记忆外观」而非「理解因果」，主张 V-JEPA 式在表示空间预测（不生成像素）才是世界模型正道；
交互式世界模型：Genie 等可交互生成环境（输入动作 → 生成下一帧），把视频生成与强化学习环境连接，被视为具身智能的训练场。

面试答法：先给两派观点，再落到证据——当前视频模型仍会穿模、物体凭空消失，说明「生成逼真」≠「理解物理」，但作为数据引擎和模拟环境的价值已经成立。

高频追问

Q：视频生成和图像生成的主要区别？ 多了时间维度：要解决时序一致性、运动物理合理性、长时程一致与算力爆炸。技术上是把扩散从空间扩展到时空（时间注意力 → DiT + 时空 patch），并在时空两维都做潜空间压缩。

Q：Sora 的核心技术思想？ ①视频 VAE 压到潜空间；②切成时空 patch 作为统一 token（任意分辨率/时长/宽高比通吃）；③ DiT 扩散去噪；④高质量密集重描述数据。核心主张是把 LLM 的「token + Transformer + scaling」配方复制到视频。

Q：为什么要先压缩到潜空间？ 像素空间的视频数据量 = 帧数 × 分辨率 × 3 通道，直接扩散算力不可承受。视频 VAE 在空间（如 8×）和时间（如 4×）同时压缩，潜空间扩散后再解码，与 Stable Diffusion 的 Latent Diffusion 同理但多了时间维。

Q：扩散和自回归两条路线怎么比较？ 扩散：并行去噪、质量上限高、但固定时长且迭代步数多；自回归：任意长度续生成、与 LLM 统一、但误差累积且逐 token 慢。趋势是混合：自回归管「时间外推」，扩散管「单段精修」。

Q：怎么保证帧间一致性？ 架构上：时空联合注意力让模型「看到」前后帧；生成策略上：关键帧锚定 + 插值、参考图/主体绑定、重叠窗口滑动生成。根本上仍受限于模型对物体恒存性的理解。

Q：为什么说视频生成可能是世界模型？争议在哪？ 能预测下一帧 ⇒ 隐含学到物理与因果，可当智能体的「想象环境」。争议：像素生成可能只是外观统计而非因果理解（穿模等失败证明理解不完备）；V-JEPA 派主张在抽象表示空间做预测。两派共识：视频数据是远未挖尽的世界知识来源。

视频生成（Sora 与世界模型） ​

一、视频生成难在哪？ ​

二、主流技术路线 ​

路线一：扩散 + 时空建模（当前主流） ​

路线二：自回归生成 ​

三、控制与一致性技术 ​

四、代表产品格局 ​

五、评估怎么做？ ​

六、与世界模型的关系（开放题高频） ​

高频追问 ​