DeepSeek 专题(MLA / GRPO / R1)
DeepSeek 系列以「高性价比 + 强推理」成为 2024–2025 最热门的面试话题,V3 技术报告几乎是大厂面试官的题库。本文系统拆解它的全部关键创新:MLA、DeepSeekMoE、FP8 训练、MTP、GRPO 与 R1 训练流程——每一项都是当下面试的必问点。
为什么 DeepSeek 值得单独讲?
DeepSeek 在训练成本和推理性能上都做出了有影响力的工程创新,且开源 + 公开技术报告,让业界第一次清楚看到「如何用更低成本训出第一梯队模型」。
| 时间 | 模型 | 关键创新 |
|---|---|---|
| 2024.01 | DeepSeekMoE | 细粒度专家 + 共享专家 |
| 2024.05 | DeepSeek-V2 | MLA 首次落地,KV Cache 大幅压缩 |
| 2024.12 | DeepSeek-V3 | 671B MoE、FP8 训练、MTP、无辅助损失负载均衡 |
| 2025.01 | DeepSeek-R1 | GRPO + 可验证奖励训出推理模型,R1-Zero 证明纯 RL 可行 |
面试常考三大主线:MLA(推理省显存)、DeepSeekMoE + V3 工程(训练省成本)、GRPO/R1(推理能力怎么来)。
MLA:多头潜在注意力
问题:标准 MHA 的 KV Cache 随序列长度和头数线性增长,是长上下文推理的显存瓶颈。GQA/MQA 通过共享 KV 头来省,但会损失质量。
MLA(Multi-head Latent Attention)的思路:不直接缓存每个头的 K、V,而是把它们联合压缩成一个低维潜在向量缓存,用时再投影还原:
$$c_t^{KV} = W^{DKV} h_t \qquad k_t = W^{UK} c_t^{KV}, \quad v_t = W^{UV} c_t^{KV}$$
- 缓存的只有低维的 $c^{KV}$(V2 中压缩维度 512,远小于全量 KV 的
n_heads × d_head × 2),KV Cache 比 GQA 还小一个量级。 - 矩阵吸收:推理时 $W^{UK}$ 可以吸收进 Q 的投影、$W^{UV}$ 吸收进输出投影,避免每步真的把 K/V 还原出来——这是 MLA 工程上可行的关键。
- RoPE 解耦:RoPE 是位置相关的旋转,直接作用在还原后的 K 上会破坏矩阵吸收(旋转矩阵卡在中间无法合并)。解法是把 K 拆成两部分——主体走低秩压缩、另外配一个小维度的解耦 RoPE 分支(每 token 额外缓存一个 64 维共享 key)专门承载位置信息。
一句话:GQA 靠「共享 KV 头」省显存(有损),MLA 靠「低秩压缩 KV + 矩阵吸收」省显存(近乎无损)。实验上 MLA 质量反而略优于 MHA,省与好兼得。对比见 Attention 与变体。
DeepSeekMoE:细粒度 + 共享专家
DeepSeek 的 MoE 设计有三个特点(基础概念见 MoE 混合专家):
- 细粒度专家:把专家切得更细、数量更多(V3 每层 256 个路由专家,每 token 激活 top-8),每个专家更专业化,组合方式指数级增加。
- 共享专家(Shared Expert):每层 1 个专家对所有 token 恒定激活,负责通用知识,让路由专家专注专业分工,减少专家间的知识冗余。
- 无辅助损失的负载均衡:传统 MoE 用辅助损失强迫负载均衡,会损害主任务效果。V3 给每个专家的路由打分加一个可学习的偏置项——过载的专家偏置自动下调、空闲的上调,只影响路由选择、不进梯度,几乎零代价实现均衡。
DeepSeek-V3 总参数 671B,每个 token 仅激活约 37B,是「大容量、低单次成本」的典型。另配合节点受限路由(每个 token 最多发往 4 个节点)控制跨机通信。
V3 的训练工程创新
FP8 混合精度训练:V3 是首个大规模用 FP8 训练成功的开源模型。关键不是「直接换 FP8」而是细粒度量化——激活按 1×128 tile、权重按 128×128 block 分组缩放,避免少数离群值毁掉整组精度;累加仍用更高精度,关键模块(embedding、归一化、优化器状态)保持高精度。相比 BF16 省显存又提速。
MTP(Multi-Token Prediction):训练时附加一个轻量模块,让模型在预测下一个 token 之外再预测后续 token,提供更密集的训练信号、提升数据效率;推理时该模块可以直接当投机解码的草稿头用,约 1.8 倍解码加速。
DualPipe 流水线并行:双向流水线调度,把前向/反向计算与跨节点通信重叠,把 MoE 全对全通信(all-to-all)的开销藏进计算里——V3 用约 558 万 GPU 小时(约 $5.6M 租用成本口径)训完,远低于同级闭源模型,靠的就是这类工程叠加(详见 分布式训练)。
GRPO 与 R1:用强化学习激发推理
GRPO(Group Relative Policy Optimization)
传统 RLHF 用 PPO,需要一个与策略模型同等大小的 Critic(价值模型) 来估计优势,显存和成本翻倍。
GRPO 去掉了 Critic:对同一个问题采样一组(G 个)回答,用组内相对得分代替价值函数估计优势:
$$A_i = \frac{r_i - \text{mean}({r_1,...,r_G})}{\text{std}({r_1,...,r_G})}$$
- 省掉价值模型 → 显存/算力大幅下降,强化学习训练更便宜、更稳。
- 特别适合有明确可验证奖励的任务(数学答案对错、代码能否通过测试),即 RLVR 范式。
- 策略梯度、PPO 与 GRPO 的完整推导脉络见 强化学习基础。
R1-Zero:纯 RL 的概念验证
完全不做 SFT,直接在 V3 基座上用 GRPO + 规则奖励(答案正确性 + 输出格式)做强化学习。模型自发涌现出长链推理、自我反思、回溯验证(「aha moment」),且推理长度随训练自然增长——证明了不靠人类示范、纯 RL 也能激发推理能力。代价是输出可读性差、中英文混杂。
R1 正式版:四阶段训练流水线
阶段一 冷启动 SFT —— 数千条高质量长 CoT 数据,解决可读性
阶段二 推理 RL —— GRPO + 规则奖励(正确性/格式/语言一致性)
阶段三 拒绝采样 + SFT —— 用阶段二模型生成数据筛选出 ~60万推理样本,
混合 ~20万通用样本,重训
阶段四 全场景 RL —— 推理任务用规则奖励 + 通用任务用奖励模型,
兼顾能力与安全/有用性这个「SFT 与 RL 交替、数据自举」的流水线已成为推理模型训练的参考模板(见 推理模型与慢思考)。
蒸馏:让小模型继承推理能力
用 R1 生成的 80 万条数据直接 SFT 较小的稠密模型(Qwen/LLaMA 系列),蒸馏出的小模型效果超过同尺寸直接做 RL——大模型探索出的推理模式,小模型自己很难从零摸到,但「抄作业」很高效。这条结论直接带火了开源推理数据集与蒸馏小模型生态。
面试速答卡
| 考点 | 一句话答案 |
|---|---|
| MLA | 低秩压缩 KV 成潜在向量缓存,矩阵吸收免还原,RoPE 走解耦分支 |
| DeepSeekMoE | 细粒度专家 + 共享专家 + 偏置项负载均衡(无辅助损失) |
| FP8 训练 | 细粒度分组量化 + 高精度累加,省显存提速不崩 |
| MTP | 多 token 预测加密训练信号,推理兼当投机解码草稿 |
| GRPO | 组内相对优势替代 Critic,专为可验证奖励设计 |
| R1-Zero | 纯 RL(无 SFT)涌现反思回溯,证明 RL 能激发推理 |
| R1 | 冷启动 SFT → 推理 RL → 拒绝采样 SFT → 全场景 RL |
高频追问
Q:MLA 和 GQA 都是省 KV Cache,本质区别? GQA 是让多个 Q 头共享同一组 KV 头(减少头数),是有损近似;MLA 是把 KV 低秩压缩成潜在向量缓存、用时再还原(实际通过矩阵吸收免还原),信息损失更小。MLA 省得更多且质量更好,代价是实现复杂、需要专门的算子支持。
Q:MLA 为什么要把 RoPE 解耦出来单独处理? 矩阵吸收要求 $q^\top k$ 里的投影矩阵能预先合并;RoPE 是依赖位置的旋转矩阵,夹在两个投影之间就无法合并了。所以位置信息单独走一个小维度的 RoPE 分支拼接进 Q/K,主体维度保持「无位置、可吸收」。
Q:GRPO 相比 PPO 的最大优势? 去掉了价值模型(Critic),用组内相对奖励估计优势,显存和计算成本大降,训练更简单稳定。代价是依赖「能采样一组回答并可靠打分」,最适合可验证奖励的推理任务;通用对话上 PPO/RM 路线仍有优势。
Q:R1-Zero 说明了什么? 不经过 SFT、纯靠强化学习(可验证奖励),大模型也能自发学会长链推理和自我反思。这挑战了「必须先 SFT」的认知,凸显 RL 对推理能力的激发作用。但纯 RL 输出可读性差,所以正式 R1 用冷启动 SFT + 四阶段流水线兼顾可用性。
Q:为什么蒸馏的小模型能超过直接 RL 的小模型? RL 本质是在模型已有能力空间里搜索并强化好的行为模式;小模型容量有限,自己探索很难命中复杂推理模式。蒸馏直接把大模型探索好的轨迹「教」给它,跳过了昂贵且低效的探索。
Q:V3 的负载均衡为什么不用辅助损失? 辅助损失与主任务损失存在拉扯——为了均衡会牺牲路由的「择优」,损害模型质量。偏置项方案只调整 top-k 选择时的打分、不参与梯度,让均衡控制与质量优化解耦,是「免费的午餐」式设计。
Q:DeepSeek 为什么便宜? 算法与工程协同:MLA 降推理显存、MoE 稀疏激活降单次计算、FP8 降训练成本、MTP 提数据效率、DualPipe 藏通信开销、GRPO 降 RL 成本。单项都不是魔法,叠加起来把成本打到同行零头。