DeepSeek 专题（MLA / GRPO / R1）

DeepSeek 系列以「高性价比 + 强推理」成为 2024–2025 最热门的面试话题，V3 技术报告几乎是大厂面试官的题库。本文系统拆解它的全部关键创新：MLA、DeepSeekMoE、FP8 训练、MTP、GRPO 与 R1 训练流程——每一项都是当下面试的必问点。

为什么 DeepSeek 值得单独讲？

DeepSeek 在训练成本和推理性能上都做出了有影响力的工程创新，且开源 + 公开技术报告，让业界第一次清楚看到「如何用更低成本训出第一梯队模型」。

时间	模型	关键创新
2024.01	DeepSeekMoE	细粒度专家 + 共享专家
2024.05	DeepSeek-V2	MLA 首次落地，KV Cache 大幅压缩
2024.12	DeepSeek-V3	671B MoE、FP8 训练、MTP、无辅助损失负载均衡
2025.01	DeepSeek-R1	GRPO + 可验证奖励训出推理模型，R1-Zero 证明纯 RL 可行

面试常考三大主线：MLA（推理省显存）、DeepSeekMoE + V3 工程（训练省成本）、GRPO/R1（推理能力怎么来）。

MLA：多头潜在注意力

问题：标准 MHA 的 KV Cache 随序列长度和头数线性增长，是长上下文推理的显存瓶颈。GQA/MQA 通过共享 KV 头来省，但会损失质量。

MLA（Multi-head Latent Attention）的思路：不直接缓存每个头的 K、V，而是把它们联合压缩成一个低维潜在向量缓存，用时再投影还原：

$$c_t^{KV} = W^{DKV} h_t \qquad k_t = W^{UK} c_t^{KV}, \quad v_t = W^{UV} c_t^{KV}$$

缓存的只有低维的 $c^{KV}$（V2 中压缩维度 512，远小于全量 KV 的 n_heads × d_head × 2），KV Cache 比 GQA 还小一个量级。
矩阵吸收：推理时 $W^{UK}$ 可以吸收进 Q 的投影、$W^{UV}$ 吸收进输出投影，避免每步真的把 K/V 还原出来——这是 MLA 工程上可行的关键。
RoPE 解耦：RoPE 是位置相关的旋转，直接作用在还原后的 K 上会破坏矩阵吸收（旋转矩阵卡在中间无法合并）。解法是把 K 拆成两部分——主体走低秩压缩、另外配一个小维度的解耦 RoPE 分支（每 token 额外缓存一个 64 维共享 key）专门承载位置信息。

一句话：GQA 靠「共享 KV 头」省显存（有损），MLA 靠「低秩压缩 KV + 矩阵吸收」省显存（近乎无损）。实验上 MLA 质量反而略优于 MHA，省与好兼得。对比见 Attention 与变体。

DeepSeekMoE：细粒度 + 共享专家

DeepSeek 的 MoE 设计有三个特点（基础概念见 MoE 混合专家）：

细粒度专家：把专家切得更细、数量更多（V3 每层 256 个路由专家，每 token 激活 top-8），每个专家更专业化，组合方式指数级增加。
共享专家（Shared Expert）：每层 1 个专家对所有 token 恒定激活，负责通用知识，让路由专家专注专业分工，减少专家间的知识冗余。
无辅助损失的负载均衡：传统 MoE 用辅助损失强迫负载均衡，会损害主任务效果。V3 给每个专家的路由打分加一个可学习的偏置项——过载的专家偏置自动下调、空闲的上调，只影响路由选择、不进梯度，几乎零代价实现均衡。

DeepSeek-V3 总参数 671B，每个 token 仅激活约 37B，是「大容量、低单次成本」的典型。另配合节点受限路由（每个 token 最多发往 4 个节点）控制跨机通信。

V3 的训练工程创新

FP8 混合精度训练：V3 是首个大规模用 FP8 训练成功的开源模型。关键不是「直接换 FP8」而是细粒度量化——激活按 1×128 tile、权重按 128×128 block 分组缩放，避免少数离群值毁掉整组精度；累加仍用更高精度，关键模块（embedding、归一化、优化器状态）保持高精度。相比 BF16 省显存又提速。

MTP（Multi-Token Prediction）：训练时附加一个轻量模块，让模型在预测下一个 token 之外再预测后续 token，提供更密集的训练信号、提升数据效率；推理时该模块可以直接当投机解码的草稿头用，约 1.8 倍解码加速。

DualPipe 流水线并行：双向流水线调度，把前向/反向计算与跨节点通信重叠，把 MoE 全对全通信（all-to-all）的开销藏进计算里——V3 用约 558 万 GPU 小时（约 $5.6M 租用成本口径）训完，远低于同级闭源模型，靠的就是这类工程叠加（详见分布式训练）。

GRPO 与 R1：用强化学习激发推理

GRPO（Group Relative Policy Optimization）

传统 RLHF 用 PPO，需要一个与策略模型同等大小的 Critic（价值模型） 来估计优势，显存和成本翻倍。

GRPO 去掉了 Critic：对同一个问题采样一组（G 个）回答，用组内相对得分代替价值函数估计优势：

$$A_i = \frac{r_i - \text{mean}({r_1,...,r_G})}{\text{std}({r_1,...,r_G})}$$

省掉价值模型 → 显存/算力大幅下降，强化学习训练更便宜、更稳。
特别适合有明确可验证奖励的任务（数学答案对错、代码能否通过测试），即 RLVR 范式。
策略梯度、PPO 与 GRPO 的完整推导脉络见强化学习基础。

R1-Zero：纯 RL 的概念验证

完全不做 SFT，直接在 V3 基座上用 GRPO + 规则奖励（答案正确性 + 输出格式）做强化学习。模型自发涌现出长链推理、自我反思、回溯验证（「aha moment」），且推理长度随训练自然增长——证明了不靠人类示范、纯 RL 也能激发推理能力。代价是输出可读性差、中英文混杂。

R1 正式版：四阶段训练流水线

阶段一  冷启动 SFT     ——  数千条高质量长 CoT 数据，解决可读性
阶段二  推理 RL        ——  GRPO + 规则奖励（正确性/格式/语言一致性）
阶段三  拒绝采样 + SFT ——  用阶段二模型生成数据筛选出 ~60万推理样本，
                          混合 ~20万通用样本，重训
阶段四  全场景 RL      ——  推理任务用规则奖励 + 通用任务用奖励模型，
                          兼顾能力与安全/有用性

这个「SFT 与 RL 交替、数据自举」的流水线已成为推理模型训练的参考模板（见推理模型与慢思考）。

蒸馏：让小模型继承推理能力

用 R1 生成的 80 万条数据直接 SFT 较小的稠密模型（Qwen/LLaMA 系列），蒸馏出的小模型效果超过同尺寸直接做 RL——大模型探索出的推理模式，小模型自己很难从零摸到，但「抄作业」很高效。这条结论直接带火了开源推理数据集与蒸馏小模型生态。

面试速答卡

考点	一句话答案
MLA	低秩压缩 KV 成潜在向量缓存，矩阵吸收免还原，RoPE 走解耦分支
DeepSeekMoE	细粒度专家 + 共享专家 + 偏置项负载均衡（无辅助损失）
FP8 训练	细粒度分组量化 + 高精度累加，省显存提速不崩
MTP	多 token 预测加密训练信号，推理兼当投机解码草稿
GRPO	组内相对优势替代 Critic，专为可验证奖励设计
R1-Zero	纯 RL（无 SFT）涌现反思回溯，证明 RL 能激发推理
R1	冷启动 SFT → 推理 RL → 拒绝采样 SFT → 全场景 RL

高频追问

Q：MLA 和 GQA 都是省 KV Cache，本质区别？ GQA 是让多个 Q 头共享同一组 KV 头（减少头数），是有损近似；MLA 是把 KV 低秩压缩成潜在向量缓存、用时再还原（实际通过矩阵吸收免还原），信息损失更小。MLA 省得更多且质量更好，代价是实现复杂、需要专门的算子支持。

Q：MLA 为什么要把 RoPE 解耦出来单独处理？ 矩阵吸收要求 $q^\top k$ 里的投影矩阵能预先合并；RoPE 是依赖位置的旋转矩阵，夹在两个投影之间就无法合并了。所以位置信息单独走一个小维度的 RoPE 分支拼接进 Q/K，主体维度保持「无位置、可吸收」。

Q：GRPO 相比 PPO 的最大优势？ 去掉了价值模型（Critic），用组内相对奖励估计优势，显存和计算成本大降，训练更简单稳定。代价是依赖「能采样一组回答并可靠打分」，最适合可验证奖励的推理任务；通用对话上 PPO/RM 路线仍有优势。

Q：R1-Zero 说明了什么？ 不经过 SFT、纯靠强化学习（可验证奖励），大模型也能自发学会长链推理和自我反思。这挑战了「必须先 SFT」的认知，凸显 RL 对推理能力的激发作用。但纯 RL 输出可读性差，所以正式 R1 用冷启动 SFT + 四阶段流水线兼顾可用性。

Q：为什么蒸馏的小模型能超过直接 RL 的小模型？ RL 本质是在模型已有能力空间里搜索并强化好的行为模式；小模型容量有限，自己探索很难命中复杂推理模式。蒸馏直接把大模型探索好的轨迹「教」给它，跳过了昂贵且低效的探索。

Q：V3 的负载均衡为什么不用辅助损失？ 辅助损失与主任务损失存在拉扯——为了均衡会牺牲路由的「择优」，损害模型质量。偏置项方案只调整 top-k 选择时的打分、不参与梯度，让均衡控制与质量优化解耦，是「免费的午餐」式设计。

Q：DeepSeek 为什么便宜？ 算法与工程协同：MLA 降推理显存、MoE 稀疏激活降单次计算、FP8 降训练成本、MTP 提数据效率、DualPipe 藏通信开销、GRPO 降 RL 成本。单项都不是魔法，叠加起来把成本打到同行零头。

DeepSeek 专题（MLA / GRPO / R1） ​

为什么 DeepSeek 值得单独讲？ ​

MLA：多头潜在注意力 ​

DeepSeekMoE：细粒度 + 共享专家 ​

V3 的训练工程创新 ​

GRPO 与 R1：用强化学习激发推理 ​

GRPO（Group Relative Policy Optimization） ​

R1-Zero：纯 RL 的概念验证 ​

R1 正式版：四阶段训练流水线 ​

蒸馏：让小模型继承推理能力 ​

面试速答卡 ​

高频追问 ​