MoE 混合专家模型

MoE（Mixture of Experts）是当前大模型「以稀疏激活换取大容量」的主流路线，Mixtral、DeepSeek-V3、Qwen-MoE、GPT-4（传闻）都采用了它。也是近两年面试的高频新考点。

MoE 层结构：路由器选 Top-K 专家，稀疏激活

什么是 MoE？

MoE 的核心思想是：用很多个「专家」（Expert）替换 Transformer 里的 FFN（前馈网络），但每个 token 只激活其中少数几个专家。

这样就实现了「大容量、低单次计算成本」：模型容量大，但每次推理/训练只算一小部分。Dense（稠密）模型做不到这一点——Dense 模型每个 token 都要过全部参数。

一个 MoE 层由两部分组成：

$$y = \sum_{i \in \text{TopK}} g_i \cdot E_i(x)，\quad g = \text{softmax}(\text{TopK}(W_g \cdot x))$$

以 Mixtral 8x7B 为例：总参数约 47B，但每个 token 只激活约 13B（2 个专家）。所以它的推理计算量接近 13B 模型，效果却接近 47B 模型。

注意「8x7B」≠ 56B：只有 FFN 被复制成 8 份，Attention 等是共享的，所以总参数是 47B 而非 56B。

如果不加约束，路由器会倾向于总把 token 送给少数几个「受欢迎」的专家，导致：

常见解法：

Q：MoE 和 Dense 模型，推理时谁更省显存？ Dense 更省显存。MoE 虽然单次只激活少数专家，但所有专家的参数都必须加载进显存，所以 MoE 是「省计算、费显存」。这也是 MoE 部署成本不低的原因。

Q：MoE 为什么训练不稳定？ 路由是离散的 Top-K 选择（不可导），且容易负载不均、专家坍缩，需要辅助损失、容量限制、合适的初始化和较小学习率来稳定。

Q：每个 token 激活几个专家？为什么不全激活？ 通常 Top-1 或 Top-2。全激活就退化成 Dense，失去了稀疏带来的计算优势；只激活少数专家才能在固定算力下放大模型容量。

Q：MoE 的「专家」学到的是不同领域知识吗？ 不完全是。专家更多是按 token 级别的统计模式分工（如某些专家偏标点、偏数字、偏特定语法），并不能简单解释为「数学专家」「法律专家」，可解释性较弱。

Q：共享专家（Shared Expert）有什么用？ DeepSeekMoE 让部分专家对所有 token 都激活，用于学习通用基础知识，避免每个路由专家都重复学习公共能力，从而让路由专家更专注于专业化分工。