经典模型盘点与架构谱系
「盘点一下你了解的大模型」看似开放题,实际考的是架构谱系认知:三条技术路线怎么分化、为什么 Decoder-only 赢了、每个代表模型解决了什么问题。按时间背模型名字是低分答案,按「路线 → 动机 → 取舍」组织才是高分答案。
三条架构路线的分化
2017 年 Transformer 诞生后,预训练模型沿三条路线分化:
Transformer (2017)
│
┌───────────────────┼───────────────────┐
▼ ▼ ▼
Encoder-only Decoder-only Encoder-Decoder
(双向理解) (自回归生成) (序列到序列)
│ │ │
BERT / RoBERTa GPT 系列 / LLaMA T5 / BART
Embedding 模型 Qwen / DeepSeek 早期翻译/摘要
Rerank 模型 几乎所有现代 LLM Whisper(语音)| 路线 | 注意力 | 预训练目标 | 擅长 | 现状 |
|---|---|---|---|---|
| Encoder-only | 双向 | MLM 完形填空 | 理解、判别、向量表示 | 退出生成赛道,统治 Embedding/Rerank |
| Decoder-only | 单向因果 | CLM 预测下一词 | 生成、对话、推理 | 绝对主流 |
| Encoder-Decoder | 编码双向+解码单向 | Span 还原等 | 翻译、摘要等输入输出分明的任务 | 小众(多模态编码器中仍有身影) |
为什么 Decoder-only 赢了? 训练目标最简单统一(每个 token 都是监督信号、数据利用率高)、生成式接口能统一一切任务、自回归天然适配 KV Cache 增量推理、规模化经验最成熟、in-context learning 能力随规模涌现。
BERT:理解路线的巅峰与转身
- 架构:Encoder-only,双向注意力;训练目标:MLM(随机 mask 15% token 做完形填空)+ NSP(后被证明作用不大,RoBERTa 移除)。
- 历史地位:确立「预训练 + 微调」范式,横扫 2018-2020 的理解类榜单。
- 为什么式微:双向结构不能自回归生成;每个下游任务都要单独微调,而 GPT-3 证明「一个模型 + 提示」可以通吃。
- 但没有消失:今天的 Embedding 模型(BGE、GTE、E5)和 Rerank 模型几乎全是 BERT 系——理解和表示任务上双向注意力依然占优。RAG 系统里你每天都在用 BERT 的后代,见 Embedding 与向量数据库。
GPT 系列:一条路线的完整进化史
| 模型 | 年份 | 关键跨越 |
|---|---|---|
| GPT-1 | 2018 | 验证「生成式预训练 + 判别微调」可行 |
| GPT-2 (1.5B) | 2019 | 证明纯预训练模型能 zero-shot 做多任务,「语言模型即多任务学习器」 |
| GPT-3 (175B) | 2020 | In-context learning:不更新参数、给几个示例就能学会新任务,开启提示工程时代 |
| Codex | 2021 | 代码预训练,证明代码数据的价值,催生 Copilot |
| InstructGPT | 2022 | RLHF 对齐:1.3B 对齐后的模型人类偏好胜过 175B 原始模型——「对齐比规模便宜」 |
| ChatGPT | 2022 | 对话产品化引爆全球 |
| GPT-4 | 2023 | 多模态输入、能力大跨越(业界普遍认为是 MoE 架构) |
| GPT-4o | 2024 | 端到端全模态(文本/语音/视觉统一建模),实时语音交互 |
| o1 / o3 | 2024-25 | 推理路线:RL + long CoT,用推理时计算换推理能力 |
面试金句:GPT 系列每一代回答一个问题——GPT-2「预训练能学到多任务能力吗」、GPT-3「规模能换来什么」(ICL)、InstructGPT「怎么让能力可用」(对齐)、o1「预训练撞墙后还能怎么涨」(test-time scaling)。
T5 与 Encoder-Decoder 路线
T5(2019)把所有 NLP 任务统一成「文本进、文本出」,用 span corruption(挖掉连续片段让解码器还原)预训练,是「任务统一化」思想的先驱——但统一接口这件事最终被 Decoder-only 用更简单的方式做到了。Encoder-Decoder 如今主要活在翻译、Whisper 语音识别以及部分多模态结构中。
开源主线:LLaMA、Qwen 与 Mistral
LLaMA 与 Qwen 是开源最重要的两条主线(标准配方、逐代演进、对比选型已独立成篇,见 LLaMA 与 Qwen 架构演进)。一句话版本:LLaMA 确立了「Pre-RMSNorm + SwiGLU + RoPE + GQA」的开源标准架构;Qwen 代表中文/多语言开源最高水平并率先走向「思考/非思考」混合模式。
Mistral / Mixtral(法国 Mistral AI):
- Mistral 7B(2023):滑动窗口注意力(SWA)+ GQA,以 7B 击败 LLaMA 2 13B,证明「小而精」路线。
- Mixtral 8x7B(2023.12):第一个有影响力的开源 MoE(8 专家选 2,总参 47B 激活 13B),把 MoE 从传闻(GPT-4)变成人人可验证的开源现实,直接推动了后来 DeepSeek、Qwen 的 MoE 路线。
DeepSeek:以 MLA + MoE + FP8 的极致工程降本和 R1 推理训练成为 2025 最大变量,独立成篇见 DeepSeek 专题。
国内模型生态速览
| 厂商/模型 | 特点 |
|---|---|
| Qwen(阿里) | 开源全家桶事实标杆:全尺寸 + 多模态 + Coder/Math,生态最完整 |
| DeepSeek | 极致性价比 + 开源旗舰推理模型,技术报告影响全行业 |
| GLM(智谱) | 早期走自回归填空混合目标路线,国内最早开源的玩家之一 |
| Kimi(月之暗面) | 以长上下文出圈,K 系列推理模型开源 |
| 豆包(字节) | 产品渗透率高,模型走闭源 API 路线 |
| MiniMax | MoE + 线性注意力混合架构探索(超长上下文) |
| Baichuan / Yi | 2023 开源潮代表,后转向行业/闭源 |
闭源三巨头一句话定位
- GPT(OpenAI):路线开创者,从规模 → 对齐 → 多模态 → 推理每一步都定义了行业议程。
- Claude(Anthropic):以对齐研究(Constitutional AI)起家,长上下文与代码/Agent 能力著称。
- Gemini(Google):原生多模态训练 + 超长上下文(百万级 token),与搜索/办公生态深度绑定。
架构演进趋势小结
| 维度 | 早期 | 现代主流 |
|---|---|---|
| 归一化 | Post-Norm + LayerNorm | Pre-Norm + RMSNorm(+ QK-Norm) |
| 激活函数 | ReLU / GELU | SwiGLU |
| 位置编码 | 绝对/正弦 | RoPE(+ NTK/YaRN 长上下文扩展) |
| 注意力 | MHA | GQA / MLA |
| 规模扩展 | Dense 堆参数 | MoE 稀疏激活 |
| 能力增长 | 预训练堆数据 | 后训练 RL + 推理时计算 |
「慢思考」推理模型(o 系列、R1、Qwen3 思考模式)是当前能力增长的主轴,详见 推理模型与慢思考。
面试怎么答「盘点模型」类问题
- 先给框架:三条架构路线 → Decoder-only 胜出原因(30 秒)。
- 再给主线:GPT 系列的四个里程碑(ICL、RLHF、多模态、推理)+ 开源双雄 LLaMA/Qwen + MoE 转折(Mixtral→DeepSeek)。
- 落到当下:推理模型与 test-time scaling 是现在进行时。
- 加分项:结合自己用过的模型谈取舍(如「业务上我们选 Qwen 因为中文 token 效率和 Apache 协议」)。
高频追问
Q:BERT 和 GPT 为什么走向不同的命运? BERT 双向、为理解优化,不能自回归生成,且每个任务要单独微调;GPT 单向、为生成优化,生成式接口能统一一切任务,规模化后涌现 ICL,免微调通吃。范式之争的本质是「N 个专用模型 vs 一个通用模型」,后者胜出。
Q:Encoder-Decoder 理论上兼顾理解和生成,为什么没成为 LLM 主流? 工程与扩展性输了:两套参数结构更复杂、KV Cache 与增量推理优化不如纯 Decoder 顺畅、训练目标(span corruption)的数据利用率不如 CLM、规模化经验积累也少。能力上 Decoder-only 足够大之后理解并不差。
Q:GPT-2 到 GPT-3 最重要的跨越是什么? 不是参数大 100 倍本身,而是涌现出 in-context learning——模型能从 prompt 里的几个示例「现场学会」新任务,不需要梯度更新。这改变了使用范式:从「微调模型」变成「写提示」。
Q:为什么 Embedding/Rerank 模型至今还是 BERT 架构? 表示任务需要看到全句的双向信息,双向注意力天然优于因果注意力;模型小、推理量大,BERT 尺寸(百 M 级)性价比合适。近年也有用 LLM 做 Embedding 的探索(如取最后 token 表示),但工业主流仍是双向编码器。
Q:Mixtral 的意义是什么? 第一个被广泛使用的开源 MoE,证明了「47B 总参、13B 激活、对标 70B Dense」的路线可行,把 MoE 从 GPT-4 传闻变成可复现的工程事实,直接影响了 DeepSeek-V2/V3、Qwen-MoE 等后续设计。
Q:开源和闭源的差距现在怎么看? 基准上差距已大幅收窄(DeepSeek/Qwen 旗舰在多数榜单进入第一梯队),但闭源在多模态融合、超长上下文、工程化(稳定性/安全)上仍有优势。对企业落地,开源的可控性(私有化、微调、成本)往往比榜单几分差距更重要。