大模型发展简史
知道「技术从哪来」才能理解「它为什么长这样」。本文用一条时间线串起 NLP 到大模型的关键转折,每个节点只回答一个问题:它解决了前一代的什么痛点? 适合新手建立全局感,也适合面试中展示技术视野。
一条时间线
| 时间 | 里程碑 | 解决了什么 |
|---|---|---|
| ~2012 前 | 规则系统 / 统计 NLP | 人写规则到统计学习,但特征靠人工 |
| 2013 | word2vec | 词变成向量,「语义可以计算」 |
| 2014-16 | seq2seq + Attention | 序列到序列任务(翻译)可端到端学习 |
| 2017 | Transformer | 抛弃循环结构,并行训练 + 长程依赖 |
| 2018 | GPT-1 / BERT | 「预训练 + 微调」范式确立 |
| 2019 | GPT-2 | 纯语言模型能 zero-shot 干多种任务 |
| 2020 | GPT-3 + Scaling Laws | 规模带来 in-context learning,提示替代微调 |
| 2022 | InstructGPT / ChatGPT | RLHF 对齐让能力「可用」,产品引爆全球 |
| 2023 | GPT-4 / LLaMA 开源 | 多模态旗舰 + 开源生态爆发(百模大战) |
| 2024 | GPT-4o / MoE 普及 / 长上下文 | 全模态实时交互;Mixtral/DeepSeek 把 MoE 开源化 |
| 2024.09 | o1 | 推理时计算(test-time scaling)开辟新增长轴 |
| 2025 | DeepSeek-R1 / Agent 元年 | 开源推理模型 + RLVR 范式;Agent 大规模落地 |
五个关键转折点详解
1. word2vec(2013):语义进入向量空间
之前词是离散符号(one-hot),彼此无关;word2vec 用「上下文预测」学出稠密向量,「国王 − 男 + 女 ≈ 女王」第一次证明语义关系可以用几何运算表达。今天 RAG 的 Embedding 检索 是它的直系后代。
2. Transformer(2017):架构分水岭
RNN 必须按顺序处理、难以并行、长距离依赖会遗忘。《Attention Is All You Need》用自注意力让任意两个位置直接交互,训练完全并行——可并行意味着可堆数据堆算力,这是后来一切「大」模型的前提。详见 Transformer 架构详解。
3. GPT-3 与缩放定律(2020):「大力出奇迹」被定量化
OpenAI 发现损失随参数/数据/算力按幂律平滑下降(Scaling Laws),于是把模型推到 175B——涌现出 in-context learning:给几个示例就能现场学会新任务,不用改参数。范式从「为每个任务微调模型」变成「为每个任务写提示」。详见 缩放定律。
4. ChatGPT 与 RLHF(2022):能力变得「可用」
GPT-3 很强但「不听话」——续写而非回答。InstructGPT 用 RLHF(人类偏好强化学习)把模型对齐成「有用、诚实、无害」的助手,1.3B 对齐模型的人类偏好竟胜过 175B 原始模型——对齐比规模便宜。ChatGPT 把它产品化,两个月破亿用户,AI 进入大众视野。详见 RLHF / DPO 对齐。
5. o1 与 R1(2024-25):从「快答」到「慢想」
预训练数据见顶后,新增长轴出现:让模型生成长思维链「想清楚再答」,用推理时计算换推理能力。o1 闭源开路,DeepSeek-R1 开源并公开方法(GRPO + 可验证奖励),证明纯 RL 能激发反思与回溯。详见 推理模型与慢思考 与 DeepSeek 专题。
用三条主线记住这段历史
- 规模主线:word2vec → Transformer(可并行)→ GPT-3(缩放定律)→ MoE(更省地变大)——「怎么变大」。
- 对齐主线:GPT-3(强但野)→ InstructGPT/RLHF → DPO/GRPO ——「怎么变得好用」。
- 推理主线:CoT 提示 → o1/R1(RL 训练慢思考)→ Agent(推理 + 行动)——「怎么变聪明」。
面试被问「谈谈大模型发展历程」,按这三条主线组织,比按年份背模型名高一个档次。
中国大模型的平行时间线
- 2023「百模大战」:文心、通义、GLM、Baichuan 等密集发布;
- 2024 格局收敛:Qwen 确立开源标杆地位、DeepSeek 以性价比出圈、Kimi 以长上下文出圈;
- 2025:DeepSeek-R1 让中国开源模型首次站到全球技术叙事中心,Qwen3、GLM、Kimi 等持续开源旗舰。生态详见 经典模型盘点 与 LLaMA 与 Qwen。
高频追问
Q:为什么说 Transformer 是分水岭? 它把「序列建模」从串行变成并行,扫清了规模化的架构障碍:可并行 → 能吃下海量数据与算力 → 缩放定律才有用武之地。没有 Transformer 就没有「大」模型。
Q:BERT 当年比 GPT-1 更火,为什么最后是 GPT 路线赢了? BERT 在理解任务上立竿见影,但每个任务要单独微调;GPT 的生成式接口随规模涌现出「一个模型 + 提示通吃所有任务」的能力。范式之争的本质是专用 vs 通用,通用胜出。详见 经典模型盘点。
Q:ChatGPT 技术上有什么新东西吗? 单点技术(GPT-3.5 + RLHF)此前都已发表,它的突破是工程整合 + 产品形态:把对齐做到「普通人可用」并用对话界面交付。技术史的教训:临界点常由「可用性」而非「新算法」触发。
Q:开源模型是怎么追上来的? LLaMA 泄露/开放权重点燃生态(2023)→ 社区微调工具链成熟(LoRA、LLaMA-Factory)→ Mixtral/Qwen/DeepSeek 持续开源旗舰 → R1 开源推理模型补上最后短板。开源以「可私有化 + 可定制 + 成本」换生态,与闭源差距已收窄到月份级。
Q:下一个增长轴可能是什么? 当前共识方向:推理时计算继续深化(更长思考、搜索)、Agent 端到端 RL(Agentic RL)、多模态统一(视频/具身,见 视频生成)、合成数据飞轮(数据工程)。诚实的回答要承认:2020 年没人预料到 ChatGPT,预测要留不确定性。