大模型发展简史

知道「技术从哪来」才能理解「它为什么长这样」。本文用一条时间线串起 NLP 到大模型的关键转折，每个节点只回答一个问题：它解决了前一代的什么痛点？ 适合新手建立全局感，也适合面试中展示技术视野。

一条时间线

时间	里程碑	解决了什么
~2012 前	规则系统 / 统计 NLP	人写规则到统计学习，但特征靠人工
2013	word2vec	词变成向量，「语义可以计算」
2014-16	seq2seq + Attention	序列到序列任务（翻译）可端到端学习
2017	Transformer	抛弃循环结构，并行训练 + 长程依赖
2018	GPT-1 / BERT	「预训练 + 微调」范式确立
2019	GPT-2	纯语言模型能 zero-shot 干多种任务
2020	GPT-3 + Scaling Laws	规模带来 in-context learning，提示替代微调
2022	InstructGPT / ChatGPT	RLHF 对齐让能力「可用」，产品引爆全球
2023	GPT-4 / LLaMA 开源	多模态旗舰 + 开源生态爆发（百模大战）
2024	GPT-4o / MoE 普及 / 长上下文	全模态实时交互；Mixtral/DeepSeek 把 MoE 开源化
2024.09	o1	推理时计算（test-time scaling）开辟新增长轴
2025	DeepSeek-R1 / Agent 元年	开源推理模型 + RLVR 范式；Agent 大规模落地

五个关键转折点详解

1. word2vec（2013）：语义进入向量空间

之前词是离散符号（one-hot），彼此无关；word2vec 用「上下文预测」学出稠密向量，「国王 − 男 + 女 ≈ 女王」第一次证明语义关系可以用几何运算表达。今天 RAG 的 Embedding 检索是它的直系后代。

2. Transformer（2017）：架构分水岭

RNN 必须按顺序处理、难以并行、长距离依赖会遗忘。《Attention Is All You Need》用自注意力让任意两个位置直接交互，训练完全并行——可并行意味着可堆数据堆算力，这是后来一切「大」模型的前提。详见 Transformer 架构详解。

3. GPT-3 与缩放定律（2020）：「大力出奇迹」被定量化

OpenAI 发现损失随参数/数据/算力按幂律平滑下降（Scaling Laws），于是把模型推到 175B——涌现出 in-context learning：给几个示例就能现场学会新任务，不用改参数。范式从「为每个任务微调模型」变成「为每个任务写提示」。详见缩放定律。

4. ChatGPT 与 RLHF（2022）：能力变得「可用」

GPT-3 很强但「不听话」——续写而非回答。InstructGPT 用 RLHF（人类偏好强化学习）把模型对齐成「有用、诚实、无害」的助手，1.3B 对齐模型的人类偏好竟胜过 175B 原始模型——对齐比规模便宜。ChatGPT 把它产品化，两个月破亿用户，AI 进入大众视野。详见 RLHF / DPO 对齐。

5. o1 与 R1（2024-25）：从「快答」到「慢想」

预训练数据见顶后，新增长轴出现：让模型生成长思维链「想清楚再答」，用推理时计算换推理能力。o1 闭源开路，DeepSeek-R1 开源并公开方法（GRPO + 可验证奖励），证明纯 RL 能激发反思与回溯。详见推理模型与慢思考与 DeepSeek 专题。

用三条主线记住这段历史

规模主线：word2vec → Transformer（可并行）→ GPT-3（缩放定律）→ MoE（更省地变大）——「怎么变大」。
对齐主线：GPT-3（强但野）→ InstructGPT/RLHF → DPO/GRPO ——「怎么变得好用」。
推理主线：CoT 提示 → o1/R1（RL 训练慢思考）→ Agent（推理 + 行动）——「怎么变聪明」。

面试被问「谈谈大模型发展历程」，按这三条主线组织，比按年份背模型名高一个档次。

中国大模型的平行时间线

2023「百模大战」：文心、通义、GLM、Baichuan 等密集发布；
2024 格局收敛：Qwen 确立开源标杆地位、DeepSeek 以性价比出圈、Kimi 以长上下文出圈；
2025：DeepSeek-R1 让中国开源模型首次站到全球技术叙事中心，Qwen3、GLM、Kimi 等持续开源旗舰。生态详见经典模型盘点与 LLaMA 与 Qwen。

高频追问

Q：为什么说 Transformer 是分水岭？ 它把「序列建模」从串行变成并行，扫清了规模化的架构障碍：可并行 → 能吃下海量数据与算力 → 缩放定律才有用武之地。没有 Transformer 就没有「大」模型。

Q：BERT 当年比 GPT-1 更火，为什么最后是 GPT 路线赢了？ BERT 在理解任务上立竿见影，但每个任务要单独微调；GPT 的生成式接口随规模涌现出「一个模型 + 提示通吃所有任务」的能力。范式之争的本质是专用 vs 通用，通用胜出。详见经典模型盘点。

Q：ChatGPT 技术上有什么新东西吗？ 单点技术（GPT-3.5 + RLHF）此前都已发表，它的突破是工程整合 + 产品形态：把对齐做到「普通人可用」并用对话界面交付。技术史的教训：临界点常由「可用性」而非「新算法」触发。

Q：开源模型是怎么追上来的？ LLaMA 泄露/开放权重点燃生态（2023）→ 社区微调工具链成熟（LoRA、LLaMA-Factory）→ Mixtral/Qwen/DeepSeek 持续开源旗舰 → R1 开源推理模型补上最后短板。开源以「可私有化 + 可定制 + 成本」换生态，与闭源差距已收窄到月份级。

Q：下一个增长轴可能是什么？ 当前共识方向：推理时计算继续深化（更长思考、搜索）、Agent 端到端 RL（Agentic RL）、多模态统一（视频/具身，见视频生成）、合成数据飞轮（数据工程）。诚实的回答要承认：2020 年没人预料到 ChatGPT，预测要留不确定性。

大模型发展简史 ​

一条时间线 ​

五个关键转折点详解 ​

1. word2vec（2013）：语义进入向量空间 ​

2. Transformer（2017）：架构分水岭 ​

3. GPT-3 与缩放定律（2020）：「大力出奇迹」被定量化 ​

4. ChatGPT 与 RLHF（2022）：能力变得「可用」 ​

5. o1 与 R1（2024-25）：从「快答」到「慢想」 ​

用三条主线记住这段历史 ​

中国大模型的平行时间线 ​

高频追问 ​