Skip to content

大模型发展简史

知道「技术从哪来」才能理解「它为什么长这样」。本文用一条时间线串起 NLP 到大模型的关键转折,每个节点只回答一个问题:它解决了前一代的什么痛点? 适合新手建立全局感,也适合面试中展示技术视野。

一条时间线

时间里程碑解决了什么
~2012 前规则系统 / 统计 NLP人写规则到统计学习,但特征靠人工
2013word2vec词变成向量,「语义可以计算」
2014-16seq2seq + Attention序列到序列任务(翻译)可端到端学习
2017Transformer抛弃循环结构,并行训练 + 长程依赖
2018GPT-1 / BERT「预训练 + 微调」范式确立
2019GPT-2纯语言模型能 zero-shot 干多种任务
2020GPT-3 + Scaling Laws规模带来 in-context learning,提示替代微调
2022InstructGPT / ChatGPTRLHF 对齐让能力「可用」,产品引爆全球
2023GPT-4 / LLaMA 开源多模态旗舰 + 开源生态爆发(百模大战)
2024GPT-4o / MoE 普及 / 长上下文全模态实时交互;Mixtral/DeepSeek 把 MoE 开源化
2024.09o1推理时计算(test-time scaling)开辟新增长轴
2025DeepSeek-R1 / Agent 元年开源推理模型 + RLVR 范式;Agent 大规模落地

五个关键转折点详解

1. word2vec(2013):语义进入向量空间

之前词是离散符号(one-hot),彼此无关;word2vec 用「上下文预测」学出稠密向量,「国王 − 男 + 女 ≈ 女王」第一次证明语义关系可以用几何运算表达。今天 RAG 的 Embedding 检索 是它的直系后代。

2. Transformer(2017):架构分水岭

RNN 必须按顺序处理、难以并行、长距离依赖会遗忘。《Attention Is All You Need》用自注意力让任意两个位置直接交互,训练完全并行——可并行意味着可堆数据堆算力,这是后来一切「大」模型的前提。详见 Transformer 架构详解

3. GPT-3 与缩放定律(2020):「大力出奇迹」被定量化

OpenAI 发现损失随参数/数据/算力按幂律平滑下降(Scaling Laws),于是把模型推到 175B——涌现出 in-context learning:给几个示例就能现场学会新任务,不用改参数。范式从「为每个任务微调模型」变成「为每个任务写提示」。详见 缩放定律

4. ChatGPT 与 RLHF(2022):能力变得「可用」

GPT-3 很强但「不听话」——续写而非回答。InstructGPT 用 RLHF(人类偏好强化学习)把模型对齐成「有用、诚实、无害」的助手,1.3B 对齐模型的人类偏好竟胜过 175B 原始模型——对齐比规模便宜。ChatGPT 把它产品化,两个月破亿用户,AI 进入大众视野。详见 RLHF / DPO 对齐

5. o1 与 R1(2024-25):从「快答」到「慢想」

预训练数据见顶后,新增长轴出现:让模型生成长思维链「想清楚再答」,用推理时计算换推理能力。o1 闭源开路,DeepSeek-R1 开源并公开方法(GRPO + 可验证奖励),证明纯 RL 能激发反思与回溯。详见 推理模型与慢思考DeepSeek 专题

用三条主线记住这段历史

  1. 规模主线:word2vec → Transformer(可并行)→ GPT-3(缩放定律)→ MoE(更省地变大)——「怎么变大」。
  2. 对齐主线:GPT-3(强但野)→ InstructGPT/RLHF → DPO/GRPO ——「怎么变得好用」。
  3. 推理主线:CoT 提示 → o1/R1(RL 训练慢思考)→ Agent(推理 + 行动)——「怎么变聪明」。

面试被问「谈谈大模型发展历程」,按这三条主线组织,比按年份背模型名高一个档次。

中国大模型的平行时间线

  • 2023「百模大战」:文心、通义、GLM、Baichuan 等密集发布;
  • 2024 格局收敛:Qwen 确立开源标杆地位、DeepSeek 以性价比出圈、Kimi 以长上下文出圈;
  • 2025:DeepSeek-R1 让中国开源模型首次站到全球技术叙事中心,Qwen3、GLM、Kimi 等持续开源旗舰。生态详见 经典模型盘点LLaMA 与 Qwen

高频追问

Q:为什么说 Transformer 是分水岭? 它把「序列建模」从串行变成并行,扫清了规模化的架构障碍:可并行 → 能吃下海量数据与算力 → 缩放定律才有用武之地。没有 Transformer 就没有「大」模型。

Q:BERT 当年比 GPT-1 更火,为什么最后是 GPT 路线赢了? BERT 在理解任务上立竿见影,但每个任务要单独微调;GPT 的生成式接口随规模涌现出「一个模型 + 提示通吃所有任务」的能力。范式之争的本质是专用 vs 通用,通用胜出。详见 经典模型盘点

Q:ChatGPT 技术上有什么新东西吗? 单点技术(GPT-3.5 + RLHF)此前都已发表,它的突破是工程整合 + 产品形态:把对齐做到「普通人可用」并用对话界面交付。技术史的教训:临界点常由「可用性」而非「新算法」触发。

Q:开源模型是怎么追上来的? LLaMA 泄露/开放权重点燃生态(2023)→ 社区微调工具链成熟(LoRA、LLaMA-Factory)→ Mixtral/Qwen/DeepSeek 持续开源旗舰 → R1 开源推理模型补上最后短板。开源以「可私有化 + 可定制 + 成本」换生态,与闭源差距已收窄到月份级。

Q:下一个增长轴可能是什么? 当前共识方向:推理时计算继续深化(更长思考、搜索)、Agent 端到端 RL(Agentic RL)、多模态统一(视频/具身,见 视频生成)、合成数据飞轮(数据工程)。诚实的回答要承认:2020 年没人预料到 ChatGPT,预测要留不确定性。

基于 MIT 许可发布