Skip to content

缩放定律与涌现能力

缩放定律解释了「为什么要把模型做大」,涌现能力解释了「大了之后会发生什么」。这是理解大模型发展逻辑的核心,也是高频考点。

一、缩放定律(Scaling Law)

OpenAI(2020)发现:模型的测试损失(loss)与模型参数量 N、数据量 D、计算量 C 之间存在平滑的幂律关系。给定更多算力,按规律分配到更大模型 + 更多数据上,损失会可预测地下降。

经验上损失可近似写成:

$$L(N, D) = \underbrace{E}_{\text{不可约损失}} + \frac{A}{N^{\alpha}} + \frac{B}{D^{\beta}}$$

  • E:数据本身的「不可约损失」(噪声/熵下界,再大也降不到 0)。
  • 后两项随参数量 N、数据量 D 增大而幂律下降,α、β 是经验指数。
  • 计算量近似满足 C ≈ 6ND(每 token 前向+反向约 6N 次浮点运算)。

核心意义:性能可预测。 可用小规模实验拟合曲线、外推大模型表现,从而在烧大钱训练前规划好参数/数据/算力配比,大幅降低试错成本。GPT-4 等就用了这种「先小规模预测、再放大」的方法论。

二、Chinchilla 最优(计算最优)

DeepMind 的 Chinchilla(2022)修正了早期结论:在固定算力下,模型参数量和训练数据量应大致同比例增长,经验法则约「每个参数配约 20 个 token」。

  • 早期 GPT-3(175B)相对其规模训练数据不足(欠训练)。
  • Chinchilla(70B)用更多数据训练,反而超过了更大的模型。
  • 启示:与其一味堆参数,不如喂足数据——这也解释了近年 7B/8B 小模型用海量数据训练后能力很强。

⚠️ Chinchilla 是「训练计算最优」。但若考虑推理成本,把小模型「过度训练」(喂远超 20:1 的数据)更划算——模型一次训练、亿万次推理,小而强的模型部署成本低。这是 LLaMA / SLM 路线的逻辑(见 SLM)。

三、涌现能力(Emergent Abilities)

指某些能力在模型规模较小时几乎为零,规模超过某阈值后突然显著出现,呈非线性「相变」。典型例子:多步算术、复杂推理、上下文学习、指令遵循、CoT 推理(只在足够大的模型上有效)。

涌现的争议(面试加分点):有研究(《Are Emergent Abilities a Mirage?》)认为「涌现」部分是评测指标选择造成的错觉——用非连续指标(如精确匹配)时曲线像「突变」,换用连续指标(如 token 级概率)后曲线会变平滑。所以「涌现」可能既是真实现象,也部分是度量假象。

四、缩放的新前沿

缩放定律本身也在演进,了解这些能体现你跟进前沿:

  • 数据墙(Data Wall):高质量人类文本接近用尽,单纯堆数据遇瓶颈。应对:合成数据、提质量、多模态数据、推理时计算。
  • 推理时缩放(Inference / Test-time Scaling):不再只在训练时堆,而是让模型推理时多想一会儿换更强表现——这是 推理模型(o1/R1)开辟的第二条 scaling 曲线。
  • 数据受限下的缩放:数据不够时,适度重复数据(几个 epoch)仍有效,但收益递减。
  • 下游能力 vs loss:loss 平滑下降,但下游任务表现可能非平滑(涌现),二者并非简单对应。

五、高频追问

Q:缩放定律是什么?有什么实际用处? 模型损失与参数量、数据量、算力呈幂律关系,性能可预测。用处:① 预算规划——小规模实验外推大模型表现,避免盲目烧钱;② 配比决策——按 Chinchilla 协调参数与数据;③ 判断收益——预估再加算力能降多少 loss。

Q:参数、数据、算力哪个最重要? 三者要协调。Chinchilla 框架下,给定算力时参数和数据应同比例增长;单纯堆某一项收益递减。

Q:Chinchilla 的「20:1」是怎么来的? DeepMind 在固定算力预算下系统搜索「参数 vs 数据」最优配比,发现损失最低时数据量约为参数的 20 倍。是「训练计算最优」的经验配比,非物理定律,不同设定下数值会变。

Q:为什么现在很多模型不再追求最大参数? ① Chinchilla 表明数据同样关键;② 推理部署成本考量,小而精的模型更实用(过度训练换低部署成本);③ MoE 等架构能在控制推理成本的同时扩大有效参数。

Q:涌现能力是真的吗? 既真实又有争议。规模超阈值后某些能力确实显著出现;但部分「突变」是评测用了非连续指标造成的度量假象,换连续指标后更平滑。能说出这层争议是加分项。

Q:什么是数据墙?怎么应对? 高质量人类文本接近用尽,靠堆数据继续 scale 遇瓶颈。应对:合成数据、提升数据质量与配比、多模态数据、以及推理时计算(test-time scaling)。

Q:训练时缩放和推理时缩放有什么区别? 训练时缩放靠更大模型+更多数据(贵在训练);推理时缩放靠让模型推理时多生成思考 token(贵在每次推理)。后者是推理模型(o1/R1)的核心,提供了独立于训练的第二条提升路径。

Q:上下文学习(In-Context Learning)是什么?改变参数吗? 模型仅靠 prompt 中的少量示例就能完成新任务,不更新任何参数,是一种涌现能力,也是 Few-shot prompting 的基础。

Q:MoE 和缩放定律什么关系? MoE 用稀疏激活在「总参数」和「单次计算」间解耦,让有效参数(容量)可以大幅扩大而单次推理成本可控,是在缩放定律框架下「更省地变大」的一条路径,详见 MoE

基于 MIT 许可发布