Skip to content

推理模型与慢思考(Test-time Compute)

从 OpenAI o1/o3 到 DeepSeek-R1、Qwen QwQ,「会慢慢想」的推理模型是 2024–2025 最大的范式变化。理解它「为什么强、怎么训出来」是当下面试的前沿必考点。

什么是推理模型?

传统对话模型拿到问题几乎「脱口而出」(快思考)。推理模型(Reasoning Model) 则在给出答案前,先生成一长串内部思考过程(long CoT,长思维链),自我推演、试错、回溯,再输出结论——类似人类的「慢思考」。

代表:OpenAI o1 / o3、DeepSeek R1、Qwen QwQ、Gemini Thinking。它们在数学、代码、逻辑等复杂推理任务上大幅领先,但在简单任务上未必更好,且更慢更贵。

核心思想:Test-time Compute(推理时计算)

过去提升能力主要靠「训练时」堆参数和数据(缩放定律)。推理模型开辟了第二条 scaling 曲线

让模型在推理时「多想一会儿」(生成更多思考 token),就能换来更强的表现。

这就是 test-time scaling(推理时扩展):同一个模型,思考越久、采样越多,准确率越高。它和训练时 scaling 互补,意义在于——不必重训更大的模型,靠推理时多花算力也能提升智能

训练时扩展:更大模型 + 更多数据 ──▶ 更强(贵在训练)
推理时扩展:同一模型 + 更长思考 ──▶ 更强(贵在每次推理)

怎么训出推理能力?

强化学习 + 可验证奖励(RLVR)

关键配方是在有「标准答案可自动验证」的任务上做强化学习(数学答案对错、代码能否通过测试用例)。模型自由探索推理路径,答对就给正奖励,逐渐学会有效的思考策略。

  • DeepSeek-R1 用 GRPO(去掉价值模型、用组内相对奖励)做 RL,详见 DeepSeek 专题
  • R1-Zero 证明:纯 RL(不经 SFT)也能让模型自发涌现长链推理、反思、回溯(「aha moment」)。

过程奖励 vs 结果奖励

类型奖励对象特点
ORM(结果奖励)只看最终答案对不对简单、信号稀疏,可能「蒙对」
PRM(过程奖励)给推理的每一步打分信号密集、能定位错误步骤,但标注/训练成本高

蒸馏(Distillation)

用强推理模型(如 R1)生成的高质量推理轨迹去 SFT 较小模型,让小模型也「学会」推理。蒸馏出的小模型常优于同尺寸直接做 RL 的模型——因为小模型自己难探索到好的推理模式。

推理时还能怎么「加算力」?

  • 更长的思考链:直接让模型想更久(生成更多思考 token)。
  • 多次采样 + 投票:采样多条推理路径,多数投票(Self-Consistency)或用奖励模型选最优(Best-of-N)。
  • 搜索:用 MCTS 等在推理空间里搜索、用 PRM 剪枝(如 LATS)。

高频追问

Q:推理模型和普通模型最大的区别? 普通模型直接输出答案;推理模型先生成长思维链(自我推演、试错、回溯)再作答,用更多推理时计算换取更强的复杂推理能力。代价是更慢、更贵、更费 token。

Q:什么是 test-time scaling?为什么重要? 指「推理时投入越多计算(更长思考/更多采样),效果越好」的规律。重要性在于:它提供了独立于「训练时堆参数」的第二条提升智能的路径,不重训也能更强。

Q:为什么 RL 能激发推理能力,而 SFT 不行? SFT 是模仿固定的示范答案,难超越数据;RL 让模型自由探索推理路径,对「答对」给奖励,能发现人类示范里没有的、更有效的思考策略(如自我验证、回溯)。可验证奖励(数学/代码)是关键。

Q:PRM 和 ORM 怎么选? ORM 只看最终结果,简单但信号稀疏、可能蒙对;PRM 对每步打分,信号密集、能纠正中间错误,但需要昂贵的步骤级标注。实践中常先用 ORM(可自动验证),需要更精细引导时再上 PRM。

Q:推理模型有什么缺点? 慢、贵(思考 token 多)、简单问题上「过度思考(overthinking)」反而啰嗦甚至出错;长 CoT 也可能不忠实(说一套、实际靠别的依据)。所以要按任务难度选模型:简单任务用普通模型,复杂推理才上推理模型。

Q:为什么小模型蒸馏 R1 的效果比自己做 RL 还好? 强推理模型探索出的优质推理模式,小模型受限于容量和算力很难自行探索到;直接把这些高质量推理轨迹「教」给小模型(蒸馏),比让它从零摸索更高效。

基于 MIT 许可发布