推理模型与慢思考（Test-time Compute）

从 OpenAI o1/o3 到 DeepSeek-R1、Qwen QwQ，「会慢慢想」的推理模型是 2024–2025 最大的范式变化。到 2025 下半年，GPT-5 把「快思考」和「慢思考」收进同一个模型、按问题难度自适应调节推理深度，推理模型与普通模型的边界开始模糊。理解它「为什么强、怎么训出来」是当下面试的前沿必考点。服务侧如何外挂 Self-Consistency、Best-of-N、ToT、MCTS、PRM 和动态预算，见推理时算力扩展。

什么是推理模型？

传统对话模型拿到问题几乎「脱口而出」（快思考）。推理模型（Reasoning Model） 则在给出答案前，先生成一长串内部思考过程（long CoT，长思维链），自我推演、试错、回溯，再输出结论——类似人类的「慢思考」。

代表：OpenAI o1 / o3 / o4-mini、GPT-5（统一自适应推理）、DeepSeek R1 / R1-0528、Qwen QwQ / Qwen3（混合思考开关）、Gemini 2.0 Flash Thinking、Claude extended thinking。它们在数学、代码、逻辑等复杂推理任务上大幅领先，但在简单任务上未必更好，且更慢更贵。

2025 年的演进主线：从「独立推理模型 vs 普通模型」两条产品线，走向「一个模型按需调节推理深度」。GPT-5 与 Qwen3 都走这条路——前者自动判断，后者提供思考/非思考开关。这意味着面试里「推理模型」不再只是一个独立品类，而是一种可开关的能力。

核心思想：Test-time Compute（推理时计算）

过去提升能力主要靠「训练时」堆参数和数据（缩放定律）。推理模型开辟了第二条 scaling 曲线：

让模型在推理时「多想一会儿」（生成更多思考 token），就能换来更强的表现。

这就是 test-time scaling（推理时扩展）：同一个模型，思考越久、采样越多，准确率越高。它和训练时 scaling 互补，意义在于——不必重训更大的模型，靠推理时多花算力也能提升智能。

2025 下半年的修正：GPT-5 等模型把「快/慢思考」收进一个模型内自适应切换，「两条独立 scaling 曲线」的叙事开始让位于「单模型内按需调节推理深度」。test-time scaling 依然成立，但不再是两套独立产品。

训练时扩展：更大模型 + 更多数据 ──▶ 更强（贵在训练）
推理时扩展：同一模型 + 更长思考 ──▶ 更强（贵在每次推理）

怎么训出推理能力？

强化学习 + 可验证奖励（RLVR）

关键配方是在有「标准答案可自动验证」的任务上做强化学习（数学答案对错、代码能否通过测试用例）。模型自由探索推理路径，答对就给正奖励，逐渐学会有效的思考策略。

DeepSeek-R1 用 GRPO（去掉价值模型、用组内相对奖励）做 RL，详见 DeepSeek 专题。
R1-Zero 证明：纯 RL（不经 SFT）也能让模型自发涌现长链推理、反思、回溯（「aha moment」）。
DAPO（字节，2025）：GRPO 同级的替代配方，四个改动——解耦 clip（上下限用不对称 ε，防熵塌缩）、动态采样（过滤太易/太难样本）、token 级策略梯度（比序列级信用分配更细）、去掉 KL 项。在数学推理 RL 里已被广泛采用，verl 等框架已内置。

过程奖励 vs 结果奖励

类型	奖励对象	特点
ORM（结果奖励）	只看最终答案对不对	简单、信号稀疏，可能「蒙对」
PRM（过程奖励）	给推理的每一步打分	信号密集、能定位错误步骤，但标注/训练成本高

2025 年的 PRM 落地：Qwen2.5-Math-PRM、Skywork-PRM-1B/7B 等开源过程奖励模型可用；评测侧有 ProcessBench（专测 PRM 能否找出错误步骤）、OpenMathReasoning（NVIDIA 的 3B token CoT+TIR 数据集）。面试讲到 PRM 时点出这些具名项目更显前沿。

蒸馏（Distillation）

用强推理模型（如 R1）生成的高质量推理轨迹去 SFT 较小模型，让小模型也「学会」推理。蒸馏出的小模型常优于同尺寸直接做 RL 的模型——因为小模型自己难探索到好的推理模式。

推理时还能怎么「加算力」？

更长的思考链：直接让模型想更久（生成更多思考 token）。
多次采样 + 投票：采样多条推理路径，多数投票（Self-Consistency）或用奖励模型选最优（Best-of-N）。
搜索：用 MCTS 等在推理空间里搜索、用 PRM 剪枝（如 LATS）。

这些方法既可以内化到推理模型里，也可以由业务服务层显式编排。后者更容易做预算控制、并行采样、verifier 插拔和 trace 回放，详见推理时算力扩展。

推理模型 × Agent：边界正在消失

2025 年 4 月 OpenAI 发布 o3 / o4-mini，第一个把「工具调用」塞进 CoT 本身——模型在思考过程中会自主发起网页搜索、看图、跑代码、生成图像，再把结果接回思考链。这意味着推理模型和 Agent 不再是两个独立品类：推理链内部就在用工具。这条线与 Agentic RL 训练出的「会做事」的模型正在合流，是 2025 下半年到 2026 年最值得跟踪的趋势。

高频追问

Q：推理模型和普通模型最大的区别？ 普通模型直接输出答案；推理模型先生成长思维链（自我推演、试错、回溯）再作答，用更多推理时计算换取更强的复杂推理能力。代价是更慢、更贵、更费 token。

Q：什么是 test-time scaling？为什么重要？ 指「推理时投入越多计算（更长思考/更多采样），效果越好」的规律。重要性在于：它提供了独立于「训练时堆参数」的第二条提升智能的路径，不重训也能更强。

Q：为什么 RL 能激发推理能力，而 SFT 不行？ SFT 是模仿固定的示范答案，难超越数据；RL 让模型自由探索推理路径，对「答对」给奖励，能发现人类示范里没有的、更有效的思考策略（如自我验证、回溯）。可验证奖励（数学/代码）是关键。

Q：PRM 和 ORM 怎么选？ ORM 只看最终结果，简单但信号稀疏、可能蒙对；PRM 对每步打分，信号密集、能纠正中间错误，但需要昂贵的步骤级标注。实践中常先用 ORM（可自动验证），需要更精细引导时再上 PRM。

Q：推理模型有什么缺点？ 慢、贵（思考 token 多）、简单问题上「过度思考（overthinking）」反而啰嗦甚至出错；长 CoT 也可能不忠实（说一套、实际靠别的依据）。所以要按任务难度选模型：简单任务用普通模型，复杂推理才上推理模型。

Q：为什么小模型蒸馏 R1 的效果比自己做 RL 还好？ 强推理模型探索出的优质推理模式，小模型受限于容量和算力很难自行探索到；直接把这些高质量推理轨迹「教」给小模型（蒸馏），比让它从零摸索更高效。

Q：GPT-5 的「自适应推理」和 o1 的推理有什么不同？ o1/o3 是独立的推理模型，思考深度由模型自身决定；GPT-5 把快慢思考收进一个模型，按问题难度自动调节推理深度（也有手动 Thinking 模式）。本质是从「两条产品线」变成「一个模型按需切换」，降低了简单任务上的过度思考和成本。

Q：DAPO 相比 GRPO 改了什么？ 四点：解耦 clip（上下限不对称 ε，缓解熵塌缩）、动态采样（过滤太易/太难样本提高信号质量）、token 级策略梯度（比序列级信用分配更细）、去掉 KL 项（给推理探索更大空间）。两者都去掉了价值模型，DAPO 在数学 RL 上效果更好，已被 verl 等框架内置。

推理模型与慢思考（Test-time Compute） ​

什么是推理模型？ ​

核心思想：Test-time Compute（推理时计算） ​

怎么训出推理能力？ ​

强化学习 + 可验证奖励（RLVR） ​

过程奖励 vs 结果奖励 ​

蒸馏（Distillation） ​

推理时还能怎么「加算力」？ ​

推理模型 × Agent：边界正在消失 ​

高频追问 ​