Agentic RL（智能体强化学习）

当强化学习从「对齐人类偏好」走向「训练模型自主完成多步任务」，就进入了 Agentic RL。2025 年它从「最前沿研究方向」变成有成熟工具链的生产范式（verl、TRL），并与推理模型在 o3/o4-mini「工具调用嵌进 CoT」后明显合流。

一、从 RLHF 到 Agentic RL

阶段	RL 在干什么	奖励来自
RLHF（对齐）	让单轮回答更符合人类偏好	人类偏好（奖励模型）
RLVR（推理）	让模型学会长链推理	可验证结果（数学对错/代码通过）
Agentic RL	让模型学会多步、用工具、与环境交互地完成任务	任务是否成功完成（环境反馈）

演进主线：奖励信号从「人类觉得好不好」→「答案对不对」→「任务有没有做成」。详见 RLHF 与推理模型。

二、什么是 Agentic RL？

Agentic RL 用强化学习训练 LLM 成为更强的 Agent：在一个多步、可调用工具、与环境交互的过程中，根据「任务最终是否成功」的奖励来优化策略。

和单轮 RL 的关键不同：

多步轨迹（trajectory）：一个 episode 是「思考→调工具→看结果→再思考……→完成」的整条轨迹，而非单次问答。
环境交互：模型的行动会改变环境（执行代码、查数据库、操作浏览器），并获得真实反馈。
稀疏/延迟奖励：奖励常只在任务结束才给（成功/失败），中间步骤没有即时反馈——这是核心难点（信用分配问题）。

三、典型场景

代码 Agent：给一个 issue，让 Agent 自主改代码、跑测试，以「测试是否通过」为奖励（见 Coding Agent、SWE-bench）。
工具使用/搜索 Agent：训练模型学会何时搜索、如何用工具，以「答案是否正确」为奖励（如 Search-R1）。
GUI/电脑操作 Agent：操作界面完成任务，以「任务是否达成」为奖励。
多轮对话/谈判：以长期目标达成为奖励。

四、关键技术与挑战

算法：常用 GRPO（去价值模型、组内相对奖励）或 DAPO（解耦 clip + 动态采样 + token 级 PG + 无 KL，2025 年数学/代码 RL 的新标配），都适合「采样多条轨迹、按成败打分」。
训练框架：2025–2026 主流两套——verl（字节，原生多轮工具调用 rollout、AsyncRL 引擎支持长轨迹、内置 PPO/GRPO/RLOO/DAPO/Remax）和 TRL 的 GRPOTrainer（HuggingFace，更通用但环境循环要自己写）。OpenRLHF 是第三选项。
可验证奖励（RLVR）：尽量用能自动判定的奖励（测试通过、答案匹配），避免奖励模型的偏差和 reward hacking。
信用分配：长轨迹里哪一步该奖该罚很难界定——是 Agentic RL 的核心难题。
稀疏奖励：成功率低时几乎拿不到正奖励，训练困难。对策：课程学习（由易到难）、过程奖励、拒绝采样。
环境与采样成本：每条轨迹要真实跑工具/环境，慢且贵，需要高效的 rollout 基础设施。
稳定性：长轨迹 + 稀疏奖励让 RL 更不稳定。

五、为什么重要？

它指向「能自主完成真实任务」的模型——不只是会聊天/会推理，而是能真正"干活"（写完一个 PR、完成一次数据分析、操作软件）。这被普遍认为是通向更强通用智能体的关键路径。

六、推理 × Agent 合流：o3/o4-mini 的里程碑

2025 年 4 月 OpenAI 的 o3/o4-mini 把工具调用塞进 CoT 本身——模型在思考过程中自主发起搜索、看图、跑代码，再把结果接回思考链。这是 Agentic RL 训练目标的「产品化实证」：推理链内部就在用工具。学术侧 2025 年也有一批对应工作：RAGEN、Search-and-LEARN（SAL）（多轮带工具反馈的 agentic RL），以及 AgentGym / AgentBoard 评测套件。这条合流线是 2026 年面试的高分点。

六、高频追问

Q：Agentic RL 和 RLHF 有什么区别？ RLHF 优化单轮回答以对齐人类偏好（奖励来自偏好模型）；Agentic RL 在多步、用工具、与环境交互的轨迹上优化，奖励来自「任务是否成功完成」。前者教「说得好」，后者教「做成事」。

Q：Agentic RL 的核心难点是什么？ ① 稀疏/延迟奖励（常只在任务结束才有信号）；② 信用分配（长轨迹里哪步该奖罚难定）；③ 环境采样成本高（每条轨迹要真实跑工具）；④ 训练稳定性差。

Q：为什么 Agentic RL 偏爱可验证奖励（RLVR）？ 可自动判定的奖励（测试通过、答案匹配）客观、便宜、不易被钻空子；而用奖励模型打分容易引入偏差和 reward hacking。所以代码、数学、工具调用这类有客观成败的任务最适合 Agentic RL。

Q：它和推理模型（o1/R1）什么关系？ 推理模型用 RLVR 训练「长链推理」；Agentic RL 把这套「可验证奖励 + RL」扩展到「多步用工具完成任务」。二者同源，Agentic RL 可看作推理能力在 Agent 场景的延伸。2025 年 o3/o4-mini 把工具调用嵌进 CoT 后，两条线在产品层也合流了——推理链内部就在调工具，边界已不再清晰。

Q：稀疏奖励怎么缓解？ 课程学习（任务由易到难）、过程奖励（给中间步骤打分）、拒绝采样（保留成功轨迹做 SFT）、更好的 rollout 与探索策略，以及从能拿到正奖励的简单任务起步逐步加难。

Agentic RL（智能体强化学习） ​

一、从 RLHF 到 Agentic RL ​

二、什么是 Agentic RL？ ​

三、典型场景 ​

四、关键技术与挑战 ​

五、为什么重要？ ​

六、推理 × Agent 合流：o3/o4-mini 的里程碑 ​

六、高频追问 ​