Agentic RL(智能体强化学习)
当强化学习从「对齐人类偏好」走向「训练模型自主完成多步任务」,就进入了 Agentic RL——这是 2025 年最前沿的方向之一,把推理模型和 Agent 两条线汇到了一起。
一、从 RLHF 到 Agentic RL
| 阶段 | RL 在干什么 | 奖励来自 |
|---|---|---|
| RLHF(对齐) | 让单轮回答更符合人类偏好 | 人类偏好(奖励模型) |
| RLVR(推理) | 让模型学会长链推理 | 可验证结果(数学对错/代码通过) |
| Agentic RL | 让模型学会多步、用工具、与环境交互地完成任务 | 任务是否成功完成(环境反馈) |
二、什么是 Agentic RL?
Agentic RL 用强化学习训练 LLM 成为更强的 Agent:在一个多步、可调用工具、与环境交互的过程中,根据「任务最终是否成功」的奖励来优化策略。
和单轮 RL 的关键不同:
- 多步轨迹(trajectory):一个 episode 是「思考→调工具→看结果→再思考……→完成」的整条轨迹,而非单次问答。
- 环境交互:模型的行动会改变环境(执行代码、查数据库、操作浏览器),并获得真实反馈。
- 稀疏/延迟奖励:奖励常只在任务结束才给(成功/失败),中间步骤没有即时反馈——这是核心难点(信用分配问题)。
三、典型场景
- 代码 Agent:给一个 issue,让 Agent 自主改代码、跑测试,以「测试是否通过」为奖励(见 Coding Agent、SWE-bench)。
- 工具使用/搜索 Agent:训练模型学会何时搜索、如何用工具,以「答案是否正确」为奖励(如 Search-R1)。
- GUI/电脑操作 Agent:操作界面完成任务,以「任务是否达成」为奖励。
- 多轮对话/谈判:以长期目标达成为奖励。
四、关键技术与挑战
- 算法:常用 GRPO(去价值模型、组内相对奖励)等高效 RL,适合「采样多条轨迹、按成败打分」。
- 可验证奖励(RLVR):尽量用能自动判定的奖励(测试通过、答案匹配),避免奖励模型的偏差和 reward hacking。
- 信用分配:长轨迹里哪一步该奖该罚很难界定——是 Agentic RL 的核心难题。
- 稀疏奖励:成功率低时几乎拿不到正奖励,训练困难。对策:课程学习(由易到难)、过程奖励、拒绝采样。
- 环境与采样成本:每条轨迹要真实跑工具/环境,慢且贵,需要高效的 rollout 基础设施。
- 稳定性:长轨迹 + 稀疏奖励让 RL 更不稳定。
五、为什么重要?
它指向「能自主完成真实任务」的模型——不只是会聊天/会推理,而是能真正"干活"(写完一个 PR、完成一次数据分析、操作软件)。这被普遍认为是通向更强通用智能体的关键路径。
六、高频追问
Q:Agentic RL 和 RLHF 有什么区别? RLHF 优化单轮回答以对齐人类偏好(奖励来自偏好模型);Agentic RL 在多步、用工具、与环境交互的轨迹上优化,奖励来自「任务是否成功完成」。前者教「说得好」,后者教「做成事」。
Q:Agentic RL 的核心难点是什么? ① 稀疏/延迟奖励(常只在任务结束才有信号);② 信用分配(长轨迹里哪步该奖罚难定);③ 环境采样成本高(每条轨迹要真实跑工具);④ 训练稳定性差。
Q:为什么 Agentic RL 偏爱可验证奖励(RLVR)? 可自动判定的奖励(测试通过、答案匹配)客观、便宜、不易被钻空子;而用奖励模型打分容易引入偏差和 reward hacking。所以代码、数学、工具调用这类有客观成败的任务最适合 Agentic RL。
Q:它和推理模型(o1/R1)什么关系? 推理模型用 RLVR 训练「长链推理」;Agentic RL 把这套「可验证奖励 + RL」扩展到「多步用工具完成任务」。二者同源,Agentic RL 可看作推理能力在 Agent 场景的延伸。
Q:稀疏奖励怎么缓解? 课程学习(任务由易到难)、过程奖励(给中间步骤打分)、拒绝采样(保留成功轨迹做 SFT)、更好的 rollout 与探索策略,以及从能拿到正奖励的简单任务起步逐步加难。