深度研究 Agent（Deep Research）

「Deep Research」是 2025 年走红的一类 Agent 产品：给一个研究问题，Agent 自主上网搜索几十上百个来源、交叉验证、综合成一份带引用的长报告。它把「检索 + 多步推理 + 长文写作」端到端串起来，是 Agent 落地最成功的形态之一。基础范式见 Agent 基础，检索见 Agentic RAG，成本和搜索预算视角见推理时算力扩展。

一、它解决什么问题？

普通聊天问答是「一问一答」；深度研究是「给我把这个主题查清楚、写成报告」。区别：

	普通 RAG 问答	Deep Research
检索	一次/少数几次	几十到上百次，迭代展开
来源	内部知识库	开放网络 + 多源
输出	简短答案	结构化长报告（带引用）
耗时	秒级	几分钟到几十分钟
核心	找到答案	规划 + 综合 + 核查

二、典型工作流

研究问题
   ↓
① 规划：拆解成子问题 / 研究大纲
   ↓
② 迭代检索：对每个子问题上网搜索 → 阅读 → 发现新线索 → 再搜（多跳）
   ↓
③ 交叉验证：多来源比对，识别冲突与可信度
   ↓
④ 综合写作：把发现组织成结构化报告
   ↓
⑤ 引用溯源：每个论断标注来源

核心是 plan → search → read → reflect → search more → synthesize 的循环，本质是把 Agentic RAG 的「规划 + 多跳 + 反思」放大到「整篇报告」的尺度，并用浏览器/搜索工具（见 Computer Use 与浏览器 Agent）作为信息源。

三、两种实现架构

单 Agent 迭代

一个 Agent 在长循环里反复「搜索—阅读—记笔记—决定下一步」，用外部笔记/记忆（见 Agent 记忆）累积发现，最后汇总成文。简单、上下文连贯，但单线程、慢。

多 Agent 编排（Orchestrator-Workers）

一个主 Agent 规划并派发子主题给多个研究子 Agent 并行调研，各自返回发现，主 Agent 汇总成报告。

优点：并行加速、每个子 Agent 上下文隔离（避免单上下文塞爆），见多 Agent 与上下文工程的 isolate。
缺点：协调复杂、子任务划分和结果整合是难点、token 消耗大。

四、关键技术点

上下文管理：研究会产生海量中间内容，必须靠「写外部笔记 + 按需读回 + 压缩」管理，否则上下文爆炸（见上下文工程）。
来源可信度：开放网络鱼龙混杂，要识别权威来源、交叉验证、对冲突信息谨慎处理——否则会把网上的错误/谣言当事实写进报告。
引用溯源：每个论断挂来源是 Deep Research 的「信任基石」，也是与普通 LLM 长文生成的根本区别。
训练：领先的研究 Agent 往往用端到端强化学习训练（在「能否找到正确信息并正确综合」上给奖励），而非纯 prompt 编排，见 Agentic RL。

五、局限与风险

幻觉的放大：长报告里夹杂少量编造或误读来源，不易察觉、危害更大——引用溯源 + 人工抽查必不可少。
来源偏差：检索到的内容质量决定报告质量，搜到偏颇/过时来源会系统性带偏结论。
成本与时延：几十次检索 + 长文生成，单次研究成本和耗时远高于普通问答。它本质上是 long-horizon test-time compute，必须设置搜索步数、来源数、token 预算和停止条件。
不能替代专家判断：适合「快速收集、初步综合」，但关键结论仍需人核查，尤其医疗/法律/投资等高风险领域。

高频追问

Q：Deep Research 和普通 RAG 问答有什么区别？ 普通 RAG 是「一次检索→一个简短答案」；Deep Research 是「多轮迭代检索（几十上百次）+ 多跳推理 + 交叉验证 + 综合成带引用的长报告」，耗时几分钟到几十分钟。核心从「找到答案」变成「规划、综合、核查」。

Q：Deep Research 用单 Agent 还是多 Agent？ 都有。单 Agent 长循环简单、上下文连贯但慢；多 Agent（主 Agent 派发子主题给并行的研究子 Agent）能加速并隔离上下文，但协调和结果整合更复杂、更费 token。子主题相对独立时多 Agent 优势明显。

Q：怎么保证研究报告的可信度？ 多来源交叉验证、识别权威来源、对冲突信息保持谨慎、每个论断标注引用（可溯源），最后人工抽查关键结论。引用溯源是核心——没有出处的长报告无法被信任。

Q：为什么领先的研究 Agent 要用强化学习训练，而不只是 prompt 编排？ 纯 prompt 编排的 Agent 在长程任务上行为不够稳健（规划、何时停止搜索、如何综合都靠提示硬调）；用端到端 RL 在「最终是否找到并正确综合了信息」上给奖励，能让模型学到更好的研究策略和停止判断。详见 Agentic RL。

Q：Deep Research 的主要工程瓶颈？ 上下文爆炸（海量中间材料，要靠外部笔记+压缩管理）、成本时延（几十次检索+长文生成）、来源质量（搜到差来源就系统性带偏）、幻觉在长报告里更隐蔽。这些决定了它适合「初稿/调研加速」，关键结论仍需人核。

深度研究 Agent（Deep Research） ​

一、它解决什么问题？ ​

二、典型工作流 ​

三、两种实现架构 ​

单 Agent 迭代 ​

多 Agent 编排（Orchestrator-Workers） ​

四、关键技术点 ​

五、局限与风险 ​

高频追问 ​