Skip to content

深度研究 Agent(Deep Research)

「Deep Research」是 2025 年走红的一类 Agent 产品:给一个研究问题,Agent 自主上网搜索几十上百个来源、交叉验证、综合成一份带引用的长报告。它把「检索 + 多步推理 + 长文写作」端到端串起来,是 Agent 落地最成功的形态之一。基础范式见 Agent 基础,检索见 Agentic RAG

一、它解决什么问题?

普通聊天问答是「一问一答」;深度研究是「给我把这个主题查清楚、写成报告」。区别:

普通 RAG 问答Deep Research
检索一次/少数几次几十到上百次,迭代展开
来源内部知识库开放网络 + 多源
输出简短答案结构化长报告(带引用)
耗时秒级几分钟到几十分钟
核心找到答案规划 + 综合 + 核查

二、典型工作流

研究问题

① 规划:拆解成子问题 / 研究大纲

② 迭代检索:对每个子问题上网搜索 → 阅读 → 发现新线索 → 再搜(多跳)

③ 交叉验证:多来源比对,识别冲突与可信度

④ 综合写作:把发现组织成结构化报告

⑤ 引用溯源:每个论断标注来源

核心是 plan → search → read → reflect → search more → synthesize 的循环,本质是把 Agentic RAG 的「规划 + 多跳 + 反思」放大到「整篇报告」的尺度,并用浏览器/搜索工具(见 Computer Use 与浏览器 Agent)作为信息源。

三、两种实现架构

单 Agent 迭代

一个 Agent 在长循环里反复「搜索—阅读—记笔记—决定下一步」,用外部笔记/记忆(见 Agent 记忆)累积发现,最后汇总成文。简单、上下文连贯,但单线程、慢。

多 Agent 编排(Orchestrator-Workers)

一个主 Agent 规划并派发子主题给多个研究子 Agent 并行调研,各自返回发现,主 Agent 汇总成报告。

  • 优点:并行加速、每个子 Agent 上下文隔离(避免单上下文塞爆),见 多 Agent上下文工程 的 isolate。
  • 缺点:协调复杂、子任务划分和结果整合是难点、token 消耗大。

四、关键技术点

  • 上下文管理:研究会产生海量中间内容,必须靠「写外部笔记 + 按需读回 + 压缩」管理,否则上下文爆炸(见 上下文工程)。
  • 来源可信度:开放网络鱼龙混杂,要识别权威来源、交叉验证、对冲突信息谨慎处理——否则会把网上的错误/谣言当事实写进报告。
  • 引用溯源:每个论断挂来源是 Deep Research 的「信任基石」,也是与普通 LLM 长文生成的根本区别。
  • 训练:领先的研究 Agent 往往用端到端强化学习训练(在「能否找到正确信息并正确综合」上给奖励),而非纯 prompt 编排,见 Agentic RL

五、局限与风险

  • 幻觉的放大:长报告里夹杂少量编造或误读来源,不易察觉、危害更大——引用溯源 + 人工抽查必不可少。
  • 来源偏差:检索到的内容质量决定报告质量,搜到偏颇/过时来源会系统性带偏结论。
  • 成本与时延:几十次检索 + 长文生成,单次研究成本和耗时远高于普通问答。
  • 不能替代专家判断:适合「快速收集、初步综合」,但关键结论仍需人核查,尤其医疗/法律/投资等高风险领域。

高频追问

Q:Deep Research 和普通 RAG 问答有什么区别? 普通 RAG 是「一次检索→一个简短答案」;Deep Research 是「多轮迭代检索(几十上百次)+ 多跳推理 + 交叉验证 + 综合成带引用的长报告」,耗时几分钟到几十分钟。核心从「找到答案」变成「规划、综合、核查」。

Q:Deep Research 用单 Agent 还是多 Agent? 都有。单 Agent 长循环简单、上下文连贯但慢;多 Agent(主 Agent 派发子主题给并行的研究子 Agent)能加速并隔离上下文,但协调和结果整合更复杂、更费 token。子主题相对独立时多 Agent 优势明显。

Q:怎么保证研究报告的可信度? 多来源交叉验证、识别权威来源、对冲突信息保持谨慎、每个论断标注引用(可溯源),最后人工抽查关键结论。引用溯源是核心——没有出处的长报告无法被信任。

Q:为什么领先的研究 Agent 要用强化学习训练,而不只是 prompt 编排? 纯 prompt 编排的 Agent 在长程任务上行为不够稳健(规划、何时停止搜索、如何综合都靠提示硬调);用端到端 RL 在「最终是否找到并正确综合了信息」上给奖励,能让模型学到更好的研究策略和停止判断。详见 Agentic RL

Q:Deep Research 的主要工程瓶颈? 上下文爆炸(海量中间材料,要靠外部笔记+压缩管理)、成本时延(几十次检索+长文生成)、来源质量(搜到差来源就系统性带偏)、幻觉在长报告里更隐蔽。这些决定了它适合「初稿/调研加速」,关键结论仍需人核。

基于 MIT 许可发布