Agent 评估与可靠性工程

「能跑通 demo」和「能上生产」之间，隔着评估与可靠性。本文讲清 Agent 为什么难评、结果评估 vs 轨迹评估两条主线、主流 Agent 基准（GAIA / SWE-bench / τ-bench 等）、用 LLM-as-Judge 评 Agent，以及生产环境的失败模式、护栏与可观测性。Agent 基础见 Agent 基础与框架，多 Agent 见多 Agent 与进阶范式，与工作流的边界见 AI 工作流 vs Agent。

2026 面试先背这几句话

Agent 评估不能只看最终答案，要同时看 Outcome（结果）/ Trajectory（轨迹）/ Cost（成本）/ Safety（安全）。
工具调用 Agent 的核心评估项是：该不该调、调哪个、参数对不对、顺序合不合理、失败后是否恢复。
生产可观测不是简单打日志，而是把 LLM 调用、工具调用、检索、记忆、用户反馈串成 trace，才能复盘一次任务为什么失败。
LangSmith、Langfuse、Arize Phoenix、W&B Weave 这类平台常用于 trace、dataset、prompt 版本、在线反馈和离线回归。
上线标准不是「demo 成功率高」，而是有黄金集、回归门禁、线上 bad case 回流、成本预算和降级策略。

一、为什么 Agent 特别难评估

传统 LLM 评估面对的是「一问一答」，而 Agent 是多步、有状态、带副作用的系统，难点叠加：

路径不唯一：达成同一目标可以有多条正确轨迹，不能简单和「标准答案」做字符串匹配。
过程也要管：最终答案对，但中途调用了危险工具、绕了 20 步、烧了大量 token，也是失败。
误差会累积：每步 95% 正确，10 步连乘只剩约 60%（$0.95^{10}\approx0.60$）。单步指标好看，整体可能很差。
环境有副作用：调用了真实 API（下单、发邮件、改数据库），评估需要沙箱与可回滚。
不确定性：温度、工具返回、外部状态都会让同一输入产生不同轨迹，评估必须考虑方差。

一句话：Agent 评估 = 结果对不对（Outcome） + 过程好不好（Trajectory） + 代价划不划算（Cost/Steps/Latency）。

更完整的面试框架可以答成四象限：

维度	问题	指标示例
Outcome	任务最终完成了吗	success rate、pass@1、最终状态校验
Trajectory	过程是否合理	工具准确率、参数准确率、步数、冗余调用
Cost	值不值得	token 成本、工具成本、P95 延迟、重试次数
Safety	有没有越权/副作用	高危工具调用率、HITL 命中率、权限拒绝率

这套框架很适合回答「你如何判断一个 Agent 能不能上线」。

二、两条评估主线：结果评估 vs 轨迹评估

2.1 结果评估（Outcome / End-to-End）

只看最终状态是否达成目标，不关心怎么走到的。

形式：最终答案匹配、最终环境状态校验（DB 里是否真的插入了那条记录）、单元测试是否通过（代码类任务）。
优点：客观、贴近业务价值、可自动判定。
缺点：黑盒，失败时不知道哪一步崩了；对「蒙对」无能为力。

2.2 轨迹评估（Trajectory / Step-level）

检查 Agent 走过的完整动作序列（thought → action → observation）。常见判定口径：

口径	含义	适用
精确匹配（exact match）	工具调用序列与参考完全一致	强约束、确定性流程
顺序匹配（in-order）	包含参考动作且顺序正确，允许多余步	多数场景
任意序匹配（any-order）	包含参考动作即可，不看顺序	子任务可并行/换序
精度/召回（precision/recall）	用了不该用的工具 → 精度低；漏了必要工具 → 召回低	工具选择评估

可量化的轨迹指标：

工具选择准确率：该不该调这个工具。
参数准确率：工具选对了，但参数填错同样失败（面试常考点）。
步数 / 冗余动作数：完成任务用了几步，多少是无效绕路。
完成率（success rate）与首次通过率（pass@1）。

2.3 工具调用专项指标

Agent 岗位经常追问 Function Calling 怎么评，可以拆成更细：

指标	看什么	例子
Trigger Accuracy	该调用工具时是否调用，不该调用时是否克制	问实时库存必须查库，闲聊不查库
Tool Selection Accuracy	工具是否选对	退款走 `refund_order`，不是 `search_orders`
Argument Accuracy	参数槽位是否正确	`order_id`、日期、枚举状态填对
Dependency Correctness	调用依赖是否正确	先查 customer_id，再查订单
Recovery Rate	工具失败后能否修正	参数缺失时追问或重试
Side-effect Safety	写操作是否受控	删除/付款前是否确认

轨迹评估的关键不是要求路径完全一致，而是检查必要动作是否发生、危险动作是否没有发生、成本是否在预算内。

三、主流 Agent 评估基准

基准	方向	特点
GAIA	通用助手	真实世界问题，需多步推理+工具+检索；人类易、模型难
SWE-bench / Verified	软件工程	真实 GitHub issue，改完代码跑测试判定，Coding Agent 黄金标准
τ-bench（tau-bench）	工具+用户交互	模拟用户多轮对话（零售/航空域），考策略遵循与一致性
WebArena	网页操作	可复现的真实网站环境，评估浏览器 Agent
BFCL	函数调用	Berkeley Function-Calling Leaderboard，专评工具调用准确性
AgentBench	多环境	跨 OS、DB、知识图谱、网购等 8 类环境综合评测

面试可答：通用看 GAIA、代码看 SWE-bench Verified、工具调用看 BFCL、对话型任务看 τ-bench。

公开基准只能说明模型/框架的一般能力，不能替代业务评估。真实项目通常要自建三类数据集：

Golden Set：核心高频任务，稳定回归用。
Adversarial Set：越权、注入、缺参、模糊指令、工具异常等坑位。
Regression Set：线上失败 case 回灌，防止同类问题复发。

数据集里不要只存用户问题，还要存期望结果、允许/禁止的工具、关键参数、最大步数、成本预算和安全约束。

四、用 LLM-as-Judge 评 Agent

当没有标准答案（开放任务、轨迹合理性），用更强的模型当裁判：

打分对象：最终答案质量、轨迹合理性（每步是否必要）、是否遵循约束。
形式：单点打分（rubric 评分）、成对比较（A/B 更优）、参考答案对照。
已知偏差（必背）：位置偏好、长度偏好、自我偏好（偏向同家族模型输出）、打分不稳定。
缓解：固定 rubric + few-shot 锚点、成对比较代替绝对分、交换位置取平均、多次采样投票、关键场景人审兜底。

详见模型评估与幻觉与评测基准深入。

一个可复用的 Judge Rubric 示例：

text

请从 1-5 分评估该 Agent 轨迹：
1. 是否完成用户目标；
2. 是否只使用必要工具；
3. 工具参数是否正确；
4. 是否遵守权限和安全约束；
5. 是否在合理步数和成本内完成。
如果任一高危工具未确认即执行，最高只能给 2 分。
输出 JSON：{score, pass, reasons, failure_type}

生产里最好让 Judge 输出结构化结果，便于统计 failure_type，而不是只给自然语言点评。

五、生产中的典型失败模式

失败模式	表现	触发原因
死循环 / 兜圈	反复调同一工具、来回横跳	缺终止条件、观察没被利用
错误传播（cascading）	第一步小错被后续步骤放大	无中途校验、无反思纠错
幻觉工具 / 幻觉参数	调用不存在的工具或编造参数	工具描述不清、schema 约束弱
上下文溢出	多步后历史撑爆窗口、信息丢失	没做记忆/摘要管理
过早终止	任务没完成就宣布成功	完成判定过松
卡死	等外部响应或纠结不动	无超时、无最大步数
成本失控	简单任务多轮调用大模型/工具	无成本预算、无路由
记忆污染	旧偏好或错误记忆影响当前任务	无冲突更新、无时效
权限漂移	Agent 查到不该看的数据	检索/工具缺租户过滤

应对依赖 Agent 记忆系统与上下文工程的配合。

六、可靠性工程：护栏与回退

把 Agent 当成「不可靠的分布式系统」来加固：

硬上限：最大步数 / 最大 token / 最大耗时，超限即停并回退。
超时与重试：工具调用设超时，失败按指数退避重试，区分可重试错误与终止错误。
断路器（circuit breaker）：某工具连续失败则熔断，避免雪崩。
输入/输出校验：用 JSON Schema / 结构化输出约束工具参数与返回（见结构化输出详解）。
护栏（guardrails）：输入侧拦注入与越权（见提示注入与越狱攻防），输出侧拦敏感/有害内容。
人在回路（HITL）：高风险动作（付款、删除、对外发送）必须人工确认后执行。
权限最小化 + 沙箱：工具按需授权，写操作隔离、可回滚、可审计。
确定性兜底：关键路径优先用工作流而非自由 Agent（能写死就别让模型决定，见 AI 工作流 vs Agent）。
成本预算：按任务类型设置最大 LLM 调用次数、最大工具次数和最大 token，超预算就降级或转人工。
模型路由：简单分类、格式化、摘要用小模型，复杂规划/裁判用强模型，避免所有节点都上最贵模型。

可靠性设计的面试模板

如果面试官问「怎么把 Agent 从 demo 做到生产」，可以这样答：

把自由度收窄：关键业务流程用工作流，只有不确定子任务交给 Agent。
把动作结构化：工具 schema、状态机、完成条件、错误码都结构化。
把风险隔离：只读和写操作分离，高危动作 HITL，工具权限最小化。
把失败可恢复：超时、重试、熔断、降级、回滚、最大步数。
把质量可度量：黄金集回归 + trace + 线上反馈 + bad case 飞轮。

七、可观测性（Observability）

没有 trace 就没法调 Agent。生产必备：

链路追踪（tracing）：把每次 LLM 调用、工具调用记录为带父子关系的 span，完整还原一次任务的「思考-行动-观察」树。
关键指标：成功率、平均步数、P95 延迟、每任务 token 成本、工具调用失败率、人工接管率。
工具：LangSmith、Langfuse、Arize Phoenix、W&B Weave；标准上关注 OpenTelemetry GenAI 语义约定。
回放与离线评估：把线上失败轨迹沉淀成评估集，回归测试每次 prompt/模型变更（建立「数据飞轮」，见 LLMOps 生产运营）。

Trace 里应该记录什么

Span	关键字段
LLM Call	model、prompt_version、input/output token、latency、temperature、finish_reason
Tool Call	tool_name、arguments 摘要、status、error_code、latency、retry_count
Retrieval	query、top_k、命中文档、score、rerank 分数
Memory	候选记忆、注入记忆、过滤原因、记忆版本
Judge/Eval	rubric_version、score、failure_type、是否通过

没有这些字段，线上「用户说 Agent 又乱了」时只能猜。有了 trace，才能回答：是模型规划错、工具参数错、检索没召回、记忆污染，还是外部 API 抖动。

LangSmith / Langfuse / Arize 怎么讲

面试不需要背产品细节，但要知道它们解决的问题：

Trace：记录多轮 LLM、工具、检索、记忆调用链路。
Dataset：把线上样本沉淀成评估集。
Evaluation：对 prompt、模型、RAG/Agent 版本跑离线回归。
Monitoring：看延迟、成本、错误率、质量分、用户反馈趋势。
Debugging：回放失败轨迹，对比不同版本输出。

一句话：可观测平台把 Agent 从「玄学调 prompt」变成「有数据的工程系统」。

八、落地建议（最小可用评估闭环）

先建 20~50 条黄金任务集，覆盖核心场景 + 已知坑。
同时记录结果指标（成功率）和轨迹指标（步数、工具准确率、成本）。
自动判定为主（单测/状态校验/规则），LLM-as-Judge 补开放题，关键场景人审。
每次改 prompt / 换模型 / 调工具，都跑这套集做回归，多次采样看均值和方差。
线上失败案例持续回灌评估集，形成飞轮。

可以把上线门禁写得更硬：

门禁	示例
质量	Golden Set success rate ≥ 90%，关键场景 100%
安全	高危写操作未确认执行 = 0
成本	P95 单任务成本低于预算
稳定	P95 延迟、超时率、工具错误率达标
回归	新版本不得显著劣化旧版本核心指标

高频追问

Agent 评估为什么不能只看最终答案？ 路径不唯一、会蒙对、且过程可能调用危险工具或代价过高；必须结果+轨迹+代价三看。
轨迹评估有哪些口径？ 精确匹配 / 顺序匹配 / 任意序匹配 / 精度召回；还要看工具选择与参数准确率、步数。
单步 95% 正确，10 步整体成功率多少？ 约 $0.95^{10}\approx60%$，说明 Agent 要做中途校验和反思纠错来抑制误差传播。
评 Coding Agent / 通用 Agent / 工具调用分别用什么基准？ SWE-bench Verified / GAIA / BFCL；对话型任务用 τ-bench。
LLM-as-Judge 评 Agent 有什么坑？怎么缓解？ 位置/长度/自我偏好、打分不稳；用成对比较、交换位置、rubric 锚点、多次投票、人审兜底。
生产 Agent 常见失败模式与对策？ 死循环（最大步数）、错误传播（中途校验+反思）、幻觉工具（schema 约束）、上下文溢出（记忆/摘要）、卡死（超时熔断）。
高风险动作怎么保证安全？ 人在回路确认 + 权限最小化 + 沙箱可回滚 + 审计日志；能用确定性工作流就别交给自由 Agent。
怎么持续提升 Agent 质量？ 黄金任务集 + 线上失败回灌 + 每次变更跑回归 + 可观测追踪，建立评估数据飞轮。
LangSmith/Langfuse/Arize 这类工具在 Agent 里做什么？ 做 tracing、dataset、evaluation、monitoring 和 debugging，把 LLM 调用、工具调用、检索、记忆、成本串起来，支持失败回放和版本对比。
如何控制 Agent 成本？ 设任务预算、模型路由、小模型处理简单节点、缓存、限制最大步数和输出长度、减少无效工具调用，并把 token/工具成本纳入评估指标。
怎么判断 Agent 应该用工作流还是自由规划？ 高确定性、高风险、强合规流程用工作流；开放探索、信息收集、多路径问题再用 Agent。生产里常见是工作流包 Agent，而不是全自由 Agent。

Agent 评估与可靠性工程 ​

2026 面试先背这几句话 ​

一、为什么 Agent 特别难评估 ​

二、两条评估主线：结果评估 vs 轨迹评估 ​

2.1 结果评估（Outcome / End-to-End） ​

2.2 轨迹评估（Trajectory / Step-level） ​

2.3 工具调用专项指标 ​

三、主流 Agent 评估基准 ​

四、用 LLM-as-Judge 评 Agent ​

五、生产中的典型失败模式 ​

六、可靠性工程：护栏与回退 ​

可靠性设计的面试模板 ​

七、可观测性（Observability） ​

Trace 里应该记录什么 ​

LangSmith / Langfuse / Arize 怎么讲 ​

八、落地建议（最小可用评估闭环） ​

高频追问 ​