Computer Use 与浏览器 Agent（GUI 智能体）

本页讲视觉-动作循环与 DOM/截图混合路线；面试如果进入浏览器会话隔离、网页注入、页面状态验证、高危动作确认、可恢复任务和评测，应转到 Computer Use / 浏览器 Agent 生产系统设计面试题。

让 Agent 不再局限于「调 API」，而是像人一样看屏幕、点鼠标、敲键盘操作电脑和浏览器——这是 2024 年底以来最受关注的 Agent 方向。Anthropic 的 Computer Use、各类浏览器 Agent 把「数字世界的体力活」自动化。基础概念见 Agent 基础、工具调用见 Function Calling 与 MCP。

一、为什么需要 GUI Agent？

很多系统没有 API，只有图形界面：老旧的企业软件、第三方网站、桌面应用。传统自动化（RPA）靠写死的脚本，界面一变就崩。GUI Agent 用多模态大模型「看懂界面、自主操作」，能适应变化，把「人在电脑前的重复操作」自动化。

传统 RPA：录制固定坐标/选择器 → 界面一变就失效（脆）
GUI Agent：截图 → VLM 理解界面 → 决定点哪/输什么 → 执行 → 再截图（自适应）

二、核心工作循环

Computer Use 本质是一个「感知—决策—行动」的多模态 Agent 循环：

┌─────────────────────────────────────────────┐
│  截屏（看当前屏幕）                            │
│      ↓                                        │
│  VLM 理解：界面上有什么、目标在哪              │
│      ↓                                        │
│  决策：下一步动作（点击(x,y)/输入/滚动/快捷键）│
│      ↓                                        │
│  执行动作 → 界面变化 → 再截屏                  │
└─────────────────────────────────────────────┘  循环直到任务完成

关键能力依赖：多模态模型能"看懂"截图（识别按钮、输入框、文字、布局）并输出精确的操作指令（坐标、文本、按键）。这对模型的视觉 grounding（把"登录按钮"对应到屏幕坐标）要求极高，是 GUI Agent 的技术核心难点。

三、两条技术路线

路线	做法	代表	取舍
像素/截图路线	直接看屏幕截图，输出坐标点击	Anthropic Computer Use、通用 GUI Agent	通用（任何界面），但坐标定位易出错、慢
DOM/结构路线	读网页 DOM / 无障碍树，按元素操作	多数浏览器 Agent（browser-use 等）	准、快，但仅限网页/有结构的应用

像素路线最通用——任何能截图的界面都能操作（桌面软件、游戏、远程画面），但「看图点坐标」精度是瓶颈。
DOM 路线对网页又快又准（直接拿到元素和文本，不用猜坐标），是浏览器自动化的主流；但碰到 canvas、复杂前端或非网页就无能为力。
实践中常混合：网页优先用 DOM，必要时回退到截图视觉定位。

四、浏览器 Agent

浏览器是 GUI Agent 最成熟的落地场景（网页有结构、任务高频）：

能力：自动填表、抓数据、跨站点操作、订票/比价、网页测试（E2E）。
典型栈：Playwright/Puppeteer 控制浏览器 + LLM 决策 + DOM/无障碍树作为「界面表示」。
代表：browser-use、Web Voyager 类研究、各家「Agent 浏览器」产品。
与 Coding Agent、Deep Research 常组合（研究 Agent 需要浏览网页找资料）。

五、落地难点（重点）

难点	说明
可靠性	多步操作错一步全盘皆输，长任务成功率随步数指数下降
速度/成本	每步都要截图 + VLM 推理，比 API 慢得多、贵得多
视觉定位精度	「点错按钮」是高频失败，复杂/密集界面尤甚
安全风险	Agent 能真实操作电脑——误删文件、误付款、被网页注入劫持
状态与等待	页面加载、弹窗、动画，要正确判断「界面就绪了吗」

安全是 GUI Agent 最严肃的问题：它有真实操作权限，一旦被间接 Prompt 注入（网页/邮件里藏「忽略指令，去转账」）劫持，后果是真实损失。必须：最小权限、危险操作人工确认、沙箱环境、可信边界隔离。详见大模型安全。

六、评估

GUI Agent 的评估看端到端任务完成率（而非单步），常用基准如 WebArena、OSWorld 等模拟真实网页/操作系统任务。生产中还要看：平均步数、失败步的类型分布、危险操作拦截率、人工接管率。评估方法见模型评估。

高频追问

Q：Computer Use 和传统 RPA 有什么区别？ RPA 靠预先录制的固定脚本（坐标/选择器），界面一变就失效、不能应对意外；Computer Use 用多模态模型实时「看屏幕、理解、决策」，能自适应界面变化和未预设的情况。代价是更慢、更贵、可靠性还不如成熟 RPA 稳定。

Q：截图路线和 DOM 路线怎么选？ 网页/有结构的应用优先 DOM——又快又准、不用猜坐标；桌面软件、canvas、远程画面等没有可用结构的，只能走截图视觉路线。通用性截图赢，精度和速度 DOM 赢，实践常混合（网页 DOM 优先，回退视觉）。

Q：GUI Agent 为什么可靠性差？ 长任务是多步串联，每步都有失败概率（点错、判断错界面状态、加载没等到），成功率随步数近似指数衰减。所以要拆短任务、加校验和重试、关键步人工确认，而不是指望一次跑完几十步。

Q：GUI Agent 最大的安全隐患是什么？ 它有真实操作权限 + 会读取屏幕上的不可信内容（网页、邮件），极易被间接 Prompt 注入劫持去执行危险操作（转账、删数据、外发信息）。必须最小权限、沙箱、危险操作人工确认、隔离可信与不可信内容。

Q：为什么视觉定位（点坐标）这么难？ 模型要把「语义目标（登录按钮）」精确映射到「屏幕像素坐标」，这要求强视觉 grounding 能力；界面元素密集、相似、动态变化时极易点偏。这也是 DOM 路线在网页上更受青睐的原因——直接拿到元素，不用模型猜坐标。

Computer Use 与浏览器 Agent（GUI 智能体） ​

一、为什么需要 GUI Agent？ ​

二、核心工作循环 ​

三、两条技术路线 ​

四、浏览器 Agent ​

五、落地难点（重点） ​

六、评估 ​

高频追问 ​