Computer Use 与浏览器 Agent(GUI 智能体)
让 Agent 不再局限于「调 API」,而是像人一样看屏幕、点鼠标、敲键盘操作电脑和浏览器——这是 2024 年底以来最受关注的 Agent 方向。Anthropic 的 Computer Use、各类浏览器 Agent 把「数字世界的体力活」自动化。基础概念见 Agent 基础、工具调用见 Function Calling 与 MCP。
一、为什么需要 GUI Agent?
很多系统没有 API,只有图形界面:老旧的企业软件、第三方网站、桌面应用。传统自动化(RPA)靠写死的脚本,界面一变就崩。GUI Agent 用多模态大模型「看懂界面、自主操作」,能适应变化,把「人在电脑前的重复操作」自动化。
传统 RPA:录制固定坐标/选择器 → 界面一变就失效(脆)
GUI Agent:截图 → VLM 理解界面 → 决定点哪/输什么 → 执行 → 再截图(自适应)二、核心工作循环
Computer Use 本质是一个「感知—决策—行动」的多模态 Agent 循环:
┌─────────────────────────────────────────────┐
│ 截屏(看当前屏幕) │
│ ↓ │
│ VLM 理解:界面上有什么、目标在哪 │
│ ↓ │
│ 决策:下一步动作(点击(x,y)/输入/滚动/快捷键)│
│ ↓ │
│ 执行动作 → 界面变化 → 再截屏 │
└─────────────────────────────────────────────┘ 循环直到任务完成关键能力依赖:多模态模型能"看懂"截图(识别按钮、输入框、文字、布局)并输出精确的操作指令(坐标、文本、按键)。这对模型的视觉 grounding(把"登录按钮"对应到屏幕坐标)要求极高,是 GUI Agent 的技术核心难点。
三、两条技术路线
| 路线 | 做法 | 代表 | 取舍 |
|---|---|---|---|
| 像素/截图路线 | 直接看屏幕截图,输出坐标点击 | Anthropic Computer Use、通用 GUI Agent | 通用(任何界面),但坐标定位易出错、慢 |
| DOM/结构路线 | 读网页 DOM / 无障碍树,按元素操作 | 多数浏览器 Agent(browser-use 等) | 准、快,但仅限网页/有结构的应用 |
- 像素路线最通用——任何能截图的界面都能操作(桌面软件、游戏、远程画面),但「看图点坐标」精度是瓶颈。
- DOM 路线对网页又快又准(直接拿到元素和文本,不用猜坐标),是浏览器自动化的主流;但碰到 canvas、复杂前端或非网页就无能为力。
- 实践中常混合:网页优先用 DOM,必要时回退到截图视觉定位。
四、浏览器 Agent
浏览器是 GUI Agent 最成熟的落地场景(网页有结构、任务高频):
- 能力:自动填表、抓数据、跨站点操作、订票/比价、网页测试(E2E)。
- 典型栈:Playwright/Puppeteer 控制浏览器 + LLM 决策 + DOM/无障碍树作为「界面表示」。
- 代表:browser-use、Web Voyager 类研究、各家「Agent 浏览器」产品。
- 与 Coding Agent、Deep Research 常组合(研究 Agent 需要浏览网页找资料)。
五、落地难点(重点)
| 难点 | 说明 |
|---|---|
| 可靠性 | 多步操作错一步全盘皆输,长任务成功率随步数指数下降 |
| 速度/成本 | 每步都要截图 + VLM 推理,比 API 慢得多、贵得多 |
| 视觉定位精度 | 「点错按钮」是高频失败,复杂/密集界面尤甚 |
| 安全风险 | Agent 能真实操作电脑——误删文件、误付款、被网页注入劫持 |
| 状态与等待 | 页面加载、弹窗、动画,要正确判断「界面就绪了吗」 |
安全是 GUI Agent 最严肃的问题:它有真实操作权限,一旦被间接 Prompt 注入(网页/邮件里藏「忽略指令,去转账」)劫持,后果是真实损失。必须:最小权限、危险操作人工确认、沙箱环境、可信边界隔离。详见 大模型安全。
六、评估
GUI Agent 的评估看端到端任务完成率(而非单步),常用基准如 WebArena、OSWorld 等模拟真实网页/操作系统任务。生产中还要看:平均步数、失败步的类型分布、危险操作拦截率、人工接管率。评估方法见 模型评估。
高频追问
Q:Computer Use 和传统 RPA 有什么区别? RPA 靠预先录制的固定脚本(坐标/选择器),界面一变就失效、不能应对意外;Computer Use 用多模态模型实时「看屏幕、理解、决策」,能自适应界面变化和未预设的情况。代价是更慢、更贵、可靠性还不如成熟 RPA 稳定。
Q:截图路线和 DOM 路线怎么选? 网页/有结构的应用优先 DOM——又快又准、不用猜坐标;桌面软件、canvas、远程画面等没有可用结构的,只能走截图视觉路线。通用性截图赢,精度和速度 DOM 赢,实践常混合(网页 DOM 优先,回退视觉)。
Q:GUI Agent 为什么可靠性差? 长任务是多步串联,每步都有失败概率(点错、判断错界面状态、加载没等到),成功率随步数近似指数衰减。所以要拆短任务、加校验和重试、关键步人工确认,而不是指望一次跑完几十步。
Q:GUI Agent 最大的安全隐患是什么? 它有真实操作权限 + 会读取屏幕上的不可信内容(网页、邮件),极易被间接 Prompt 注入劫持去执行危险操作(转账、删数据、外发信息)。必须最小权限、沙箱、危险操作人工确认、隔离可信与不可信内容。
Q:为什么视觉定位(点坐标)这么难? 模型要把「语义目标(登录按钮)」精确映射到「屏幕像素坐标」,这要求强视觉 grounding 能力;界面元素密集、相似、动态变化时极易点偏。这也是 DOM 路线在网页上更受青睐的原因——直接拿到元素,不用模型猜坐标。