Skip to content

Computer Use 与浏览器 Agent(GUI 智能体)

让 Agent 不再局限于「调 API」,而是像人一样看屏幕、点鼠标、敲键盘操作电脑和浏览器——这是 2024 年底以来最受关注的 Agent 方向。Anthropic 的 Computer Use、各类浏览器 Agent 把「数字世界的体力活」自动化。基础概念见 Agent 基础、工具调用见 Function Calling 与 MCP

一、为什么需要 GUI Agent?

很多系统没有 API,只有图形界面:老旧的企业软件、第三方网站、桌面应用。传统自动化(RPA)靠写死的脚本,界面一变就崩。GUI Agent 用多模态大模型「看懂界面、自主操作」,能适应变化,把「人在电脑前的重复操作」自动化。

传统 RPA:录制固定坐标/选择器 → 界面一变就失效(脆)
GUI Agent:截图 → VLM 理解界面 → 决定点哪/输什么 → 执行 → 再截图(自适应)

二、核心工作循环

Computer Use 本质是一个「感知—决策—行动」的多模态 Agent 循环:

┌─────────────────────────────────────────────┐
│  截屏(看当前屏幕)                            │
│      ↓                                        │
│  VLM 理解:界面上有什么、目标在哪              │
│      ↓                                        │
│  决策:下一步动作(点击(x,y)/输入/滚动/快捷键)│
│      ↓                                        │
│  执行动作 → 界面变化 → 再截屏                  │
└─────────────────────────────────────────────┘  循环直到任务完成

关键能力依赖:多模态模型能"看懂"截图(识别按钮、输入框、文字、布局)并输出精确的操作指令(坐标、文本、按键)。这对模型的视觉 grounding(把"登录按钮"对应到屏幕坐标)要求极高,是 GUI Agent 的技术核心难点。

三、两条技术路线

路线做法代表取舍
像素/截图路线直接看屏幕截图,输出坐标点击Anthropic Computer Use、通用 GUI Agent通用(任何界面),但坐标定位易出错、慢
DOM/结构路线读网页 DOM / 无障碍树,按元素操作多数浏览器 Agent(browser-use 等)准、快,但仅限网页/有结构的应用
  • 像素路线最通用——任何能截图的界面都能操作(桌面软件、游戏、远程画面),但「看图点坐标」精度是瓶颈。
  • DOM 路线对网页又快又准(直接拿到元素和文本,不用猜坐标),是浏览器自动化的主流;但碰到 canvas、复杂前端或非网页就无能为力。
  • 实践中常混合:网页优先用 DOM,必要时回退到截图视觉定位。

四、浏览器 Agent

浏览器是 GUI Agent 最成熟的落地场景(网页有结构、任务高频):

  • 能力:自动填表、抓数据、跨站点操作、订票/比价、网页测试(E2E)。
  • 典型栈:Playwright/Puppeteer 控制浏览器 + LLM 决策 + DOM/无障碍树作为「界面表示」。
  • 代表:browser-use、Web Voyager 类研究、各家「Agent 浏览器」产品。
  • Coding AgentDeep Research 常组合(研究 Agent 需要浏览网页找资料)。

五、落地难点(重点)

难点说明
可靠性多步操作错一步全盘皆输,长任务成功率随步数指数下降
速度/成本每步都要截图 + VLM 推理,比 API 慢得多、贵得多
视觉定位精度「点错按钮」是高频失败,复杂/密集界面尤甚
安全风险Agent 能真实操作电脑——误删文件、误付款、被网页注入劫持
状态与等待页面加载、弹窗、动画,要正确判断「界面就绪了吗」

安全是 GUI Agent 最严肃的问题:它有真实操作权限,一旦被间接 Prompt 注入(网页/邮件里藏「忽略指令,去转账」)劫持,后果是真实损失。必须:最小权限、危险操作人工确认、沙箱环境、可信边界隔离。详见 大模型安全

六、评估

GUI Agent 的评估看端到端任务完成率(而非单步),常用基准如 WebArena、OSWorld 等模拟真实网页/操作系统任务。生产中还要看:平均步数、失败步的类型分布、危险操作拦截率、人工接管率。评估方法见 模型评估

高频追问

Q:Computer Use 和传统 RPA 有什么区别? RPA 靠预先录制的固定脚本(坐标/选择器),界面一变就失效、不能应对意外;Computer Use 用多模态模型实时「看屏幕、理解、决策」,能自适应界面变化和未预设的情况。代价是更慢、更贵、可靠性还不如成熟 RPA 稳定。

Q:截图路线和 DOM 路线怎么选? 网页/有结构的应用优先 DOM——又快又准、不用猜坐标;桌面软件、canvas、远程画面等没有可用结构的,只能走截图视觉路线。通用性截图赢,精度和速度 DOM 赢,实践常混合(网页 DOM 优先,回退视觉)。

Q:GUI Agent 为什么可靠性差? 长任务是多步串联,每步都有失败概率(点错、判断错界面状态、加载没等到),成功率随步数近似指数衰减。所以要拆短任务、加校验和重试、关键步人工确认,而不是指望一次跑完几十步。

Q:GUI Agent 最大的安全隐患是什么? 它有真实操作权限 + 会读取屏幕上的不可信内容(网页、邮件),极易被间接 Prompt 注入劫持去执行危险操作(转账、删数据、外发信息)。必须最小权限、沙箱、危险操作人工确认、隔离可信与不可信内容。

Q:为什么视觉定位(点坐标)这么难? 模型要把「语义目标(登录按钮)」精确映射到「屏幕像素坐标」,这要求强视觉 grounding 能力;界面元素密集、相似、动态变化时极易点偏。这也是 DOM 路线在网页上更受青睐的原因——直接拿到元素,不用模型猜坐标。

基于 MIT 许可发布