跳到主要内容

浏览器 / 手机 / 电脑自动化

当任务需要「操作界面」而不只是读数据时,智能体可以驱动浏览器、手机或电脑。

浏览器(browser_*)

在云端无头浏览器(Chromium)里操作网页:

工具作用
browser_navigate打开网址
browser_click / browser_type点击 / 输入
browser_screenshot截图(作为 artifact)
browser_read_dom / browser_accessibility读取页面结构
browser_download / browser_downloads下载与查看下载

适用:登录某网站后抓取信息、填表、走一个网页流程。

手机操作(mobile_use)

用自然语言驱动移动设备/App,返回结构化的执行结果(状态/摘要/步骤),而非裸设备句柄。

电脑操作(computer_use)

用自然语言驱动桌面电脑,是手机操作的桌面对应物,同样返回结构化结果。

注意

  • 设备/界面操作属外部动作,默认先请你确认再执行。
  • 手机/电脑操作需要相应的设备或云端实例已配置;未配置时该能力不会出现,避免给出坏工具。
  • 这些工具返回的是逻辑会话标识与步骤摘要,不会暴露底层连接句柄或本地路径。