ClawSkills logoClawSkills

Gemini Computer Use

使用 Playwright 构建和运行 Gemini 2.5 Computer Use 浏览器控制智能体。当用户想要通过 Gemini Computer Use 模式自动化网页浏览器任务时使用

介绍

# Gemini Computer Use

## 快速开始

1. 加载环境变量文件并设置您的 API 密钥:

```bash cp env.example env.sh $EDITOR env.sh source env.sh ```

2. 创建虚拟环境并安装依赖:

```bash python -m venv .venv source .venv/bin/activate pip install google-genai playwright playwright install chromium ```

3. 使用提示词运行代理脚本:

```bash python scripts/computer_use_agent.py \ --prompt "Find the latest blog post title on example.com" \ --start-url "https://example.com" \ --turn-limit 6 ```

## 浏览器选择

- 默认:Playwright 内置的 Chromium(无需设置环境变量)。 - 使用 `COMPUTER_USE_BROWSER_CHANNEL` 选择渠道(Chrome/Edge)。 - 使用 `COMPUTER_USE_BROWSER_EXECUTABLE` 指定自定义的基于 Chromium 的可执行文件(例如 Brave)。

如果两者都已设置,`COMPUTER_USE_BROWSER_EXECUTABLE` 优先。

## 核心工作流(代理循环)

1. 截取屏幕截图,并将用户目标和屏幕截图发送给模型。 2. 解析响应中的 `function_call` 动作。 3. 在 Playwright 中执行每个动作。 4. 如果 `safety_decision` 为 `require_confirmation`,则在执行前提示用户。 5. 发送包含最新 URL 和屏幕截图的 `function_response` 对象。 6. 重复上述步骤,直到模型仅返回文本(无动作)或达到轮次限制。

## 操作指南

- 在沙盒化的浏览器配置文件或容器中运行。 - 使用 `--exclude` 阻止您不希望模型执行的风险动作。 - 除非您有更改的理由,否则请将视口保持在 1440x900。

## 资源

- 脚本:`scripts/computer_use_agent.py` - 参考笔记:`references/google-computer-use.md` - 环境变量模板:`env.example`

更多产品