介绍
# Gemini Computer Use
## 快速开始
1. 加载环境变量文件并设置您的 API 密钥:
```bash cp env.example env.sh $EDITOR env.sh source env.sh ```
2. 创建虚拟环境并安装依赖:
```bash python -m venv .venv source .venv/bin/activate pip install google-genai playwright playwright install chromium ```
3. 使用提示词运行代理脚本:
```bash python scripts/computer_use_agent.py \ --prompt "Find the latest blog post title on example.com" \ --start-url "https://example.com" \ --turn-limit 6 ```
## 浏览器选择
- 默认:Playwright 内置的 Chromium(无需设置环境变量)。 - 使用 `COMPUTER_USE_BROWSER_CHANNEL` 选择渠道(Chrome/Edge)。 - 使用 `COMPUTER_USE_BROWSER_EXECUTABLE` 指定自定义的基于 Chromium 的可执行文件(例如 Brave)。
如果两者都已设置,`COMPUTER_USE_BROWSER_EXECUTABLE` 优先。
## 核心工作流(代理循环)
1. 截取屏幕截图,并将用户目标和屏幕截图发送给模型。 2. 解析响应中的 `function_call` 动作。 3. 在 Playwright 中执行每个动作。 4. 如果 `safety_decision` 为 `require_confirmation`,则在执行前提示用户。 5. 发送包含最新 URL 和屏幕截图的 `function_response` 对象。 6. 重复上述步骤,直到模型仅返回文本(无动作)或达到轮次限制。
## 操作指南
- 在沙盒化的浏览器配置文件或容器中运行。 - 使用 `--exclude` 阻止您不希望模型执行的风险动作。 - 除非您有更改的理由,否则请将视口保持在 1440x900。
## 资源
- 脚本:`scripts/computer_use_agent.py` - 参考笔记:`references/google-computer-use.md` - 环境变量模板:`env.example`