Gemini Computer Use

介绍

# Gemini Computer Use

## 快速开始

1. 加载环境变量文件并设置您的 API 密钥：

```bash cp env.example env.sh $EDITOR env.sh source env.sh ```

2. 创建虚拟环境并安装依赖：

```bash python -m venv .venv source .venv/bin/activate pip install google-genai playwright playwright install chromium ```

3. 使用提示词运行代理脚本：

```bash python scripts/computer_use_agent.py \ --prompt "Find the latest blog post title on example.com" \ --start-url "https://example.com" \ --turn-limit 6 ```

## 浏览器选择

- 默认：Playwright 内置的 Chromium（无需设置环境变量）。 - 使用 `COMPUTER_USE_BROWSER_CHANNEL` 选择渠道（Chrome/Edge）。 - 使用 `COMPUTER_USE_BROWSER_EXECUTABLE` 指定自定义的基于 Chromium 的可执行文件（例如 Brave）。

如果两者都已设置，`COMPUTER_USE_BROWSER_EXECUTABLE` 优先。

## 核心工作流（代理循环）

1. 截取屏幕截图，并将用户目标和屏幕截图发送给模型。 2. 解析响应中的 `function_call` 动作。 3. 在 Playwright 中执行每个动作。 4. 如果 `safety_decision` 为 `require_confirmation`，则在执行前提示用户。 5. 发送包含最新 URL 和屏幕截图的 `function_response` 对象。 6. 重复上述步骤，直到模型仅返回文本（无动作）或达到轮次限制。

## 操作指南

- 在沙盒化的浏览器配置文件或容器中运行。 - 使用 `--exclude` 阻止您不希望模型执行的风险动作。 - 除非您有更改的理由，否则请将视口保持在 1440x900。

## 资源

- 脚本：`scripts/computer_use_agent.py` - 参考笔记：`references/google-computer-use.md` - 环境变量模板：`env.example`

介绍

更多产品

Agent Browser

Brave Search

Desktop Control