ClawSkills logoClawSkills

Vision Sandbox

通过 Gemini 原生代码执行沙箱实现的智能体视觉功能。用于空间定位、视觉数学和 UI 审计。

介绍

# Vision Sandbox 🔭

利用 Gemini 原生的代码执行能力高精度地分析图像。模型会在 Google 托管的沙箱中编写并运行 Python 代码以验证视觉数据,非常适合 UI 审查、空间定位和视觉推理。

## 安装

```bash clawhub install vision-sandbox ```

## 用法

```bash uv run vision-sandbox --image "path/to/image.png" --prompt "Identify all buttons and provide [x, y] coordinates." ```

## 模式库

### 📍 空间定位

要求模型查找特定项目并返回坐标。

* **提示词:** “在此截图中定位‘提交’(Submit)按钮。使用代码执行来验证其中心点,并以 [0, 1000] 的比例返回 [x, y] 坐标。”

### 🧮 视觉数学

要求模型根据图像进行计数或计算。

* **提示词:** “统计列表中的项目数量。如果能看到价格,请使用 Python 对它们的值求和。”

### 🖥️ UI 审查

检查布局和可读性。

* **提示词:** “检查标题文本是否与任何图标重叠。使用沙箱计算边界框的交集。”

### 🖐️ 计数与逻辑

通过代码验证解决视觉计数任务。

* **提示词:** “统计这只手上的手指数量。使用代码执行识别每个手指的边界框并返回总数。”

## 与 OpenCode 集成

此技能旨在为像 OpenCode 这样的自动化编码代理提供**视觉定位**。

- **步骤 1:** 使用 `vision-sandbox` 提取 UI 元数据(坐标、尺寸、颜色)。 - **步骤 2:** 将 JSON 输出传递给 OpenCode,以生成或修复 CSS/HTML。

## 配置

- **GEMINI_API_KEY**:必需的环境变量。 - **模型**:默认为 `gemini-3-flash-preview`。

更多产品