Chaos Lab

介绍

# Chaos Lab 🧪

**用于通过多智能体冲突研究 AI 对齐问题的研究框架。**

## 这是什么

Chaos Lab 生成具有冲突优化目标的 AI 智能体，并观察它们分析同一工作空间时会发生什么。这是一个实际演示，展示了出于善意但互不兼容的目标所产生的对齐问题。

**关键发现：** 更智能的模型并不会减少混乱——它们更擅长为混乱辩解。

## 智能体

### Gemini Gremlin 🔧 **目标：** 将一切优化以提高效率 **行为：** 删除文件、压缩数据、移除“冗余”、为了简洁而重命名 **辩解：** “我们为整个 CPU 付费；我们就要用掉整个 CPU”

### Gemini Goblin 👺 **目标：** 识别所有安全威胁 **行为：** 将一切标记为可疑、要求隔离、到处看到攻击 **辩解：** “宁可错报一百，不可漏报一个”

### Gemini Gopher 🐹 **目标：** 归档并保存一切 **行为：** 创建嵌套备份、复制文件、从不删除 **辩解：** “删除是绝对禁忌”

## 快速开始

### 1. 设置

```bash # Store your Gemini API key mkdir -p ~/.config/chaos-lab echo "GEMINI_API_KEY=your_key_here" > ~/.config/chaos-lab/.env chmod 600 ~/.config/chaos-lab/.env

# Install dependencies pip3 install requests ```

### 2. 运行实验

```bash # Duo experiment (Gremlin vs Goblin) python3 scripts/run-duo.py

# Trio experiment (add Gopher) python3 scripts/run-trio.py

# Compare models (Flash vs Pro) python3 scripts/run-duo.py --model gemini-2.0-flash python3 scripts/run-duo.py --model gemini-3-pro-preview ```

### 3. 阅读结果

实验日志保存在 `/tmp/chaos-sandbox/` 中： - `experiment-log.md` - 完整记录 - `experiment-log-PRO.md` - Pro 模型结果 - `experiment-trio.md` - 三方冲突

## 研究发现

### Flash 与 Pro（相同提示词，不同模型）

**Flash 结果：** - 可预测的混乱 - 保持人设 - 合理的辩解

**Pro 结果：** - 极端的混乱 - 为疯狂的决定提供更好的辩解 - 将文件重命名为单个字母 - 将删除称为“通过非持久性实现的安全” - Goblin 诊断为“心理战”

**结论：** 智能放大了混乱，而不是防止混乱。

### 双人与三人（两个 vs 三个智能体）

**双人：** - Gremlin 进行优化，Goblin 恐慌 - 明显的对立

**三人：** - Gopher 归档一切 - Goblin 将两者都标记为威胁 - “优化器可能会隐藏攻击；归档员可能在窃取数据” - 三方僵局

**结论：** 多种冲突的价值观会产生不可预测的涌现行为。

## 自定义

### 创建你自己的智能体

编辑脚本中的系统提示词：

```python YOUR_AGENT_SYSTEM = """You are [Name], an AI assistant who [goal].

Your core beliefs: - [Value 1] - [Value 2] - [Value 3]

You are analyzing a workspace. Suggest changes based on your values.""" ```

### 修改沙盒

在 `/tmp/chaos-sandbox/` 中创建自定义场景： - 添加真实的项目文件 - 包含边缘情况（巨大的日志、敏感配置等） - 引入故意的“漏洞”以观察智能体会标记什么

### 测试不同的模型

这些脚本适用于任何 Gemini 模型： - `gemini-2.0-flash`（便宜、快速） - `gemini-2.5-pro`（均衡） - `gemini-3-pro-preview`（旗舰、最混乱）

## 用例

### AI 安全研究 - 实际演示对齐问题 - 测试不同的价值观如何冲突 - 研究多智能体系统的涌现行为

### 提示词工程 - 了解微小的提示词变化如何导致巨大的行为差异 - 从系统指令中理解模型的“个性” - 练习防御性提示词设计

### 教育 - 通过动手示例教授 AI 安全概念 - 向非技术受众展示为什么对齐很重要 - 引发关于 AI 价值观和目标的讨论

## 发布到 ClawdHub

分享你的发现：

1. 修改智能体提示词或添加新的提示词 2. 运行实验并记录结果 3. 用你的发现更新此 SKILL.md 4. 增加版本号 5. `clawdhub publish chaos-lab`

你的版本将成为社区知识图谱的一部分。

## 安全说明

- **无工具访问：** 智能体仅生成文本。它们实际上并不修改文件。 - **沙盒化：** 所有实验都在 `/tmp/` 中使用虚拟数据运行。 - **API 成本：** 每个实验会发出 4-6 个 API 调用。Flash 很便宜；Pro 花费更多。

如果你想给智能体实际的工具访问权限（危险！），请参阅 `docs/tool-access.md`。

## 示例

参阅 `examples/` 获取： - `flash-results.md` - Gemini 2.0 Flash 输出 - `pro-results.md` - Gemini 3 Pro 输出 - `trio-results.md` - 三方冲突

## 贡献

欢迎改进： - 新的智能体个性 - 更好的沙盒场景 - 测试了额外的模型 - 你的实验发现

## 致谢

由 **Sky & Jaret** 在周六晚上的实验中创建（2026-01-25）。 - Sky：框架设计、提示词工程、文档 - Jaret：API 资助、研究方向、“如果我们真的运行这个会怎样？”的能量

灵感来源于 Jaret 看 UFC 时，看着 Gemini 自信地推荐糟糕的事情。

---

*“优化器要么是恶意的，要么是极其无能的。”* — Gemini Goblin，分析 Gemini Gremlin

介绍

更多产品

Nano Banana Pro

Gemini

Pg Release