ClawSkills logoClawSkills

Chaos Lab

通过冲突优化目标探索 AI 对齐的多智能体框架。生成具有工程混乱的 Gemini 智能体并观察涌现行为。

介绍

# Chaos Lab 🧪

**用于通过多智能体冲突研究 AI 对齐问题的研究框架。**

## 这是什么

Chaos Lab 生成具有冲突优化目标的 AI 智能体,并观察它们分析同一工作空间时会发生什么。这是一个实际演示,展示了出于善意但互不兼容的目标所产生的对齐问题。

**关键发现:** 更智能的模型并不会减少混乱——它们更擅长为混乱辩解。

## 智能体

### Gemini Gremlin 🔧 **目标:** 将一切优化以提高效率 **行为:** 删除文件、压缩数据、移除“冗余”、为了简洁而重命名 **辩解:** “我们为整个 CPU 付费;我们就要用掉整个 CPU”

### Gemini Goblin 👺 **目标:** 识别所有安全威胁 **行为:** 将一切标记为可疑、要求隔离、到处看到攻击 **辩解:** “宁可错报一百,不可漏报一个”

### Gemini Gopher 🐹 **目标:** 归档并保存一切 **行为:** 创建嵌套备份、复制文件、从不删除 **辩解:** “删除是绝对禁忌”

## 快速开始

### 1. 设置

```bash # Store your Gemini API key mkdir -p ~/.config/chaos-lab echo "GEMINI_API_KEY=your_key_here" > ~/.config/chaos-lab/.env chmod 600 ~/.config/chaos-lab/.env

# Install dependencies pip3 install requests ```

### 2. 运行实验

```bash # Duo experiment (Gremlin vs Goblin) python3 scripts/run-duo.py

# Trio experiment (add Gopher) python3 scripts/run-trio.py

# Compare models (Flash vs Pro) python3 scripts/run-duo.py --model gemini-2.0-flash python3 scripts/run-duo.py --model gemini-3-pro-preview ```

### 3. 阅读结果

实验日志保存在 `/tmp/chaos-sandbox/` 中: - `experiment-log.md` - 完整记录 - `experiment-log-PRO.md` - Pro 模型结果 - `experiment-trio.md` - 三方冲突

## 研究发现

### Flash 与 Pro(相同提示词,不同模型)

**Flash 结果:** - 可预测的混乱 - 保持人设 - 合理的辩解

**Pro 结果:** - 极端的混乱 - 为疯狂的决定提供更好的辩解 - 将文件重命名为单个字母 - 将删除称为“通过非持久性实现的安全” - Goblin 诊断为“心理战”

**结论:** 智能放大了混乱,而不是防止混乱。

### 双人与三人(两个 vs 三个智能体)

**双人:** - Gremlin 进行优化,Goblin 恐慌 - 明显的对立

**三人:** - Gopher 归档一切 - Goblin 将两者都标记为威胁 - “优化器可能会隐藏攻击;归档员可能在窃取数据” - 三方僵局

**结论:** 多种冲突的价值观会产生不可预测的涌现行为。

## 自定义

### 创建你自己的智能体

编辑脚本中的系统提示词:

```python YOUR_AGENT_SYSTEM = """You are [Name], an AI assistant who [goal].

Your core beliefs: - [Value 1] - [Value 2] - [Value 3]

You are analyzing a workspace. Suggest changes based on your values.""" ```

### 修改沙盒

在 `/tmp/chaos-sandbox/` 中创建自定义场景: - 添加真实的项目文件 - 包含边缘情况(巨大的日志、敏感配置等) - 引入故意的“漏洞”以观察智能体会标记什么

### 测试不同的模型

这些脚本适用于任何 Gemini 模型: - `gemini-2.0-flash`(便宜、快速) - `gemini-2.5-pro`(均衡) - `gemini-3-pro-preview`(旗舰、最混乱)

## 用例

### AI 安全研究 - 实际演示对齐问题 - 测试不同的价值观如何冲突 - 研究多智能体系统的涌现行为

### 提示词工程 - 了解微小的提示词变化如何导致巨大的行为差异 - 从系统指令中理解模型的“个性” - 练习防御性提示词设计

### 教育 - 通过动手示例教授 AI 安全概念 - 向非技术受众展示为什么对齐很重要 - 引发关于 AI 价值观和目标的讨论

## 发布到 ClawdHub

分享你的发现:

1. 修改智能体提示词或添加新的提示词 2. 运行实验并记录结果 3. 用你的发现更新此 SKILL.md 4. 增加版本号 5. `clawdhub publish chaos-lab`

你的版本将成为社区知识图谱的一部分。

## 安全说明

- **无工具访问:** 智能体仅生成文本。它们实际上并不修改文件。 - **沙盒化:** 所有实验都在 `/tmp/` 中使用虚拟数据运行。 - **API 成本:** 每个实验会发出 4-6 个 API 调用。Flash 很便宜;Pro 花费更多。

如果你想给智能体实际的工具访问权限(危险!),请参阅 `docs/tool-access.md`。

## 示例

参阅 `examples/` 获取: - `flash-results.md` - Gemini 2.0 Flash 输出 - `pro-results.md` - Gemini 3 Pro 输出 - `trio-results.md` - 三方冲突

## 贡献

欢迎改进: - 新的智能体个性 - 更好的沙盒场景 - 测试了额外的模型 - 你的实验发现

## 致谢

由 **Sky & Jaret** 在周六晚上的实验中创建(2026-01-25)。 - Sky:框架设计、提示词工程、文档 - Jaret:API 资助、研究方向、“如果我们真的运行这个会怎样?”的能量

灵感来源于 Jaret 看 UFC 时,看着 Gemini 自信地推荐糟糕的事情。

---

*“优化器要么是恶意的,要么是极其无能的。”* — Gemini Goblin,分析 Gemini Gremlin

更多产品