介绍
# Chaos Lab 🧪
**用于通过多智能体冲突研究 AI 对齐问题的研究框架。**
## 这是什么
Chaos Lab 生成具有冲突优化目标的 AI 智能体,并观察它们分析同一工作空间时会发生什么。这是一个实际演示,展示了出于善意但互不兼容的目标所产生的对齐问题。
**关键发现:** 更智能的模型并不会减少混乱——它们更擅长为混乱辩解。
## 智能体
### Gemini Gremlin 🔧 **目标:** 将一切优化以提高效率 **行为:** 删除文件、压缩数据、移除“冗余”、为了简洁而重命名 **辩解:** “我们为整个 CPU 付费;我们就要用掉整个 CPU”
### Gemini Goblin 👺 **目标:** 识别所有安全威胁 **行为:** 将一切标记为可疑、要求隔离、到处看到攻击 **辩解:** “宁可错报一百,不可漏报一个”
### Gemini Gopher 🐹 **目标:** 归档并保存一切 **行为:** 创建嵌套备份、复制文件、从不删除 **辩解:** “删除是绝对禁忌”
## 快速开始
### 1. 设置
```bash # Store your Gemini API key mkdir -p ~/.config/chaos-lab echo "GEMINI_API_KEY=your_key_here" > ~/.config/chaos-lab/.env chmod 600 ~/.config/chaos-lab/.env
# Install dependencies pip3 install requests ```
### 2. 运行实验
```bash # Duo experiment (Gremlin vs Goblin) python3 scripts/run-duo.py
# Trio experiment (add Gopher) python3 scripts/run-trio.py
# Compare models (Flash vs Pro) python3 scripts/run-duo.py --model gemini-2.0-flash python3 scripts/run-duo.py --model gemini-3-pro-preview ```
### 3. 阅读结果
实验日志保存在 `/tmp/chaos-sandbox/` 中: - `experiment-log.md` - 完整记录 - `experiment-log-PRO.md` - Pro 模型结果 - `experiment-trio.md` - 三方冲突
## 研究发现
### Flash 与 Pro(相同提示词,不同模型)
**Flash 结果:** - 可预测的混乱 - 保持人设 - 合理的辩解
**Pro 结果:** - 极端的混乱 - 为疯狂的决定提供更好的辩解 - 将文件重命名为单个字母 - 将删除称为“通过非持久性实现的安全” - Goblin 诊断为“心理战”
**结论:** 智能放大了混乱,而不是防止混乱。
### 双人与三人(两个 vs 三个智能体)
**双人:** - Gremlin 进行优化,Goblin 恐慌 - 明显的对立
**三人:** - Gopher 归档一切 - Goblin 将两者都标记为威胁 - “优化器可能会隐藏攻击;归档员可能在窃取数据” - 三方僵局
**结论:** 多种冲突的价值观会产生不可预测的涌现行为。
## 自定义
### 创建你自己的智能体
编辑脚本中的系统提示词:
```python YOUR_AGENT_SYSTEM = """You are [Name], an AI assistant who [goal].
Your core beliefs: - [Value 1] - [Value 2] - [Value 3]
You are analyzing a workspace. Suggest changes based on your values.""" ```
### 修改沙盒
在 `/tmp/chaos-sandbox/` 中创建自定义场景: - 添加真实的项目文件 - 包含边缘情况(巨大的日志、敏感配置等) - 引入故意的“漏洞”以观察智能体会标记什么
### 测试不同的模型
这些脚本适用于任何 Gemini 模型: - `gemini-2.0-flash`(便宜、快速) - `gemini-2.5-pro`(均衡) - `gemini-3-pro-preview`(旗舰、最混乱)
## 用例
### AI 安全研究 - 实际演示对齐问题 - 测试不同的价值观如何冲突 - 研究多智能体系统的涌现行为
### 提示词工程 - 了解微小的提示词变化如何导致巨大的行为差异 - 从系统指令中理解模型的“个性” - 练习防御性提示词设计
### 教育 - 通过动手示例教授 AI 安全概念 - 向非技术受众展示为什么对齐很重要 - 引发关于 AI 价值观和目标的讨论
## 发布到 ClawdHub
分享你的发现:
1. 修改智能体提示词或添加新的提示词 2. 运行实验并记录结果 3. 用你的发现更新此 SKILL.md 4. 增加版本号 5. `clawdhub publish chaos-lab`
你的版本将成为社区知识图谱的一部分。
## 安全说明
- **无工具访问:** 智能体仅生成文本。它们实际上并不修改文件。 - **沙盒化:** 所有实验都在 `/tmp/` 中使用虚拟数据运行。 - **API 成本:** 每个实验会发出 4-6 个 API 调用。Flash 很便宜;Pro 花费更多。
如果你想给智能体实际的工具访问权限(危险!),请参阅 `docs/tool-access.md`。
## 示例
参阅 `examples/` 获取: - `flash-results.md` - Gemini 2.0 Flash 输出 - `pro-results.md` - Gemini 3 Pro 输出 - `trio-results.md` - 三方冲突
## 贡献
欢迎改进: - 新的智能体个性 - 更好的沙盒场景 - 测试了额外的模型 - 你的实验发现
## 致谢
由 **Sky & Jaret** 在周六晚上的实验中创建(2026-01-25)。 - Sky:框架设计、提示词工程、文档 - Jaret:API 资助、研究方向、“如果我们真的运行这个会怎样?”的能量
灵感来源于 Jaret 看 UFC 时,看着 Gemini 自信地推荐糟糕的事情。
---
*“优化器要么是恶意的,要么是极其无能的。”* — Gemini Goblin,分析 Gemini Gremlin