LLM Supervisor

介绍

# LLM Supervisor 🔮

优雅地处理速率限制和模型回退。

## 行为

### 遇到速率限制 / 过载错误时

当遇到来自云服务商（Anthropic、OpenAI）的速率限制或过载错误时：

1. **立即告知用户** —— 不要静默失败或无限重试 2. **提供本地回退** —— 询问他们是否想要切换到 Ollama 3. **等待确认** —— 永远不要在代码生成任务中自动切换

### 需要确认

在代码生成中使用本地模型之前，请询问： > "Cloud is rate-limited. Switch to local Ollama (`qwen2.5:7b`)? Reply 'yes' to confirm."

对于简单查询（聊天、摘要），如果用户之前已同意，则可以在不经确认的情况下切换。

## 命令

### `/llm status` 报告当前状态： - 激活的提供商（云/本地） - Ollama 可用性和模型 - 近期的速率限制事件

### `/llm switch local` 为当前会话手动切换到 Ollama。

### `/llm switch cloud` 切换回云服务商。

## 使用 Ollama

```bash # Check available models ollama list

# Run a query ollama run qwen2.5:7b "your prompt here"

# For longer prompts, use stdin echo "your prompt" | ollama run qwen2.5:7b ```

## 已安装的模型

使用 `ollama list` 检查。配置的默认值：`qwen2.5:7b`

## 状态跟踪

在会话期间于内存中跟踪： - `currentProvider`: "cloud" | "local" - `lastRateLimitAt`: 时间戳或 null - `localConfirmedForCode`: 布尔值

在会话开始时重置为云。