介绍
# LLM Supervisor 🔮
优雅地处理速率限制和模型回退。
## 行为
### 遇到速率限制 / 过载错误时
当遇到来自云服务商(Anthropic、OpenAI)的速率限制或过载错误时:
1. **立即告知用户** —— 不要静默失败或无限重试 2. **提供本地回退** —— 询问他们是否想要切换到 Ollama 3. **等待确认** —— 永远不要在代码生成任务中自动切换
### 需要确认
在代码生成中使用本地模型之前,请询问: > "Cloud is rate-limited. Switch to local Ollama (`qwen2.5:7b`)? Reply 'yes' to confirm."
对于简单查询(聊天、摘要),如果用户之前已同意,则可以在不经确认的情况下切换。
## 命令
### `/llm status` 报告当前状态: - 激活的提供商(云/本地) - Ollama 可用性和模型 - 近期的速率限制事件
### `/llm switch local` 为当前会话手动切换到 Ollama。
### `/llm switch cloud` 切换回云服务商。
## 使用 Ollama
```bash # Check available models ollama list
# Run a query ollama run qwen2.5:7b "your prompt here"
# For longer prompts, use stdin echo "your prompt" | ollama run qwen2.5:7b ```
## 已安装的模型
使用 `ollama list` 检查。配置的默认值:`qwen2.5:7b`
## 状态跟踪
在会话期间于内存中跟踪: - `currentProvider`: "cloud" | "local" - `lastRateLimitAt`: 时间戳或 null - `localConfirmedForCode`: 布尔值
在会话开始时重置为云。