ClawSkills logoClawSkills

Prompt Performance Tester - UnisAI

跨 Claude、GPT 和 Gemini 模型测试提示词,并通过智能推荐获取详细的延迟、成本、质量、一致性和错误指标。

介绍

# Prompt Performance Tester

**在 Claude、GPT 和 Gemini 上测试提示词,获取详细的性能指标。**

对比 10 个 AI 模型的延迟、成本、质量和一致性测量结果。

---

## 🚀 为什么需要此技能?

### 问题陈述 跨提供商比较 LLM 模型需要手动测试: - 没有系统的方法来衡量跨模型的性能 - 成本差异很大但难以直接比较 - 质量因用例和提供商而异 - 手动 API 测试既耗时又繁琐

### 解决方案 同时在 Claude、GPT 和 Gemini 上测试提示词。根据延迟、成本和质量获取性能指标和建议。

### 成本对比示例 对于每天 10,000 次请求,平均 28 个输入 + 115 个输出 token: - Claude Opus 4.5:约 $30.15/天($903/月) - Gemini 2.5 Flash-Lite:约 $0.05/天($1.50/月) - 每月成本差异:$901.50

---

## ✨ 你将获得

### 多提供商测试 同时在 **3 家主要 AI 提供商**上测试提示词: - **Anthropic Claude** - 业界领先的推理和安全能力 - **OpenAI GPT** - 最受欢迎、应用最广泛的模型 - **Google Gemini** - 最佳性价比

### 支持 10 种模型(2026 年最新版)

**🔵 Claude 4.5 系列** - `claude-haiku-4-5-20251001` - 极速,接近前沿性能(每 1M tokens $1.00/$5.00) - `claude-sonnet-4-5-20250929` - 最适合复杂智能体和编程(每 1M tokens $3.00/$15.00) - `claude-opus-4-5-20251101` - 最智能,最先进(每 1M tokens $5.00/$25.00)

**🟢 GPT-5.2 系列** - `gpt-5.2-instant` - 日常任务低延迟(每 1M tokens $1.75/$14.00) - `gpt-5.2-thinking` - 复杂问题深度推理(每 1M tokens $1.75/$14.00) - `gpt-5.2-pro` - 研究级最强智能(每 1M tokens $1.75/$14.00)

**🔴 Gemini 最新版** - `gemini-3-pro` - 全新旗舰模型(每 1M tokens $2.00/$12.00) - `gemini-2.5-pro` - 极具性价比的高质量选择(每 1M tokens $1.25/$10.00) - `gemini-2.5-flash` - 快速高效(每 1M tokens $0.30/$2.50) - `gemini-2.5-flash-lite` - 最实惠(每 1M tokens $0.10/$0.40)

### 性能指标

每次测试测量: - ⚡ **延迟** - 以毫秒为单位的响应时间 - 💰 **成本** - 每次请求的确切 API 成本(输入 + 输出 token) - 🎯 **质量** - AI 评估的响应质量评分(0-100) - 📊 **Token 使用量** - 输入和输出 token 计数 - 🔄 **一致性** - 多次测试运行的差异 - ❌ **错误追踪** - API 失败、超时、速率限制

### 智能建议

即时获取以下答案: - 哪种模型对你的提示词来说**最快**? - 哪种**最具成本效益**? - 哪种能产生**最佳质量**的响应? - 切换提供商可以**节省**多少?

---

## 📊 真实案例

``` PROMPT: "Write a professional customer service response about a delayed shipment"

┌─────────────────────────────────────────────────────────────────┐ │ GEMINI 2.5 FLASH-LITE (Google) 💰 MOST AFFORDABLE │ ├─────────────────────────────────────────────────────────────────┤ │ Latency: 523ms │ │ Cost: $0.000025 │ │ Quality: 65/100 │ │ Tokens: 28 in / 87 out │ └─────────────────────────────────────────────────────────────────┘

┌─────────────────────────────────────────────────────────────────┐ │ GEMINI 2.5 FLASH (Google) ⚡ FAST & AFFORDABLE │ ├─────────────────────────────────────────────────────────────────┤ │ Latency: 612ms │ │ Cost: $0.000078 │ │ Quality: 72/100 │ │ Tokens: 28 in / 95 out │ └─────────────────────────────────────────────────────────────────┘

┌─────────────────────────────────────────────────────────────────┐ │ CLAUDE HAIKU 4.5 (Anthropic) 🚀 BALANCED PERFORMER │ ├─────────────────────────────────────────────────────────────────┤ │ Latency: 891ms │ │ Cost: $0.000145 │ │ Quality: 78/100 │ │ Tokens: 28 in / 102 out │ └─────────────────────────────────────────────────────────────────┘

┌─────────────────────────────────────────────────────────────────┐ │ GPT-5.2 INSTANT (OpenAI) 💡 EXCELLENT QUALITY │ ├─────────────────────────────────────────────────────────────────┤ │ Latency: 645ms │ │ Cost: $0.000402 │ │ Quality: 88/100 │ │ Tokens: 28 in / 98 out │ └─────────────────────────────────────────────────────────────────┘

┌─────────────────────────────────────────────────────────────────┐ │ CLAUDE OPUS 4.5 (Anthropic) 🏆 HIGHEST QUALITY │ ├─────────────────────────────────────────────────────────────────┤ │ Latency: 1,234ms │ │ Cost: $0.001875 │ │ Quality: 94/100 │ │ Tokens: 28 in / 125 out │ └─────────────────────────────────────────────────────────────────┘

🎯 RECOMMENDATIONS: 1. Most cost-effective: Gemini 2.5 Flash-Lite ($0.00004/request) - 99.98% cheaper than Opus 2. Best value: Gemini 2.5 Flash ($0.000289/request) - 90% cheaper, 77% quality match 3. Best quality: Claude Opus 4.5 (94/100) - state-of-the-art reasoning & analysis 4. Smart pick: Claude Haiku 4.5 ($0.000578/request) - 81% cheaper, 83% quality match 5. Speed + Quality: GPT-5.2 Instant ($0.000402/request) - 87% cheaper, 94% quality

💡 Potential monthly savings (10,000 requests/day, 28 input + 115 output tokens avg): - Using Gemini 2.5 Flash-Lite vs Opus: $903/month saved ($1.44 vs $904.50) - Using Claude Haiku vs Opus: $731/month saved ($173.40 vs $904.50) - Using Gemini 2.5 Flash vs Opus: $818/month saved ($86.52 vs $904.50) ```

---

## 用例

### 生产部署 - 在生产选型前评估模型 - 比较成本与质量的权衡 - 跨提供商基准测试 API 延迟

### 提示词开发 - 跨模型测试提示词变体 - 一致地测量质量评分 - 比较性能指标

### 成本分析 - 按模型分析 LLM API 支出 - 比较提供商定价结构 - 识别具有成本效益的替代方案

### 性能测试 - 测量延迟和响应时间 - 多次运行测试一致性 - 评估质量评分

---

## 🚀 快速开始

### 1. 订阅技能

在 ClawhHub 上点击“Subscribe”以获取访问权限

### 2. 设置 API 密钥

将提供商 API 密钥添加为环境变量:

```bash # Required for Claude models export ANTHROPIC_API_KEY="sk-ant-..."

# Optional for GPT models export OPENAI_API_KEY="sk-..."

# Optional for Gemini models export GOOGLE_API_KEY="AI..." ```

从以下地址获取 API 密钥: - Anthropic: https://console.anthropic.com - OpenAI: https://platform.openai.com/api-keys - Google: https://makersuite.google.com/app/apikey

### 3. 运行你的第一次测试

**选项 A:Python 代码** ```python from prompt_performance_tester import PromptPerformanceTester

# Initialize tester tester = PromptPerformanceTester( anthropic_key=os.getenv("ANTHROPIC_API_KEY"), openai_key=os.getenv("OPENAI_API_KEY"), # Optional google_key=os.getenv("GOOGLE_API_KEY") # Optional )

# Test across multiple providers results = tester.test_prompt( prompt_text="Write a professional email apologizing for a delayed shipment", models=[ "claude-haiku-4-5-20251001", "gpt-5.2-instant", "gemini-2.5-flash" ], num_runs=3, # Run 3 times for consistency testing max_tokens=500 )

# Get smart recommendations print(f"🏆 Best quality: {results.best_model}") print(f"💰 Cheapest: {results.cheapest_model}") print(f"⚡ Fastest: {results.fastest_model}") print(f"💡 Recommended: {results.recommended_model}")

# Export detailed report results.export_csv("prompt_test_results.csv") ```

**选项 B:CLI** ```bash # Test single prompt across all providers prompt-tester test "Your prompt here" --models all

# Compare specific models prompt-tester test "Your prompt here" \ --models claude-haiku-4-5-20251001 gpt-5.2-instant gemini-2.5-flash \ --runs 5

# Export results prompt-tester test "Your prompt here" --export results.json ```

---

## 🔒 安全与隐私

### API 密钥安全 - ✅ 密钥安全地存储在环境变量中 - ✅ 从不记录、存储或传输到我们的服务器 - ✅ 所有 API 通信均使用 HTTPS 加密 - ✅ 零知识架构

### 数据隐私 - ✅ 你的提示词**绝不会**用于训练 - ✅ 结果仅对你可见(企业版则对团队可见) - ✅ 符合 GDPR 的数据处理 - ✅ SOC 2 Type II 认证(企业版) - ✅ 随时删除你的数据

### IP 保护 - ✅ 专有质量评分算法 - ✅ 每次执行时的许可证验证 - ✅ 使用监控以防止滥用 - ✅ 带有法律执行力的商业许可证

---

## 📚 技术细节

### 系统要求 - **Python**: 3.8+ - **依赖项**: `anthropic`、`openai`、`google-generativeai`(自动安装) - **平台**: macOS、Linux、Windows - **内存**: 至少 512MB

### 性能 - **平均测试时间**: 15-45 秒(取决于所选模型) - **成功率**: 98.2% - **正常运行时间**: 99.9% - **API 速率限制**: 1,000 请求/小时

### 数据保留 - **入门版**: 30 天 - **专业版**: 90 天 - **企业版**: 无限制(或根据协议) - **所有版本**: 随时导出和删除数据

### 收集的指标 每次测试捕获: - **延迟**: 首个 token 时间 + 总响应时间(毫秒) - **成本**: 基于实时定价的输入成本 + 输出成本(美元) - **质量**: AI 评估的连贯性、准确性、相关性(0-100) - **Tokens**: 每个提供商的确切输入/输出 token 计数 - **一致性**: 多次运行的标准差 - **错误**: 超时、速率限制、API 失败

---

## ❓ 常见问题

**Q: 我需要所有 3 家提供商的 API 密钥吗?** A: 不需要。你只需要为想要测试的提供商提供密钥。例如,如果你只想测试 Claude 模型,只需 Anthropic API 密钥。

**Q: 谁来支付 API 成本?** A: 你来支付。你需要提供自己的 API 密钥,并直接向提供商支付 API 使用费用。技能订阅费($29-$99/月)仅用于访问我们的测试平台。

**Q: 成本计算有多准确?** A: 我们使用每个提供商官方费率卡的实时定价。根据实际 token 使用量,成本精确到美分。

**Q: 我可以用非英语语言测试提示词吗?** A: 可以!所有 10 种模型都支持多种语言。该技能适用于任何语言。

**Q: 如果我的提示词非常长(10K+ token)怎么办?** A: 没问题。该技能最多可处理 100K token 的提示词。只需适当设置 `max_tokens` 参数。

**Q: 我可以测试自定义或微调模型吗?** A: 可以,在企业版上。联系我们以添加对你的自定义模型的支持。

**Q: 质量评分是如何工作的?** A: 我们使用专有的 AI 评估算法,根据连贯性、准确性、相关性和指令遵循情况对响应进行评分(0-100 分制)。

**Q: 我可以在生产环境/CI/CD 中使用吗?** A: 可以!专业版和企业版包含 API 访问权限。将测试集成到你的部署流水线中。

**Q: 有免费试用吗?** A: 有。入门版永久免费(每月 5 次测试,2 个模型)。无需信用卡。

**Q: 如果我超出计划限制怎么办?** A: 入门版用户需要升级。付费版用户可以购买额外使用量或升级到企业版以获取无限制服务。

**Q: 你们会存储我的专有提示词吗?** A: 不会。提示词在内存中处理,除非你明确导出结果,否则会立即丢弃。

---

## 🗺️ 路线图

### ✅ 当前版本 (v1.1.5) - 多提供商支持(Claude 4.5、GPT-5.2、Gemini 2.5/3.0) - 跨 3 家提供商的 10 种模型 - 跨提供商成本比较 - 质量评分算法 - 一致性测试 - 最新定价数据 - GPT-5.2 模型支持 - Gemini 3 Pro 支持

### 🚧 即将推出 (v1.3) - **更多模型**: Llama 3.2、Mistral Large、Claude 5(发布时) - **高级分析**: 由 Claude 驱动的提示词优化建议 - **批量测试**: 同时测试 100+ 个提示词 - **团队仪表板**: 带权限的共享工作区 - **Webhook 集成**: Slack、Discord、邮件通知 - **历史跟踪**: 跟踪随时间变化的模型性能

### 🔮 未来 (v1.3+) - **A/B 测试框架**: 科学的提示词实验 - **微调洞察**: 哪些模型最适合你的用例进行微调 - **自定义基准**: 创建你自己的评估标准 - **自动优化**: AI 驱动的提示词改进建议 - **部署集成**: Vercel、AWS Lambda、CloudFlare Workers

---

## 📞 支持

### 文档 - 📚 **完整文档**: https://docs.unisai.vercel.app/tester - 🔧 **API 参考**: https://docs.unisai.vercel.app/tester/api - 💡 **教程**: https://docs.unisai.vercel.app/tester/tutorials

### 社区 - 💬 **Slack 社区**: https://slack.unisai.vercel.app - 📧 **邮件支持**: [email protected] - 🐛 **错误报告**: [email protected] - ⭐ **功能请求**: https://slack.unisai.vercel.app

### 联系方式 - 邮件: [email protected] - Slack: https://slack.unisai.vercel.app

---

## 📄 许可证与条款

此技能是根据商业协议许可的**专有软件**。

### ✅ 你可以: - 用于你自己的业务和项目 - 为内部应用测试提示词 - 与你的团队共享结果(专业版及以上) - 在生产应用中使用 - 导出并分析测试数据

### ❌ 你不能: - 与他人共享许可证密钥 - 逆向工程该技能 - 重新分发或转售该技能 - 未经许可修改源代码 - 将入门版用于商业目的

**完整条款**: 参见 [LICENSE.md](LICENSE.md)

---

## 🚀 开始使用

1. 在 ClawhHub 上订阅此技能 2. 设置你的 API 密钥 3. 使用你的提示词运行测试 4. 查看性能指标和建议

---

## 🏷️ 标签

**主要**: ai-testing, multi-provider, prompt-optimization, cost-analysis, llm-benchmarking

**提供商**: claude, gpt, gemini, anthropic, openai, google

**功能**: api-comparison, performance-testing, multi-model, prompt-engineering, quality-assurance

---

## 📝 更新日志

### [1.1.5] - 2026-02-01

#### 🚀 最新模型更新 - **GPT-5.2 系列** - 新增 Instant、Thinking 和 Pro 版本 - **Gemini 3.0 Pro** - Google 最新的旗舰模型 - **Gemini 2.5 系列** - 更新至 2.5 Pro、Flash 和 Flash-Lite - **Claude 4.5 定价** - Haiku 更新为每 1M tokens $1/$5 - **共 10 个模型** - 从 3 个提供商的 9 个模型扩展至 10 个

#### 📊 定价更新 - 所有模型定价已更新为 2026 年费率 - GPT-5.2:每 1M tokens $1.75/$14.00 - Gemini 3 Pro:每 1M tokens $2.00/$12.00 - Gemini 2.5 Flash-Lite:每 1M tokens $0.10/$0.40(最实惠)

#### 🔧 技术改进 - 支持最新的 API 版本 - 使用 2026 年定价改进了成本计算 - 针对新的 GPT-5.2 和 Gemini 3.0 增强了模型路由

---

### [1.1.0] - 2026-01-15

#### ✨ 主要功能 - **多提供商支持** - 在 Anthropic、OpenAI 和 Google 之间测试提示词 - **支持 10 个模型** - Claude 4.5 (3 个)、GPT-5.2 (3 个)、Gemini 2.5/3.0 (4 个) - **跨提供商比较** - 跨提供商直接进行成本和性能分析 - **特定提供商优化** - 为每项服务定制的 API 调用 - **增强建议** - 多提供商洞察和成本节约分析

#### 🎨 品牌更新 - 从 Prompt Migrator 更名为 UniAI - 将所有 URL 更新为 unisai.vercel.app - 更新了公司名称和联系信息 - 保持了完整的知识产权保护和许可

#### 🏷️ 扩展标签覆盖 - 新增 multi-provider、claude、gpt、gemini、api-comparison 标签 - 面向平台索引的综合标签集

#### 🔧 技术改进 - 集成用于 GPT 模型的 OpenAI SDK - 集成用于 Gemini 模型的 Google Generative AI - 提供商检测和路由逻辑 - 改进了每个提供商的 token 计数 - 跨提供商更好的错误处理 - 增强的质量评分算法

#### 📊 成本分析增强 - 所有 10 个模型的实时定价 - 特定提供商的成本计算 - 跨提供商的比较指标 - 显示潜在节省的 ROI 计算 - 跨提供商成本优化建议

#### 🔒 安全与知识产权保护 - IP 水印:`PROPRIETARY_SKILL_VEDANT_2024_MULTI_PROVIDER` - 零 API 密钥泄露(仅限环境变量) - 保持了专有代码保护 - 在所有提供商上强制执行完整许可

---

### [1.0.0] - 2024-02-02

#### 初始版本 - 仅限 Claude 的提示词测试(Haiku、Sonnet、Opus) - 性能指标收集(延迟、成本、质量) - 多次运行的一致性测试 - 基本建议引擎 - 用于自动化的 API 访问 - 专有知识产权保护框架

---

**上次更新**:2026 年 2 月 **当前版本**:1.1.5 **状态**:活跃维护中

© 2026 UniAI. 版权所有。

更多产品