Prompt Performance Tester - UnisAI

介绍

# Prompt Performance Tester

**在 Claude、GPT 和 Gemini 上测试提示词，获取详细的性能指标。**

对比 10 个 AI 模型的延迟、成本、质量和一致性测量结果。

---

## 🚀 为什么需要此技能？

### 问题陈述跨提供商比较 LLM 模型需要手动测试： - 没有系统的方法来衡量跨模型的性能 - 成本差异很大但难以直接比较 - 质量因用例和提供商而异 - 手动 API 测试既耗时又繁琐

### 解决方案同时在 Claude、GPT 和 Gemini 上测试提示词。根据延迟、成本和质量获取性能指标和建议。

### 成本对比示例对于每天 10,000 次请求，平均 28 个输入 + 115 个输出 token： - Claude Opus 4.5：约 $30.15/天（$903/月） - Gemini 2.5 Flash-Lite：约 $0.05/天（$1.50/月） - 每月成本差异：$901.50

---

## ✨ 你将获得

### 多提供商测试同时在 **3 家主要 AI 提供商**上测试提示词： - **Anthropic Claude** - 业界领先的推理和安全能力 - **OpenAI GPT** - 最受欢迎、应用最广泛的模型 - **Google Gemini** - 最佳性价比

### 支持 10 种模型（2026 年最新版）

**🔵 Claude 4.5 系列** - `claude-haiku-4-5-20251001` - 极速，接近前沿性能（每 1M tokens $1.00/$5.00） - `claude-sonnet-4-5-20250929` - 最适合复杂智能体和编程（每 1M tokens $3.00/$15.00） - `claude-opus-4-5-20251101` - 最智能，最先进（每 1M tokens $5.00/$25.00）

**🟢 GPT-5.2 系列** - `gpt-5.2-instant` - 日常任务低延迟（每 1M tokens $1.75/$14.00） - `gpt-5.2-thinking` - 复杂问题深度推理（每 1M tokens $1.75/$14.00） - `gpt-5.2-pro` - 研究级最强智能（每 1M tokens $1.75/$14.00）

**🔴 Gemini 最新版** - `gemini-3-pro` - 全新旗舰模型（每 1M tokens $2.00/$12.00） - `gemini-2.5-pro` - 极具性价比的高质量选择（每 1M tokens $1.25/$10.00） - `gemini-2.5-flash` - 快速高效（每 1M tokens $0.30/$2.50） - `gemini-2.5-flash-lite` - 最实惠（每 1M tokens $0.10/$0.40）

### 性能指标

每次测试测量： - ⚡ **延迟** - 以毫秒为单位的响应时间 - 💰 **成本** - 每次请求的确切 API 成本（输入 + 输出 token） - 🎯 **质量** - AI 评估的响应质量评分（0-100） - 📊 **Token 使用量** - 输入和输出 token 计数 - 🔄 **一致性** - 多次测试运行的差异 - ❌ **错误追踪** - API 失败、超时、速率限制

### 智能建议

即时获取以下答案： - 哪种模型对你的提示词来说**最快**？ - 哪种**最具成本效益**？ - 哪种能产生**最佳质量**的响应？ - 切换提供商可以**节省**多少？

---

## 📊 真实案例

``` PROMPT: "Write a professional customer service response about a delayed shipment"

┌─────────────────────────────────────────────────────────────────┐ │ GEMINI 2.5 FLASH-LITE (Google) 💰 MOST AFFORDABLE │ ├─────────────────────────────────────────────────────────────────┤ │ Latency: 523ms │ │ Cost: $0.000025 │ │ Quality: 65/100 │ │ Tokens: 28 in / 87 out │ └─────────────────────────────────────────────────────────────────┘

┌─────────────────────────────────────────────────────────────────┐ │ GEMINI 2.5 FLASH (Google) ⚡ FAST & AFFORDABLE │ ├─────────────────────────────────────────────────────────────────┤ │ Latency: 612ms │ │ Cost: $0.000078 │ │ Quality: 72/100 │ │ Tokens: 28 in / 95 out │ └─────────────────────────────────────────────────────────────────┘

┌─────────────────────────────────────────────────────────────────┐ │ CLAUDE HAIKU 4.5 (Anthropic) 🚀 BALANCED PERFORMER │ ├─────────────────────────────────────────────────────────────────┤ │ Latency: 891ms │ │ Cost: $0.000145 │ │ Quality: 78/100 │ │ Tokens: 28 in / 102 out │ └─────────────────────────────────────────────────────────────────┘

┌─────────────────────────────────────────────────────────────────┐ │ GPT-5.2 INSTANT (OpenAI) 💡 EXCELLENT QUALITY │ ├─────────────────────────────────────────────────────────────────┤ │ Latency: 645ms │ │ Cost: $0.000402 │ │ Quality: 88/100 │ │ Tokens: 28 in / 98 out │ └─────────────────────────────────────────────────────────────────┘

┌─────────────────────────────────────────────────────────────────┐ │ CLAUDE OPUS 4.5 (Anthropic) 🏆 HIGHEST QUALITY │ ├─────────────────────────────────────────────────────────────────┤ │ Latency: 1,234ms │ │ Cost: $0.001875 │ │ Quality: 94/100 │ │ Tokens: 28 in / 125 out │ └─────────────────────────────────────────────────────────────────┘

🎯 RECOMMENDATIONS: 1. Most cost-effective: Gemini 2.5 Flash-Lite ($0.00004/request) - 99.98% cheaper than Opus 2. Best value: Gemini 2.5 Flash ($0.000289/request) - 90% cheaper, 77% quality match 3. Best quality: Claude Opus 4.5 (94/100) - state-of-the-art reasoning & analysis 4. Smart pick: Claude Haiku 4.5 ($0.000578/request) - 81% cheaper, 83% quality match 5. Speed + Quality: GPT-5.2 Instant ($0.000402/request) - 87% cheaper, 94% quality

💡 Potential monthly savings (10,000 requests/day, 28 input + 115 output tokens avg): - Using Gemini 2.5 Flash-Lite vs Opus: $903/month saved ($1.44 vs $904.50) - Using Claude Haiku vs Opus: $731/month saved ($173.40 vs $904.50) - Using Gemini 2.5 Flash vs Opus: $818/month saved ($86.52 vs $904.50) ```

---

## 用例

### 生产部署 - 在生产选型前评估模型 - 比较成本与质量的权衡 - 跨提供商基准测试 API 延迟

### 提示词开发 - 跨模型测试提示词变体 - 一致地测量质量评分 - 比较性能指标

### 成本分析 - 按模型分析 LLM API 支出 - 比较提供商定价结构 - 识别具有成本效益的替代方案

### 性能测试 - 测量延迟和响应时间 - 多次运行测试一致性 - 评估质量评分

---

## 🚀 快速开始

### 1. 订阅技能

在 ClawhHub 上点击“Subscribe”以获取访问权限

### 2. 设置 API 密钥

将提供商 API 密钥添加为环境变量：

```bash # Required for Claude models export ANTHROPIC_API_KEY="sk-ant-..."

# Optional for GPT models export OPENAI_API_KEY="sk-..."

# Optional for Gemini models export GOOGLE_API_KEY="AI..." ```

从以下地址获取 API 密钥： - Anthropic: https://console.anthropic.com - OpenAI: https://platform.openai.com/api-keys - Google: https://makersuite.google.com/app/apikey

### 3. 运行你的第一次测试

**选项 A：Python 代码** ```python from prompt_performance_tester import PromptPerformanceTester

# Initialize tester tester = PromptPerformanceTester( anthropic_key=os.getenv("ANTHROPIC_API_KEY"), openai_key=os.getenv("OPENAI_API_KEY"), # Optional google_key=os.getenv("GOOGLE_API_KEY") # Optional )

# Test across multiple providers results = tester.test_prompt( prompt_text="Write a professional email apologizing for a delayed shipment", models=[ "claude-haiku-4-5-20251001", "gpt-5.2-instant", "gemini-2.5-flash" ], num_runs=3, # Run 3 times for consistency testing max_tokens=500 )

# Get smart recommendations print(f"🏆 Best quality: {results.best_model}") print(f"💰 Cheapest: {results.cheapest_model}") print(f"⚡ Fastest: {results.fastest_model}") print(f"💡 Recommended: {results.recommended_model}")

# Export detailed report results.export_csv("prompt_test_results.csv") ```

**选项 B：CLI** ```bash # Test single prompt across all providers prompt-tester test "Your prompt here" --models all

# Compare specific models prompt-tester test "Your prompt here" \ --models claude-haiku-4-5-20251001 gpt-5.2-instant gemini-2.5-flash \ --runs 5

# Export results prompt-tester test "Your prompt here" --export results.json ```

---

## 🔒 安全与隐私

### API 密钥安全 - ✅ 密钥安全地存储在环境变量中 - ✅ 从不记录、存储或传输到我们的服务器 - ✅ 所有 API 通信均使用 HTTPS 加密 - ✅ 零知识架构

### 数据隐私 - ✅ 你的提示词**绝不会**用于训练 - ✅ 结果仅对你可见（企业版则对团队可见） - ✅ 符合 GDPR 的数据处理 - ✅ SOC 2 Type II 认证（企业版） - ✅ 随时删除你的数据

### IP 保护 - ✅ 专有质量评分算法 - ✅ 每次执行时的许可证验证 - ✅ 使用监控以防止滥用 - ✅ 带有法律执行力的商业许可证

---

## 📚 技术细节

### 系统要求 - **Python**: 3.8+ - **依赖项**: `anthropic`、`openai`、`google-generativeai`（自动安装） - **平台**: macOS、Linux、Windows - **内存**: 至少 512MB

### 性能 - **平均测试时间**: 15-45 秒（取决于所选模型） - **成功率**: 98.2% - **正常运行时间**: 99.9% - **API 速率限制**: 1,000 请求/小时

### 数据保留 - **入门版**: 30 天 - **专业版**: 90 天 - **企业版**: 无限制（或根据协议） - **所有版本**: 随时导出和删除数据

### 收集的指标每次测试捕获： - **延迟**: 首个 token 时间 + 总响应时间（毫秒） - **成本**: 基于实时定价的输入成本 + 输出成本（美元） - **质量**: AI 评估的连贯性、准确性、相关性（0-100） - **Tokens**: 每个提供商的确切输入/输出 token 计数 - **一致性**: 多次运行的标准差 - **错误**: 超时、速率限制、API 失败

---

## ❓ 常见问题

**Q: 我需要所有 3 家提供商的 API 密钥吗？** A: 不需要。你只需要为想要测试的提供商提供密钥。例如，如果你只想测试 Claude 模型，只需 Anthropic API 密钥。

**Q: 谁来支付 API 成本？** A: 你来支付。你需要提供自己的 API 密钥，并直接向提供商支付 API 使用费用。技能订阅费（$29-$99/月）仅用于访问我们的测试平台。

**Q: 成本计算有多准确？** A: 我们使用每个提供商官方费率卡的实时定价。根据实际 token 使用量，成本精确到美分。

**Q: 我可以用非英语语言测试提示词吗？** A: 可以！所有 10 种模型都支持多种语言。该技能适用于任何语言。

**Q: 如果我的提示词非常长（10K+ token）怎么办？** A: 没问题。该技能最多可处理 100K token 的提示词。只需适当设置 `max_tokens` 参数。

**Q: 我可以测试自定义或微调模型吗？** A: 可以，在企业版上。联系我们以添加对你的自定义模型的支持。

**Q: 质量评分是如何工作的？** A: 我们使用专有的 AI 评估算法，根据连贯性、准确性、相关性和指令遵循情况对响应进行评分（0-100 分制）。

**Q: 我可以在生产环境/CI/CD 中使用吗？** A: 可以！专业版和企业版包含 API 访问权限。将测试集成到你的部署流水线中。

**Q: 有免费试用吗？** A: 有。入门版永久免费（每月 5 次测试，2 个模型）。无需信用卡。

**Q: 如果我超出计划限制怎么办？** A: 入门版用户需要升级。付费版用户可以购买额外使用量或升级到企业版以获取无限制服务。

**Q: 你们会存储我的专有提示词吗？** A: 不会。提示词在内存中处理，除非你明确导出结果，否则会立即丢弃。

---

## 🗺️ 路线图

### ✅ 当前版本 (v1.1.5) - 多提供商支持（Claude 4.5、GPT-5.2、Gemini 2.5/3.0） - 跨 3 家提供商的 10 种模型 - 跨提供商成本比较 - 质量评分算法 - 一致性测试 - 最新定价数据 - GPT-5.2 模型支持 - Gemini 3 Pro 支持

### 🚧 即将推出 (v1.3) - **更多模型**: Llama 3.2、Mistral Large、Claude 5（发布时） - **高级分析**: 由 Claude 驱动的提示词优化建议 - **批量测试**: 同时测试 100+ 个提示词 - **团队仪表板**: 带权限的共享工作区 - **Webhook 集成**: Slack、Discord、邮件通知 - **历史跟踪**: 跟踪随时间变化的模型性能

### 🔮 未来 (v1.3+) - **A/B 测试框架**: 科学的提示词实验 - **微调洞察**: 哪些模型最适合你的用例进行微调 - **自定义基准**: 创建你自己的评估标准 - **自动优化**: AI 驱动的提示词改进建议 - **部署集成**: Vercel、AWS Lambda、CloudFlare Workers

---

## 📞 支持

### 文档 - 📚 **完整文档**: https://docs.unisai.vercel.app/tester - 🔧 **API 参考**: https://docs.unisai.vercel.app/tester/api - 💡 **教程**: https://docs.unisai.vercel.app/tester/tutorials

### 社区 - 💬 **Slack 社区**: https://slack.unisai.vercel.app - 📧 **邮件支持**: [email protected] - 🐛 **错误报告**: [email protected] - ⭐ **功能请求**: https://slack.unisai.vercel.app

### 联系方式 - 邮件: [email protected] - Slack: https://slack.unisai.vercel.app

---

## 📄 许可证与条款

此技能是根据商业协议许可的**专有软件**。

### ✅ 你可以： - 用于你自己的业务和项目 - 为内部应用测试提示词 - 与你的团队共享结果（专业版及以上） - 在生产应用中使用 - 导出并分析测试数据

### ❌ 你不能： - 与他人共享许可证密钥 - 逆向工程该技能 - 重新分发或转售该技能 - 未经许可修改源代码 - 将入门版用于商业目的

**完整条款**: 参见 [LICENSE.md](LICENSE.md)

---

## 🚀 开始使用

1. 在 ClawhHub 上订阅此技能 2. 设置你的 API 密钥 3. 使用你的提示词运行测试 4. 查看性能指标和建议

---

## 🏷️ 标签

**主要**: ai-testing, multi-provider, prompt-optimization, cost-analysis, llm-benchmarking

**提供商**: claude, gpt, gemini, anthropic, openai, google

**功能**: api-comparison, performance-testing, multi-model, prompt-engineering, quality-assurance

---

## 📝 更新日志

### [1.1.5] - 2026-02-01

#### 🚀 最新模型更新 - **GPT-5.2 系列** - 新增 Instant、Thinking 和 Pro 版本 - **Gemini 3.0 Pro** - Google 最新的旗舰模型 - **Gemini 2.5 系列** - 更新至 2.5 Pro、Flash 和 Flash-Lite - **Claude 4.5 定价** - Haiku 更新为每 1M tokens $1/$5 - **共 10 个模型** - 从 3 个提供商的 9 个模型扩展至 10 个

#### 📊 定价更新 - 所有模型定价已更新为 2026 年费率 - GPT-5.2：每 1M tokens $1.75/$14.00 - Gemini 3 Pro：每 1M tokens $2.00/$12.00 - Gemini 2.5 Flash-Lite：每 1M tokens $0.10/$0.40（最实惠）

#### 🔧 技术改进 - 支持最新的 API 版本 - 使用 2026 年定价改进了成本计算 - 针对新的 GPT-5.2 和 Gemini 3.0 增强了模型路由

---

### [1.1.0] - 2026-01-15

#### ✨ 主要功能 - **多提供商支持** - 在 Anthropic、OpenAI 和 Google 之间测试提示词 - **支持 10 个模型** - Claude 4.5 (3 个)、GPT-5.2 (3 个)、Gemini 2.5/3.0 (4 个) - **跨提供商比较** - 跨提供商直接进行成本和性能分析 - **特定提供商优化** - 为每项服务定制的 API 调用 - **增强建议** - 多提供商洞察和成本节约分析

#### 🎨 品牌更新 - 从 Prompt Migrator 更名为 UniAI - 将所有 URL 更新为 unisai.vercel.app - 更新了公司名称和联系信息 - 保持了完整的知识产权保护和许可

#### 🏷️ 扩展标签覆盖 - 新增 multi-provider、claude、gpt、gemini、api-comparison 标签 - 面向平台索引的综合标签集

#### 🔧 技术改进 - 集成用于 GPT 模型的 OpenAI SDK - 集成用于 Gemini 模型的 Google Generative AI - 提供商检测和路由逻辑 - 改进了每个提供商的 token 计数 - 跨提供商更好的错误处理 - 增强的质量评分算法

#### 📊 成本分析增强 - 所有 10 个模型的实时定价 - 特定提供商的成本计算 - 跨提供商的比较指标 - 显示潜在节省的 ROI 计算 - 跨提供商成本优化建议

#### 🔒 安全与知识产权保护 - IP 水印：`PROPRIETARY_SKILL_VEDANT_2024_MULTI_PROVIDER` - 零 API 密钥泄露（仅限环境变量） - 保持了专有代码保护 - 在所有提供商上强制执行完整许可

---

### [1.0.0] - 2024-02-02

#### 初始版本 - 仅限 Claude 的提示词测试（Haiku、Sonnet、Opus） - 性能指标收集（延迟、成本、质量） - 多次运行的一致性测试 - 基本建议引擎 - 用于自动化的 API 访问 - 专有知识产权保护框架

---

**上次更新**：2026 年 2 月 **当前版本**：1.1.5 **状态**：活跃维护中

Prompt Performance Tester - UnisAI

介绍

更多产品

Nano Banana Pro

Gemini

Pg Release