ClawSkills logoClawSkills

Skill Evaluator

使用多框架评估标准(ISO 25010、OpenSSF、Shneiderman、代理特定的启发式评估 Clawdbot 技能的质量、可靠性和发布准备情况

介绍

# Skill Evaluator

使用混合的自动化和人工方法,基于 25 条标准评估技能。

## 快速开始

### 1. 运行自动化检查

```bash python3 scripts/eval-skill.py /path/to/skill python3 scripts/eval-skill.py /path/to/skill --json # machine-readable python3 scripts/eval-skill.py /path/to/skill --verbose # show all details ```

检查项:文件结构、Frontmatter、描述质量、脚本语法、依赖审计、凭据扫描、环境变量文档。

### 2. 人工评估

使用 [references/rubric.md](references/rubric.md) 中的评分表,在 8 个类别下对 25 条标准进行评分(每项 0-4 分,满分 100 分)。每条标准在各个评分级别都有具体的描述。

### 3. 撰写评估报告

将 [assets/EVAL-TEMPLATE.md](assets/EVAL-TEMPLATE.md) 复制到技能目录,并命名为 `EVAL.md`。填入自动化结果和人工评分。

## 评估流程

1. **运行 `eval-skill.py`** —— 获取自动化的结构评分 2. **阅读技能的 SKILL.md** —— 了解其功能 3. **阅读/浏览脚本** —— 评估代码质量、错误处理、可测试性 4. **对每个人工标准进行评分**,参考 [references/rubric.md](references/rubric.md) —— 各级别均有具体标准 5. **对发现的问题进行优先级排序** —— P0(阻碍发布)/ P1(应当修复)/ P2(最好具备) 6. **在技能目录中撰写 EVAL.md**,包含评分和发现

## 类别(8 个类别,25 条标准)

| # | 类别 | 来源框架 | 标准 | |---|----------|-----------------|----------| | 1 | 功能适用性 | ISO 25010 | 完整性、正确性、恰当性 | | 2 | 可靠性 | ISO 25010 | 容错性、错误报告、可恢复性 | | 3 | 性能 / 上下文 | ISO 25010 + Agent | Token 成本、执行效率 | | 4 | 易用性 — AI Agent | Shneiderman, Gerhardt-Powals | 易学性、一致性、反馈、防错 | | 5 | 易用性 — 人类 | Tognazzini, Norman | 可发现性、宽容性 | | 6 | 安全性 | ISO 25010 + OpenSSF | 凭据、输入验证、数据安全 | | 7 | 可维护性 | ISO 25010 | 模块化、可修改性、可测试性 | | 8 | Agent 专用 | Novel | 触发精确度、渐进式披露、可组合性、幂等性、逃生通道 |

## 分数解读

| 分数区间 | 结论 | 行动 | |-------|---------|--------| | 90–100 | 优秀 | 可放心发布 | | 80–89 | 良好 | 可发布,需注明已知问题 | | 70–79 | 可接受 | 发布前修复 P0 级问题 | | 60–69 | 需改进 | 发布前修复 P0 和 P1 级问题 | | <60 | 尚未就绪 | 需要大幅返工 |

## 更深入的安全扫描

此评估器涵盖了安全基础(凭据、输入验证、数据安全),但对于开发中技能的全面安全审计,建议考虑使用 [SkillLens](https://www.npmjs.com/package/skilllens) (`npx skilllens scan <path>`)。它可以检查数据外泄、代码执行、持久化、权限绕过和提示注入 —— 这与本文关注的质量方面互为补充。

## 依赖项

- Python 3.6+(用于 eval-skill.py) - PyYAML (`pip install pyyaml`) —— 用于自动化检查中的 frontmatter 解析

更多产品