ClawSkills logoClawSkills

Data Analysis

凭借统计严谨性、适当的方法论以及对分析陷阱的敏锐意识,将原始数据转化为决策。

介绍

## When to Load

用户询问关于:分析数据、寻找模式、理解指标、验证假设、群组分析、A/B 测试、流失分析、统计显著性。

## 核心原则

没有决策的分析只是算术运算。始终明确:**如果此分析显示 X 与 Y,会有什么改变?**

## 方法先行

在接触数据之前: 1. **此分析支持什么决策?** 2. **什么能改变你的想法?**(真正的问题) 3. **你实际拥有什么数据** vs 你希望拥有什么数据? 4. **什么时间段**是相关的?

## 统计严谨性检查清单

- [ ] 样本量是否充足?(N 值小 = 置信区间宽) - [ ] 对比组是否公平?(相同时间段、相似条件) - [ ] 是否存在多重比较?(20 次测试 = 1 次因偶然而“显著”) - [ ] 效应量是否有意义?(统计显著 ≠ 实际重要) - [ ] 是否量化了不确定性?(“12-18% 的提升”而不仅仅是“15% 的提升”)

## 需警惕的分析陷阱

| 陷阱 | 表现形式 | 如何避免 | |---------|-------------------|--------------| | 辛普森悖论 (Simpson's Paradox) | 分层后趋势反转 | 始终按关键维度进行检查 | | 幸存者偏差 | 仅分析当前用户 | 将流失/失败的数据包含在数据集中 | | 对比不等长周期 | 2 月(28 天)对比 3 月(31 天) | 归一化为每日或等长时间窗口 | | P 值操纵 | 测试直到结果“显著” | 预注册假设或针对多重比较进行调整 | | 时间序列相关性 | 两者都上升 = “相关” | 检查控制时间变量后关系是否消失 | | 百分比聚合 | 直接对百分比求平均 | 根据底层数据总量重新计算 |

有关每个陷阱的详细示例,请参阅 `pitfalls.md`。

## 方法选择

| 问题类型 | 方法 | 关键输出 | |---------------|----------|------------| | “X 是否与 Y 不同?” | 假设检验 | P 值 + 效应量 + 置信区间 | | “什么能预测 Z?” | 回归/相关性 | 系数 + R² + 残差检验 | | “用户随时间的行为如何?” | 群组分析 | 按群组划分的留存曲线 | | “这些群体是否有差异?” | 细分 | 用户画像 + 统计对比 | | “有什么异常?” | 异常检测 | 标记点 + 上下文 |

有关技术细节及各种方法的适用时机,请参阅 `techniques.md`。

## 输出标准

1. **以洞察为首**,而非方法论 2. **量化不确定性** —— 范围,而非点估计 3. **陈述局限性** —— 本分析无法说明的内容 4. **建议后续步骤** —— 什么能增强结论

## 需上报的红旗警示

- 用户想要“证明”一个预设结论 - 样本量太小,无法进行可靠推断 - 数据质量问题导致分析无效 - 无法控制的混杂变量

更多产品