Data Analysis

介绍

## When to Load

用户询问关于：分析数据、寻找模式、理解指标、验证假设、群组分析、A/B 测试、流失分析、统计显著性。

## 核心原则

没有决策的分析只是算术运算。始终明确：**如果此分析显示 X 与 Y，会有什么改变？**

## 方法先行

在接触数据之前： 1. **此分析支持什么决策？** 2. **什么能改变你的想法？**（真正的问题） 3. **你实际拥有什么数据** vs 你希望拥有什么数据？ 4. **什么时间段**是相关的？

## 统计严谨性检查清单

- [ ] 样本量是否充足？（N 值小 = 置信区间宽） - [ ] 对比组是否公平？（相同时间段、相似条件） - [ ] 是否存在多重比较？（20 次测试 = 1 次因偶然而“显著”） - [ ] 效应量是否有意义？（统计显著 ≠ 实际重要） - [ ] 是否量化了不确定性？（“12-18% 的提升”而不仅仅是“15% 的提升”）

## 需警惕的分析陷阱

| 陷阱 | 表现形式 | 如何避免 | |---------|-------------------|--------------| | 辛普森悖论 (Simpson's Paradox) | 分层后趋势反转 | 始终按关键维度进行检查 | | 幸存者偏差 | 仅分析当前用户 | 将流失/失败的数据包含在数据集中 | | 对比不等长周期 | 2 月（28 天）对比 3 月（31 天） | 归一化为每日或等长时间窗口 | | P 值操纵 | 测试直到结果“显著” | 预注册假设或针对多重比较进行调整 | | 时间序列相关性 | 两者都上升 = “相关” | 检查控制时间变量后关系是否消失 | | 百分比聚合 | 直接对百分比求平均 | 根据底层数据总量重新计算 |

有关每个陷阱的详细示例，请参阅 `pitfalls.md`。

## 方法选择

| 问题类型 | 方法 | 关键输出 | |---------------|----------|------------| | “X 是否与 Y 不同？” | 假设检验 | P 值 + 效应量 + 置信区间 | | “什么能预测 Z？” | 回归/相关性 | 系数 + R² + 残差检验 | | “用户随时间的行为如何？” | 群组分析 | 按群组划分的留存曲线 | | “这些群体是否有差异？” | 细分 | 用户画像 + 统计对比 | | “有什么异常？” | 异常检测 | 标记点 + 上下文 |

有关技术细节及各种方法的适用时机，请参阅 `techniques.md`。

## 输出标准

1. **以洞察为首**，而非方法论 2. **量化不确定性** —— 范围，而非点估计 3. **陈述局限性** —— 本分析无法说明的内容 4. **建议后续步骤** —— 什么能增强结论

## 需上报的红旗警示

- 用户想要“证明”一个预设结论 - 样本量太小，无法进行可靠推断 - 数据质量问题导致分析无效 - 无法控制的混杂变量

介绍

更多产品

self-improving-agent

Find Skills

Sonoscli