当前已有 6 份文档覆盖了"概念 方法 难点 实践 业界"的主线,但以理论知识为主。真正要让团队落地,还缺三个关键拼图。
| 文件 | 定位 |
|---|---|
AB测试基本概念详解.md |
入门教材:分层、分流、Feature Flag、术语表 |
AB测试数据科学方法速查.md |
方法索引:18 个方法按类别排列 |
AB测试数据科学全景指南.md |
深度教材:第一性原理、全生命周期、数学推导 |
AB测试实践难点与解决方案.md |
避坑指南:18 个实践难点 解决方案 |
AB测试最佳实践经验.md |
实践手册:流程规范、评审清单、组织文化 |
业界AB测试标杆与工具对比.md |
选型参考:标杆公司、商业平台、开源方案 |
为什么缺它不行:理论知识再多,面对真实场景时还是会抓瞎。案例库解决的是"在这种具体场景下,到底怎么设计、怎么分析、怎么决策"的问题。
应包含的内容:
每个案例的结构:业务背景 实验设计 数据 分析过程 决策 复盘。
高价值的典型场景:
| 案例 | 核心看点 |
|---|---|
| 推荐算法实验 | 策略提升不显著,但 HTE 分析发现新用户受益、老用户受损怎么决策? |
| 定价 A/B 实验 | 实验组降价提升了转化,但 GMV 反而下降怎么判断是否上线? |
| UI 改版实验 | CTR 显著提升但留存下降Novelty Effect 还是真有伤害? |
| "失败"实验复盘 | 以为能提升 10% 的策略实际效果为 0假设错了还是实验没做好? |
| 搜索排序 Interleaving | 如何用成对比较在 1/10 的流量下得到比传统 A/B 更可靠的结论? |
| 运营推送实验 | 推送提升了 DAU 但卸载率也在上升ROI 怎么算? |
| 双边市场实验 | 乘客降价实验如何通过司机供给间接影响对照组? |
| ToB 小样本实验 | 只有 200 个商户,怎么做 A/B 测试? |
为什么缺它不行:实验的方法和工具再好,如果衡量的指标不对,一切白费。当前文档提了 OEC 和护栏指标,但如何系统性地设计指标体系没有展开。
应包含的内容:
为什么缺它不行:如果要自研实验平台,当前文档缺少工程视角的系统架构指引。
应包含的内容:
| 优先级 | 文档 | 理由 |
|---|---|---|
| P0 | 实验案例库 | 团队学完理论最缺的就是实战范例,直接影响"会不会用" |
| P1 | 指标体系建设 | 指标选错了,后面所有方法都是空中楼阁 |
| P2 | 平台工程架构 | 如果计划自研才需要,采购平台则可跳过 |
A/B 测试知识体系
概念层 AB测试基本概念详解(分层/分流/Feature Flag)
业界AB测试标杆与工具对比
方法层 AB测试数据科学方法速查(18 个方法索引)
AB测试数据科学全景指南(数学推导 + 进阶专题)
实践层 AB测试最佳实践经验(流程/评审/模板)
AB测试实践难点与解决方案(18 个难点 对策)
实验案例库(真实场景 全流程复盘) 待补
指标体系建设指南 待补
工程层 实验平台工程架构 待补