A/B 测试知识体系补全计划

A/B 测试知识库

当前已有 6 份文档覆盖了"概念方法难点实践业界"的主线，但以理论知识为主。真正要让团队落地，还缺三个关键拼图。

当前已有文档

文件	定位
`AB测试基本概念详解.md`	入门教材：分层、分流、Feature Flag、术语表
`AB测试数据科学方法速查.md`	方法索引：18 个方法按类别排列
`AB测试数据科学全景指南.md`	深度教材：第一性原理、全生命周期、数学推导
`AB测试实践难点与解决方案.md`	避坑指南：18 个实践难点解决方案
`AB测试最佳实践经验.md`	实践手册：流程规范、评审清单、组织文化
`业界AB测试标杆与工具对比.md`	选型参考：标杆公司、商业平台、开源方案

缺 1：实验案例库（从"知道"到"会做"）

为什么缺它不行：理论知识再多，面对真实场景时还是会抓瞎。案例库解决的是"在这种具体场景下，到底怎么设计、怎么分析、怎么决策"的问题。

应包含的内容：

每个案例的结构：业务背景实验设计数据分析过程决策复盘。

高价值的典型场景：

案例	核心看点
推荐算法实验	策略提升不显著，但 HTE 分析发现新用户受益、老用户受损怎么决策？
定价 A/B 实验	实验组降价提升了转化，但 GMV 反而下降怎么判断是否上线？
UI 改版实验	CTR 显著提升但留存下降Novelty Effect 还是真有伤害？
"失败"实验复盘	以为能提升 10% 的策略实际效果为 0假设错了还是实验没做好？
搜索排序 Interleaving	如何用成对比较在 1/10 的流量下得到比传统 A/B 更可靠的结论？
运营推送实验	推送提升了 DAU 但卸载率也在上升ROI 怎么算？
双边市场实验	乘客降价实验如何通过司机供给间接影响对照组？
ToB 小样本实验	只有 200 个商户，怎么做 A/B 测试？

缺 2：指标体系建设指南（从"选几个指标"到"指标体系设计"）

为什么缺它不行：实验的方法和工具再好，如果衡量的指标不对，一切白费。当前文档提了 OEC 和护栏指标，但如何系统性地设计指标体系没有展开。

应包含的内容：

指标分级：北极星指标一级指标二级指标过程指标
指标验证：代理指标真的能驱动北极星吗？如何用历史数据做相关性验证？
指标敏感度评估：哪个指标更"敏感"给同样的样本量，哪个指标更容易检测到效应？
指标诊断体系：当实验结论矛盾时（如 CTR 但留存），如何用指标树拆解定位到根因？
OEC 权重推导：如何从业务目标科学地推导出复合指标的权重？

缺 3：实验平台工程架构（从"懂方法"到"能搭建"）

为什么缺它不行：如果要自研实验平台，当前文档缺少工程视角的系统架构指引。

应包含的内容：

SDK 设计：多语言 SDK（Java/Go/Python/JS）的架构规范、本地缓存策略、容错降级
分流服务：高可用设计（分流延迟 < 1ms）、配置变更实时生效的推送机制
数据管道：埋点规范实时/离线指标计算实验报告自动生成的完整链路
平台架构图：管理层分流层数据层分析层，各层的职责和技术选型
性能指标：分流延迟、配置下发延迟、数据时效性等 SLA 目标

优先级建议

优先级	文档	理由
P0	实验案例库	团队学完理论最缺的就是实战范例，直接影响"会不会用"
P1	指标体系建设	指标选错了，后面所有方法都是空中楼阁
P2	平台工程架构	如果计划自研才需要，采购平台则可跳过

补全后的知识体系全景

A/B 测试知识体系

概念层  AB测试基本概念详解（分层/分流/Feature Flag）
         业界AB测试标杆与工具对比

方法层  AB测试数据科学方法速查（18 个方法索引）
         AB测试数据科学全景指南（数学推导 + 进阶专题）

实践层  AB测试最佳实践经验（流程/评审/模板）
         AB测试实践难点与解决方案（18 个难点  对策）
          实验案例库（真实场景  全流程复盘）           待补
          指标体系建设指南                             待补

工程层   实验平台工程架构                              待补