怎么做模型AB实验?

因果推理和决策理论

不管是模型、策略、规则,我们都希望用灰度发布、AB实验的方式验证它的实际效果,并且用到一些统计指标来量化效果的好坏。 AB Testing是决策理论(Decision theory)的一种方法。

分析悖论

辛普森悖论

Lord悖论

分析偏差

混杂偏差

样本选择偏差

实验波动

AA实验的波动的原因非常多,大多属于随机性因素。

我们需要用置信度和置信区间来描述波动性,从而判断AB实验的结果是策略生效导致的还是波动导致的。

你做无数多次AA实验,指标的差落在某个范围内(置信区间)的概率有多大(置信度)。

当拿到一个AB实验数据的时候,我们要能够知道数据指标有多大概率是因为波动而贡献的。

AA实验 vs AB实验

AA实验的目的是是要确保整个实验环境是正确运行的。不同实验组之间的基础环境一致。

实验指标

指标标准差描述的是指标取值的稳定程度。

寻找稳定性稍好的指标

Read/U(平均每个用户每天会有多少次阅读)

计算F值

F = variation between sample means / variation within the samples

计算P值

正例占比 和 样本总数,这两个数值都对指标的评价有影响。简单来讲,就是样本数越大,正例占比这个结果越是可信。

P值为结果可信程度的一个递减指标,p值越大,我们越不能认为样本中变量的关联 是总体中各变量关联的可靠指标。 P值即概率,反映某一事件发生的可能性大小。统计学根据显著性检验方法所得到的P 值,一般以P < 0.05 为显著, P<0.01 为非常显著,其含义是样本间的差异由抽样误差所致的概率小于0.05 或0.01。实际上,P值不能赋予数据任何重要性,只能说明某事件发生的机率。 如果 P<0.01,说明是较强的判定结果,拒绝假定的参数取值。 如果 0.01<P值<0.05,说明较弱的判定结果,拒接假定的参数取值。 如果 P值>0.05,说明结果更倾向于接受假定的参数取值。

置信区间

所谓”置信区间”,就是说,以某个概率而言,p会落在的那个区间。比如说,我有百分之90的把握,这个值会落在A~B之间,则A~B就是置信区间。置信区间的实质,就是进行可信度的修正,弥补样本量过小的影响。

威尔逊区间

公式: ^p表示样本的”赞成票比例”,n表示样本的大小,z表示对应某个置信水平的z统计量,这是一个常数(一般情况下,在95%的置信水平下,z统计量的值为1.96).

Multi-Armed Bandit

这是进行模型实验的另一种方法。

Interleaving 测试方法

传统AB实验方法是选中一部分用户或流量,使用新的算法或策略,比较跟基准算法或策略的表现差异。

而Interleaving方法会在一个请求中混合基准算法和实验算法的结果,也就是说,需要一个混合AB结果的过程。

实验灵敏度

如何用更少的样本和时间,或者当样本和时间无法增加时,如何有效的进行AB实验。

CUPED

Controlled-experiment Using Pre-Experiment Data 是一种方差缩减方法。主要利用实验前的无偏数据,(一般选取实验前的同一指标)对实验核心指标进行修正,使得新指标的方差更低,得到更敏感的新指标,放大实验组的影响。

Propensity Score Matching(PSM)倾向性评分匹配

参考

AA实验的波动性 https://juejin.im/post/5bcd3cfcf265da0b001f69a9

interleaving实验方法 https://zhuanlan.zhihu.com/p/68509372

A/B Testing课程 https://www.udacity.com/course/ab-testing–ud257

因果推断 uplift model https://zhuanlan.zhihu.com/p/343747851

因果启发的学习、推断和决策 https://tech.meituan.com/2022/03/17/causal-inference.html

*****
Written by Lu.dev on 05 November 2018