A/B测试的置信区间&假设检验--08

今日头条,一个靠 ab 测试发家的互联网企业,那要怎么才能正确的理解 ab 测试呢?

AB 测试源自抽样

AB 测试首先来自一个比较基础的概念,抽样,选取一部分用户测试某一个或者某几个功能。

A/B 测试最核心的思想,即:

1、多个方案并行测试;

2、每个方案只有一个变量(比如鸟喙)不同;

3、以某种规则优胜劣汰。

对于抽样展示的用户,需要注意控制访问各个版本的人数,大多数情况下我们会希望将访问者平均分配到各个不同的版本上。要做到这些很简单,根据 cookie (比如 cookie 会话ID的最后一位数字)决定展示哪个版本就是一个不错的方法。

置信区间

在处理测试数据的时候,我们需要根据抽样数据换算为总体样本的数据,这样才能保证抽样的效果和整体效果的一致性。

所以,在处理数据的时候,我们需要考虑置信区间。

置信区间是什么

置信区间(Confidence Interval)是用来对一个概率样本的总体参数进行区间估计的样本均值范围,它展现了这个均值范围包含总体参数的概率,这个概率称为置信水平。

置信水平代表了估计的可靠度,一般而言,我们采用 95% 的置信水平进行区间估计。

置信区间的目的是为了避免我们急于下结论:

例如,假设在购物车页面进行 A/B 测试,其中“A”是单选按钮而“B”是下拉菜单。于是就有了结论,“B”提高了75%的转换率。显然,B更好,是这样吗?

不一定。因为有三个事实需要考虑:

1.样本容量
还是上面的例子,如果你的样本量为4人,这意味着只有3人喜欢下拉菜单。当然,这是一个良好的开端,但在1000的样本量仍是这一结果的可能性极低;因此,本次测试的结果属低置信度。

2.容错率
例如,在样本大小为500时,99%的客户倾向于下拉菜单,你可以相当肯定的是,你的误差率较低。如果,49%的用户喜欢下拉菜单,51%的用户喜欢单选按钮,那么随机性就不得不考虑进来了,你应该继续运行测试,直到一个更高的置信度。

3.用户规模
如果你的整个用户群体的规模是25万,你的样本量为25人,这样产生测试结果也不具有高置信水平。

置信区间的深度理解

http://www.woshipm.com/operate/376703.html
http://www.woshipm.com/pmd/380883.html
http://www.woshipm.com/operate/385200.html
http://www.woshipm.com/pmd/388782.html

需要时间补充下统计学的基础知识。

假设检验